Quem tem um iPhone com o iOS 13 deve ter notado uma mudança sutil no comportamento da Siri. Ela responde quando você diz “Ei Siri”, mas não quando a mesma frase vem de um amigo ou familiar por perto.
O motivo é simples: evitar que todos os iPhones da sala respondam quando a frase é dita. O interessante é que a Apple conseguiu fazer isso sem coletar uma enorme quantidade de dados sobre você.
Segundo um artigo no MIT Technology Review, o segredo é uma técnica chamada Federated Learning, desenvolvida pelo Google em 2017. Funciona assim: seu smartphone baixa uma cópia de um modelo de reconhecimento de fala, e aprimora-o aprendendo com os dados armazenados localmente no aparelho. As alterações são resumidas em uma pequena atualização que é enviada para a nuvem, usando comunicação criptografada.
Lá é calculada uma “média” com outras atualizações de outros usuários para melhorar o modelo compartilhado, e o ciclo se repete. Todos os dados de treinamento permanecem no seu dispositivo, incluindo gravações coletadas, e nenhuma atualização individual é armazenada na nuvem. A cada atualização, a Siri fica melhor na tarefa de reconhecer quem está falando.
Outro segredo é uma técnica conhecida como “privacidade diferencial”: o sistema injeta uma pequena quantidade de “ruído” (dados aleatórios) em cada amostra que está sendo analisada pelo modelo de IA. Isso dificulta “reverter” o processo e decodificar o áudio original, caso os dados sejam extraídos por um malfeitor ou vazem em uma falha de servidor.
Ambas as técnicas foram combinadas pela primeira vez no iOS 13, e embora ainda sejam relativamente novas e precisem de mais refinamentos, sua adoção conjunta pela Apple fornece um estudo de caso para sua aplicação em escala.
Ela também marca uma mudança fundamental no pensamento da indústria de tecnologia, que acredita que para aumentar a utilidade de um sistema de IA são necessários mais dados, sacrificando a privacidade. Na verdade, agora é possível alcançar ambos. Vamos torcer para que outras empresas adotem esta idéia rapidamente.
Fonte: MIT Technology Review