Fazer uma reunião via videoconferência dentro de um ambiente controlado, como um escritório, é bem diferente de tentar fazer uma reunião remota em casa em tempos de isolamento social. Cachorro latindo, buzina na rua, alguém digitando no teclado, todos esses ruídos podem prejudicar a qualidade do áudio da conferência e atrapalhar o entendimento dos usuários.
O Microsoft Teams, um dos apps mais valorizados nesse cenário pós-coronavírus, está testando um novo recurso de supressão de ruído em tempo real para remover automaticamente o barulho de fundo indesejável durante reuniões. O sistema usa Inteligência Artificial para aprender a diferença entre o que é fala e o que é ruído para deixar as videoconferências mais “limpas”.
Tradicionalmente, filtros de ruído conseguem reter sons estacionários, como um ventilador ou ar-condicionado, por exemplo. Para fazer isso, o sistema busca por pausas na fala e estima a linha de base do ruído, assumindo que o barulho de fundo será contínuo não mudará ao longo do tempo para filtrá-lo.
A ideia do novo recurso no Microsoft Teams é suprimir também sons que não são constantes, como alguém fechando uma porta ou uma pessoa comendo durante a reunião. “Você não pode estimar isso em pausas na fala. O que o aprendizado de máquina agora permite que você faça é criar esse grande conjunto ruídos representativos”, afirma Robert Aichner, gerente do Microsoft Teams.
Isolar somente o som das vozes humanas é muito difícil porque outros ruídos também acontecem nas mesmas frequências – se uma fala e o barulho se sobrepuserem, não será possível distinguir os dois. Em vez disso, o sistema pretende saber com antecedência o que é ruído e o que é fala. Para isso, a equipe da Microsoft desenvolveu modelos de aprendizado de máquina para reconhecimento de fala.
“Pegamos milhares de alto-falantes e mais de 100 tipos de ruído. E então o que fazemos é misturar a fala limpa sem barulho com o barulho. Então simulamos um sinal de microfone e damos ao modelo o discurso limpo e damos a ordem: a partir desses dados barulhentos, extraia um sinal limpo. É assim que você treina redes neurais”, explica Aichner.
Ao alimentar um conjunto de dados grande o suficiente – nesse caso, centenas de horas de gravações – a Microsoft pôde treinar efetivamente seu modelo. “O sistema é capaz de generalizar e reduzir o ruído que se sobrepõe à minha voz, mesmo que ela não faça parte dos dados de treinamento”, garante Aichner.
Via: Venture Beat