Google pode ter criado uma ferramenta que pode separar sons de áudio de ruídos. Por meio do serviço oferecido pela plataforma SoundFilter baseada em IA, a empresa acredita que o recurso poderá auxiliar na criação de uma variedade de tecnologias úteis. O Google Meet, por exemplo, já possui uma opção parecida em seu sistema de cancelamento de ruído alimentado por inteligência artificial.

A gigante da tecnologia diz que a aplicação pode ser ajustada para filtrar fontes de som arbitrárias, mesmo aquelas que não foram vistas durante o treinamento de máquina. Resumidamente, o recurso funciona da seguinte forma: recebe como entrada a mistura de áudio a ser filtrada e um pequeno exemplo do som a ser filtrado. Uma vez treinado, o SoundFilter pode extrair esse tipo de som da mistura, se houver.

Reprodução

Nova tecnologia da Google é capaz de separar voz de ruídos externos. Créditos: Metamorworks/Shutterstock

Para que o sistema ficasse completo, os pesquisadores treinaram a plataforma com dois conjuntos de códigos abertos, sendo um formado por mais de 50 mil sons e outro por quase mil horas de fala em inglês. Depois deste processo, os estudiosos relatam que o codificador de condicionamento aprendeu a produzir embeddings que representam as características acústicas do áudio de condicionamento. A partir daí, a IA permite a separação das vozes de misturas de alto-falantes.

“Nosso trabalho poderia ser estendido explorando como usar a incorporação aprendida como parte do SoundFilter como uma representação para um classificador de eventos de áudio”, escreveram os pesquisadores no artigo sobre o trabalho.

Mas, afinal, o que é um SoundFilter?

SoundFilter trata-se de uma arquitetura de rede neural onda a onda. Isso quer dizer o que sistema pode ser treinado com a utilização de amostras de áudio sem a necessidade de rótulos que denotam qual o tipo de fonte. Para que isso ocorra, um codificador de condicionamento pega o áudio, também de condicionamento, e calcula a incorporação correspondente, ou seja, a representação numérica.

Enquanto isso, um gerador condicional pega a mistura de áudio e a incorporação de condicionamento como entrada e produz a saída filtrada. De acordo com o site Venture Beat, desta forma, “o sistema assume que a coleção de áudio original consiste em muitos clipes de alguns segundos de duração que contêm o mesmo som por toda a duração. Além disso, o SoundFilter presume que cada clipe contém uma única fonte de áudio, como um alto-falante, um instrumento musical ou um canto de pássaro”.

Reprodução

SoundFilter considera três partes principais para fazer a separação de sons. Créditos: Sertaa/Shutterstock

De forma geral, este modelo é treinado para produzir um áudio alvo, considerando a mistura e o áudio condessado como entradas. Para entender melhor como o processo acontece, o treinamento de SoundFilter contém três principais partes: o áudio de destino que possui apenas um som, uma mistura que contém dois sons diferentes, um dos quais é o áudio alvo, e um sinal de áudio de condicionamento, outro exemplo com o mesmo tipo de som que o áudio de destino. O processo considera as três partes, resultando na separação entre voz e áudio.

 

Via: Venture Beat