Google desenvolve sistema de separação de áudio e voz

Plataforma promete ajudar na elaboração de outras tecnologias; treinamento considerou pacote de sons e vozes faladas
Leticia Riente14/11/2020 17h22, atualizada em 16/11/2020 11h41

20201114022918-1920x1080

Compartilhe esta matéria

Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Google pode ter criado uma ferramenta que pode separar sons de áudio de ruídos. Por meio do serviço oferecido pela plataforma SoundFilter baseada em IA, a empresa acredita que o recurso poderá auxiliar na criação de uma variedade de tecnologias úteis. O Google Meet, por exemplo, já possui uma opção parecida em seu sistema de cancelamento de ruído alimentado por inteligência artificial.

A gigante da tecnologia diz que a aplicação pode ser ajustada para filtrar fontes de som arbitrárias, mesmo aquelas que não foram vistas durante o treinamento de máquina. Resumidamente, o recurso funciona da seguinte forma: recebe como entrada a mistura de áudio a ser filtrada e um pequeno exemplo do som a ser filtrado. Uma vez treinado, o SoundFilter pode extrair esse tipo de som da mistura, se houver.

Reprodução

Nova tecnologia da Google é capaz de separar voz de ruídos externos. Créditos: Metamorworks/Shutterstock

Para que o sistema ficasse completo, os pesquisadores treinaram a plataforma com dois conjuntos de códigos abertos, sendo um formado por mais de 50 mil sons e outro por quase mil horas de fala em inglês. Depois deste processo, os estudiosos relatam que o codificador de condicionamento aprendeu a produzir embeddings que representam as características acústicas do áudio de condicionamento. A partir daí, a IA permite a separação das vozes de misturas de alto-falantes.

“Nosso trabalho poderia ser estendido explorando como usar a incorporação aprendida como parte do SoundFilter como uma representação para um classificador de eventos de áudio”, escreveram os pesquisadores no artigo sobre o trabalho.

Mas, afinal, o que é um SoundFilter?

SoundFilter trata-se de uma arquitetura de rede neural onda a onda. Isso quer dizer o que sistema pode ser treinado com a utilização de amostras de áudio sem a necessidade de rótulos que denotam qual o tipo de fonte. Para que isso ocorra, um codificador de condicionamento pega o áudio, também de condicionamento, e calcula a incorporação correspondente, ou seja, a representação numérica.

Enquanto isso, um gerador condicional pega a mistura de áudio e a incorporação de condicionamento como entrada e produz a saída filtrada. De acordo com o site Venture Beat, desta forma, “o sistema assume que a coleção de áudio original consiste em muitos clipes de alguns segundos de duração que contêm o mesmo som por toda a duração. Além disso, o SoundFilter presume que cada clipe contém uma única fonte de áudio, como um alto-falante, um instrumento musical ou um canto de pássaro”.

Reprodução

SoundFilter considera três partes principais para fazer a separação de sons. Créditos: Sertaa/Shutterstock

De forma geral, este modelo é treinado para produzir um áudio alvo, considerando a mistura e o áudio condessado como entradas. Para entender melhor como o processo acontece, o treinamento de SoundFilter contém três principais partes: o áudio de destino que possui apenas um som, uma mistura que contém dois sons diferentes, um dos quais é o áudio alvo, e um sinal de áudio de condicionamento, outro exemplo com o mesmo tipo de som que o áudio de destino. O processo considera as três partes, resultando na separação entre voz e áudio.

Via: Venture Beat

Colaboração para o Olhar Digital

Leticia Riente é colaboração para o olhar digital no Olhar Digital