Inteligência Artificial da Microsoft consegue construir um discurso realista com pouco treinamento

A conversão de texto em fala está se tornando cada vez mais eficiente. No entanto, ainda será necessário muito tempo e recursos de treinamento para produzir uma saída com voz natural. Em resposta a isso, pesquisadores da Microsoft e da China podem ter desenvolvido uma maneira mais eficaz para resolver essa questão. Eles criaram uma Inteligência Artificial text-to-speech, que pode gerar uma fala realista usando apenas 200 amostras de voz (cerca de 20 minutos) e transcrições correspondentes.

O sistema depende em parte de “Transformadores” (ou redes neurais profundas) que imitam os neuônios no cerébro. Os transformadores pesam cada entrada e saída, na hora, como links sinápticos, ajudando-os a processar seqüências demoradas de maneira muito eficiente — uma frase complexa, por exemplo. Combine isso com um componente codificador de remoção de ruído e o AI pode fazer muito com relativamente pouco.

Os resultados não são perfeitos — o som é ligeiramente robótico — mas são altamente precisos, com uma inteligibilidade de 99,84%. Mais importante, isso poderia tornar o texto para fala mais acessível. Você não precisaria gastar muito esforço para obter vozes realistas, colocando-a ao alcance de pequenas empresas e até de usuários amadores. Isso também é um bom presságio para o futuro. Os pesquisadores esperam treinar dados não marcados, de modo que talvez seja necessário ainda menos trabalho para criar um diálogo realista.