O Google está em busca de um sistema de fala artificial que seja mais convincente e humana. Para isso, a gigante de buscas criou o Tacotron 2: um novo método de treino de rede neural que consegue produzir falas mais realistas a partir de textos. O objetivo da empresa pode ser usar a novidade em serviços como a Assistente e também dispositivos domésticos como o Google Home.
Para criar o Tacotron 2, o Google misturou os pontos fortes de duas tecnologias atuais. O primeiro é o WaveNet, que lida com um pedaço de áudio por vez para formar as frases, mas tropeça em desafios como entonação, pronúncia, entre outros. Já a outra é a primeira versão do Tacotron, que se destacava justamente pela entonação e prosódia, mas não era viável para ser usada em produtos.
Ao juntar os pontos fortes de ambas, o Tacotron 2 consegue oferecer resultados mais naturais. O sistema usa o texto e a narração para calcular as regras linguísticas do trecho, mesmo que estas não estejam explícitas, conforme publicou o TechCrunch. Além disso, a técnica utiliza o legado do WaveNet para gerar os sons das palavras e o do Tacotron para dar ritmo e ênfase.
Além de interpretar o texto para criar falas mais naturais, o Tacotron 2 também pode corrigir a escrita para uma pronúncia correta e detectar pontuação para fazer pausas e mudanças na entonação adequadas. Para demonstrar a capacidade da nova tecnologia, o Google publicou diversos exemplos e comparações com voz humanas. Os áudios podem ser acessados neste link.