A DeepMind, empresa de inteligência artificial do Google, apresentou hoje a WaveNet, uma rede neural voltada para gerar ondas de som. Dentre os talentos do programa, ele é capaz de imitar com precisão vozes humanas e até mesmo criar pequenas peças musicais.
Normalmente, os programas que dão voz a computadores usam tecnologia concatenativa de texto para voz. Por esse método, diferentes sílabas são juntadas para compor uma frase. Essa técnica é relativamente simples, mas produz resultados pouco convincentes – ela soa muito como uma máquina falando. Serviços como o Google Now e o Google Tradutor usam esse tipo de síntese vocal.
O modelo da WaveNet, por sua vez, é generativo: ele é feito por uma rede neural treinada a partir de inúmeras amostras de ondas sonoras de gravações vocais. Com a sua base de treinamento, a rede neural consegue pegar um texto e “prever”, com base no seu conjunto de treinamento, como ele deve soar.
Pode parecer um processo tranquilo, mas ele é extremamente exigente para os computadores. Vídeos, por exemplo, são compostos de 24 a 60 quadros por segundo, por exemplo. Para reproduzir uma onda de áudio, porém, o computador precisa gerar até 16 mil amostras por segundo, de acordo com a Bloomberg. Cada uma dessas amostras é gerada com base no que veio antes e em exemplos do conjunto mde treinamento, resultando em algo como a onda sonora abaixo:
Glossolalia
De acordo com a empresa, a WaveNet conseguiu gerar imitações mais convincentes de vozes humanas do que as melhores versões de duas tecnologias diferentes de geração de voz a partir de texto. Tanto em inglês quanto em mandarim, usuários avaliaram melhor a fala da WaveNet do que a dessas outras duas tecnologias. Abaixo, é possível ouvir alguns exemplos de frases geradas pela rede neural:
Essas frases são produzidas quando a inteligência artificial é solicitada a gerar voz a partir de textos. No entanto, ela também é capaz de funcionar sem que nenhum texto presente. Nesse caso, ela produz sons estranhos que soam como o que a máquina imagina que seja uma linguagem humana quando não há texto presente. Exemplos de sons desse tipo podem ser ouvidos neste, neste e neste link.
Outra vantagem que ela apresenta sobre as demais tecnologias é que ela é capaz de “mudar de voz” mais facilmente. Segundo o The Verge, basta uma mudança de configuração para que o falante mude de homem para mulher. Além disso, efeitos como emoções e peculiaridades de entonação podem ser facilmente acrescentados também.
Robô compositor
Uma vez que a WaveNet é treinada a partir de ondas de áudio, ela não é limitada a produzir vozes. Ela também pode utilizar gravações musicais para aprender e, em seguida, produzir suas próprias peças geradas com base no seu conjunto de treinamento.
Em vez de transformar a rede neural em uma intérprete musical, treinando-a a ler partituras, os criadores da WaveNet testaram ela com um grupo de composições de piano, e em seguida rodaram a rede sem nenhuma instrução. Como resultado, ela produziu peças bem curiosas de piano, algumas das quais podem ser ouvidas aqui, aqui ou aqui.
Outras redes
Embora os resultados sejam impressionantes, eles não marcam a primeira vez em que uma inteligência atificial produziu música. O próprio Google tem um outro projeto, chamado Magenta, voltado especificamente para avaliar a capacidade de computadores de produzirem arte. O projeto também já rendeu pelo menos uma musiquinha.
Fora isso, o Google também vem empregando as redes neurais da DeepMind para uam série de outras utilidades. A empresa já criou sistemas voltados para ajudar a prevenir a cegueira, melhorar o tratamento de pacientes com câncer e tornar mais eficiente o uso de energia nos seus centros de dados. Também foi a DeepMind que desenvolveu o AlphaGo, o robô que venceu o campeão mundial de Go.