O Facebook criou um novo formato de inteligência artificial para tradução. Para quem não sabe, as traduções na plataforma passam do idioma nativo para o inglês, para somente depois serem passadas para outra língua. O novo sistema deve reduzir este caminho, tornando possível a tradução entre dois idiomas sem a necessidade de incluir o inglês neste processo.
A rede social realiza aproximadamente 20 bilhões de traduções todos os dias apenas para o seu feed de notícias. Toda a ação é feita por meio de um conjunto de dados massivo e amplamente disponível para traduções para o inglês. Mas desta forma, perde-se precisão na versão geral e todo o procedimento fica mais complexo.
Facebook está lançando um novo método de tradução que utiliza de IA. Créditos: Alexandra Popova/Shutterstock
Por isso, com o apelidado de M2M-100, o Facebook acredita ter desenvolvido o primeiro modelo de tradução automática multilíngue (MMT, na sigla em inglês). O sistema pode traduzir diretamente para frente e para trás entre um conjunto de 7,5 bilhões de frases em 100 idiomas. A equipe de pesquisa do app afirma que treinou um modelo de tradução universal com mais de 15 bilhões de parâmetros “que captura informações de idiomas relacionados e reflete um script mais diversificado de idiomas e morfologia”.
Método
Para que este sistema de tradução fosse possível, a plataforma coletou uma grande quantidade de dados disponíveis publicamente ao redor de todo o mundo utilizando de diversas técnicas. Angela Fan, pesquisadora associada do Facebook, explica que este trabalho já é em partes realizado cotidianamente pela empresa. “Muito disso é realmente baseado no trabalho que temos feito por muitos anos em pesquisas no Facebook, que são como todas as diferentes peças de Lego que juntamos para construir o sistema hoje”, afirmou Angela.
De início, a empresa rastreou páginas em toda a web com o objetivo de coletar exemplos de textos. Os idiomas foram identificados com o FastText, que se resume a um sistema de classificação de texto que a própria rede social desenvolveu. “Basicamente, analisa alguns testes e tenta decidir em que idioma está escrito. Então, dividimos um monte de textos da web em todos esses idiomas diferentes e, em seguida, nosso objetivo é identificar frases que seriam traduções”, explicou a pesquisadora.
Depois da coleta, a nova IA contou com o aprimoramento do sistema “Laser”. “Ele lê frases, pega o texto e cria uma representação matemática desse texto, de forma que frases com o mesmo significado sejam mapeadas para o mesmo pensamento”, disse Angela. “Então, se eu tiver uma frase em chinês e francês, e eles estiverem dizendo a mesma coisa, eles vão se sobrepor – como um diagrama de Venn – a área de sobreposição é o tipo de texto que pensamos ser frases alinhadas”, destacou.
Objetivo é traduzir idiomas diretamente um para o outro sem que seja necessário passar pelo inglês. Créditos: Pathdoc/Shutterstock
Para os idiomas que não possuem grande volume de textos disponíveis na internet, a equipe de pesquisadores do Facebook recorreu a dados monolíngues, que são apenas dados escritos em um único idioma. “Então, se meu objetivo é traduzir do chinês para o francês, mas por alguma razão, não obtenho boa qualidade, então vou tentar melhorar isso tomando textos de dados monolíngues em francês. E o que faço é treinar o reverso do sistema: vou do francês para o chinês. Pego todo o meu francês, por exemplo, da Wikipedia e traduzo para o chinês”, exemplificou a pesquisadora de IA.
A partir deste momento, são gerados dados “sintéticos” pela máquina. “Então, criei este chinês sintético com base no meu francês retro traduzido e vou adicioná-lo novamente ao modelo avançado. Então, em vez de ir do chinês para o francês, eu tenho chinês mais meu chinês sintético suplementado, todos indo para o francês. E, porque isso adiciona um monte de novos exemplos – tanto do lado da entrada quanto do lado da saída – o modelo será muito mais forte”, ressaltou.
Cabe ainda lembrar que a plataforma está lançando o conjunto de dados, o modelo, o treinamento e as configurações de avaliação como código aberto para que outros pesquisadores ajudem a impulsionar a tecnologia. “Eu pessoalmente identifico muitas áreas nas quais podemos precisar melhorar para as linguagens de recursos muito baixos. Para as línguas africanas, somos muito bons em suaíli e afrikaans, poderíamos melhorar muito em línguas como o zulu, e essas línguas têm desafios de pesquisa adicionais que precisamos enfrentar”, concluiu Angela.
A empresa também planeja continuar desenvolvendo o sistema de inteligência artificial de forma independente e, eventualmente, aplicar o recurso em suas operações diárias.
Via: Engadget