O aprendizado de máquina poderá em breve nos ajudar a traduzir idiomas considerados “perdidos” a muitos séculos. Uma equipe de pesquisadores composta por Jiaming Luo e Regina Barzilay do MIT e Yuan Cao do Laboratório de IA do Google em Mountain View, na California, desenvolveu um sistema capaz de decifrar automaticamente linguagens antigas.

O sistema é baseado na capacidade dos computadores de analisar rapidamente grandes volumes de dados, mapeando matematicamente a relação entre as palavras. Apesar do vocabulário diferente, estas relações são praticamente as mesmas entre linguagens correlacionadas, o que permite estabelecer uma relação direta entre um idioma ancestral e um de seus descendentes.

Até recentemente esta abordagem exigia grandes quantidades de dados na linguagem a ser decifrada, o que é inviável para linguagens das quais só restam poucos fragmentos de textos e inscrições. A inovação da equipe norte-americana foi aplicar regras que modelam como uma linguagem evolui, como o fato de que a distribuição dos caracteres permanece a mesma e que palavras relacionadas tem a mesma ordem de caracteres. Com isso o “espaço de busca” é imensamente reduzido, permitindo aos computadores realizar comparações com menos dados.

Tablet em Linear B no museu de Micenas, na Grécia.

Para provar a eficácia de seu método, os pesquisadores usaram textos em dois idiomas antigos, o Linear B, um ancestral do Grego originário da ilha de Creta, e o Ugarítico, um ancestral do Hebreu. Ambos já foram decifrados por humanos, mas foi a primeira vez que uma máquina conseguiu realizar uma tradução. “Conseguimos traduzir corretamente 67,3% dos cognatos de Linear B em seus equivalentes no Grego”, dizem os pesquisadores.

A expectativa é que o novo método possa ser usado em linguagens ainda não decifradas, como a Linear A, que era falada em Creta entre 1.800 e 1.400 antes de Cristo, época em que a ilha era habitada pela civilização minóica.

Apesar de ter sido descoberto em 1866, a Linear A nunca foi traduzida, e não foi possível estabelecer nenhuma relação com linguagens posteriores. Com a capacidade dos computadores de analisar rapidamente a relação da Linear A com vários possíveis “descendentes”, esta situação pode estar prestes a mudar.

Fonte: MIT Technology Review