Um projeto de inteligência artificial desenvolvido pelo Laboratório de Ciências da Computação e Inteligência Artificial (CSAIL) do MIT pode trazer de volta à vida linguagens humanas há muito consideradas mortas, sem a necessidade de um idioma contemporâneo equivalente para se comparar, segundo seus criadores.

Segundo vários especialistas, as chamadas linguagens perdidas são traduzidas por um método de comparação: pesquisadores linguísticos correlacionam o idioma antigo a alguma variação contemporânea usando algoritmos automatizados que buscam similaridades entre ambos. A ideia é atribuir a criação de idiomas atuais a linguagens antigas – pense em “engenharia reversa”, só que para a forma como falamos.

Reprodução

Sistema de inteligência artificial do MIT pode traduzir linguagens antigas por novos métodos de interpretação. Imagem: Laurent T/ Shutterstock

O problema é que muitas dessas linguagens perdidas fazem jus ao adjetivo. Ou seja, estão tão “perdidas” que exemplares de seu uso ou são desconhecidos, ou são tão reduzidos que fica impossível traçar um padrão comparativo. O projeto do CSAIL, porém, segue um processo diferente, valendo-se de princípios linguísticos baseados no conhecimento de progressão dos idiomas.

Por exemplo: se uma determinada linguagem adicionar ou apagar um fonema, ou som, algumas substituições provavelmente ocorrerão no idioma contemporâneo. Uma palavra que tinha o som de “p” na “língua mãe” pode mudar esse som para “b” no idioma descendente, mas mudar o mesmo som para um “k” é menos provável já que a forma desta pronúncia é bem diferente.

Reprodução

Ao estudarmos idiomas antigos, conseguimos estabelecer relações de origem referentes às línguas modernas. Imagem: Maxx-Studio/Shutterstock


Novo algoritmo

A inteligência artificial do MIT aposta nesse tipo de variação. O projeto, que tem coautoria de Regina Barzilay, professora do instituto e especialista no processamento natural de linguagens; e o pesquisador Jiaming Luo, usa um novo algoritmo que analisa as inúmeras possibilidades de transformação e inserção de fonemas linguísticos. Em termos mais simples, o sistema captura padrões de mudança de linguagem e os expressa como valores computacionais. O resultado disso é a segmentação de palavras em uma linguagem antiga e o mapeamento de eventuais contrapartes em idiomas atuais.

Nos testes da nova tecnologia, os especialistas aplicaram o algoritmo em línguas ibéricas, bascas, românicas, germânicas, turcomanas e urálicas. Isso revelou que, ainda que idiomas bascos fossem mais próximos do ibérico do que outras linguagens, eles ainda diferiam demais entre si para serem relacionados.

Futuramente, o MIT pretende identificar o significado semântico de certas palavras em idiomas já conhecidos, mesmo que o sistema desenvolvido não saiba como lê-las. Esse processo é conhecido como “Decifração baseada em cognatos”.

Fonte: Venture Beat