Um grupo de pesquisa do MIT criou uma base de dados com frases em inglês produzidas por falantes não-nativos da língua. A ideia dos pesquisadores é que essa base de dados possa ser usada para melhorar a inteligência artificial de sistemas de processamento de linguagem natural e de tradução.

Segundo os pesquisadores, a maior parte dos dados utilizados em sistemas desse tipo vem de falantes nativos de inglês, que cometem poucos erros gramaticais ou de pronúncia. No entanto, falantes nativos de inglês são também minoria entre os usuários desse sistema. Por isso, a coleta de dados de falantes com “sotaque”, ou que cometem erros gramaticais comuns, poderia melhorar o funcionamento deles.

“A maioria das pessoas que falam inglês no mundo ou que produzem texto em inglês são falantes não-nativos. Esse fato normalmente não é considerado quando nós estudamos inglês cientificamente ou quando realizamos processamento de linguagem natural em inglês”, disse o líder do projeto, Yevgeni Berzak.

Coleta de sotaques

Para montar sua base de dados, os pesquisadores usaram um total de 5123 frases tiradas de exames de inglês como segunda língua (ESL). As frases coletadas foram escritas por alunos de inglês que eram falantes naturais de dez línguas diferentes, incluindo português, espanhol, turco, japonês e coreano. Segundo os pesquisadores, as línguas escolhidas são as línguas nativas de cerca de 40% da população mundial.

Todas as fraases continham pelo menos um erro gramatical, e já tinham sido analisadas pela Universidade de Cambridge. Os pesquisadores então fizeram análises mais completas das frases analisando cada palavra morfologicamente (dizendo se a palavra era um verbo, substantivo, adjetivo, etc) e as frases, como um todo, sintaticamente (para descrever quais palavras se relacionam com quais).

Posteriormente, eles usaram esses dados para descrever com precisão os erros mais comuns. Entre eles estavam a omissão de certas preposições, o uso desnecessário de outras preposições, a substituição de certos tempos verbais por outros e o mau uso de verbos auxiliares. Essa base de dados foi disponibilizada para consulta pública, e pode ser acessada por meio deste link.

Os pesquisadores usaram o padrão Universal Dependencies para mapear as relações sintáticas entre as palavras das frases. O pesquisador Joakim Nivre, da Universidade de Uppsala na Suécia, disse ao MIT que esse padrão tem a vantagem de permitir comparações entre diferentes línguas. Isso permitiria, segundo Nivre, que um sistema de tradução comparasse o inglês não-nativo ao inglês padrão para oferecer traduções melhores.