Até pouco tempo, computadores estavam distantes da possibilidade de formular frases que carregassem sentido. No entanto, o campo do processamento de linguagem natural (NLP) avançou e agora máquinas podem conduzir diálogos e até escrever histórias.
Um novo estudo do Instituto de Inteligência Artificial Allen, entretanto, aponta que apesar dos avanços, as máquinas ainda não são capazes de entender o que elas escrevem, nem o que deveriam interpretar.
Para realizar a pesquisa, os autores se basearam em um teste criado em 2011 chamado Winograd Schema Challenge, que avaliava a interpretação de frases por sistemas de NLP. O desafio levantou 273 questões com pares de sentenças muito parecidas, mas, por conta da troca de uma palavra, apresentavam conotações diferentes. Por exemplo:
The trophy doesn’t fit into the brown suitcase because it’s too large.
The trophy doesn’t fit into the brown suitcase because it’s too small.
Em seguida, um sistema de NLP deveria apontar qual dos substantivos o pronome “it” se referia.
É possível deduzir que “large” se refere ao substantivo troféu, e “small” está conectado ao substantivo mala. Afinal se a mala fosse grande demais, por que não poderia abrigar o troféu?
Na sequência, os autores do estudo criaram um banco de dados próprio chamado WinoGrande, com 44 mil casos semelhantes aos retratados acima. Para isso, eles contaram com a ajuda de funcionários a Amazon Mechanical Turk, que criaram novas frases com palavras selecionadas em um procedimento randomizado.
Cada par de frases foi associado a mais três colaboradores da plataforma e submetidos a três critérios: pelo menos dois dos colaboradores tinham que assinalar as respostas corretas. Foram descartadas opções ambíguas e outras sentenças que poderiam adquirir sentido com a simples associação de palavras.
Os pesquisadores ainda introduziram os dados em um algoritmo para remover frases inapropriadas que poderiam produzir padrões e correlações não intencionais e levar os programas a assinalarem respostas incorretas.
No teste final, constataram que as máquinas de processamento de linguagem natural tiveram índices de acerto entre 59.4% e 79.1%. Números bem inferiores ao teste Winogrand Schema Challange. Por outro lado, humanos registraram sucesso em 94% das questões.
Yejin Choi, professor associado da Universidade de Washington, que liderou o experimento, espera que o conjunto de dados sirva como uma nova referência no estudo do processamento de linguagem neutra. Ele também espera que a iniciativa inspire pesquisadores a olhar além do deep learning (aprendizagem profunda) e possam criar sistemas com modelos de conhecimento estruturados.
Fonte: Technology Review