Novo benchmark do Facebook usa humanos para testar IAs

'Ninguém melhor que os próprios humanos' para testar o desempenho de inteligências artificiais projetadas para conversas conosco, dizem pesquisadores
Equipe de Criação Olhar Digital25/09/2020 13h09

20200915115510
Publieditorial

O Facebook anunciou nesta quinta-feira (24) um novo sistema de benchmark para testar o desempenho de inteligências artificiais. Chamado de Dynabench, ele foi criado para superar limitações dos sistemas automatizados atualmente em uso, como a previsibilidade e a tendência das IAs de encontrar e explorar “falhas” no teste para melhorar seus resultados.

Desenvolvido pelo Laboratório de Pesquisa em IA do Facebook (Fair – Facebook AI Research) o sistema usa humanos para testar os sistemas de processamento de linguagem natural (NLP, Natural Language Processing) de forma direta e dinâmica.

A ideia é simples: já que os NLPs são projetados para conversar com humanos, ninguém melhor que os próprios humanos para testar seu desempenho. As pessoas são instruídas a testar questões “linguisticamente desafiadoras” para tentar fazer o algoritmo errar. Quanto mais difícil de ser enganado, melhor ele é.

Segundo o pesquisador Douwe Kiela, do Fair, há outras vantagens: “o processo não pode ser saturado, ele é menos suscetível a vieses e artefatos e nos permite medir o desempenho de forma mais próxima às aplicações do mundo real com as quais mais nos preocupamos”.

Por enquanto, o Dynabench só está disponível em inglês, mas a equipe espera, com o tempo, adicionar suporte a novas linguagens, modelos de inteligência artificial e modalidades de teste. Mais informações estão disponíveis no site do projeto, onde interessados podem contribuir “conversando” com alguns dos modelos de IA e encontrando situações onde falham.

Inteligente demais

Não é de hoje que o Facebook investe em inteligência artificial. Em 2017 um outro projeto do Fair chamou a atenção quando dois agentes de inteligência artificial criados para simular uma negociação inventaram uma “linguagem própria” para ter mais eficiência.

Batizados de “Alice” e “Bob”, eles foram programados para que tentassem chegar à solução que melhor atendesse a ambos, e seu objetivo era ajudar os pesquisadores a entender como duas pessoas podem negociar de maneira mais construtiva. Os agentes recebiam “pontos” para cada negociação bem-sucedida, e, se não conseguissem chegar a um acordo, não ganhavam nenhum ponto.

O problema foi que não havia nenhum incentivo para que os agentes usassem apenas uma linguagem em seu processo de negociação. Com o tempo, os dois começaram a perceber que conseguiam se entender melhor usando frases que, para alguém vendo de fora, não faziam o menor sentido.

Num exemplo, Bob dizia algo como “Eu posso posso eu eu todo o resto”, ao que Alice respondia: “Bolas têm zero para mim para mim para mim para mim para mim para mim para mim para mim para”. Embora o diálogo fosse completamente absurdo para humanos, a inteligência artificial percebeu que conseguia chegar mais rapidamente a acordos mutuamente benéficos usando esse tipo de linguagem.

Para alívio da humanidade, os agentes foram desativados. Segundo o Facebook, não porque eram “inteligentes” demais, mas porque se desviaram dos parâmetros do teste, deixando de produzir resultados válidos.

Fonte: Engadget