Sistemas de Inteligência Artificial (IA) são implementados cada vez em mais áreas da vida, como na saúde e em carros autônomos. Mas entender como funciona os “olhos” das máquinas, que constroem cenários e conclusões, ainda é um desafio. Para tentar desvendar um pouco mais o mistério dos algoritmos de aprendizado de visão, o Google e o OpenAI, laboratório de inteligência artificial sem fins lucrativos, financiado por Elon Musk – CEO da Tesla e do SpaceX -, desenvolveram uma ferramenta que mapeia os dados visuais que esses sistemas usam para entender o mundo.
Chamado de “Atlas de Ativação”, o recurso permite que os pesquisadores analisem o funcionamento de algoritmos individuais e revela como a AI combina elementos, como cores, padrões e formas abstratas para identificar imagens.
O pesquisador principal do projeto, Shan Carter, disse ao The Verge que o Atlas de Ativação oferece algo próximo a um dicionário inteiro do funcionamento da visão de máquinas inteligentes. Isso quer dizer que a ferramenta mostra como as letras (informações) são organizadas para formar palavras reais (imagens). “Assim, dentro de uma categoria de imagem como ‘tubarão’, por exemplo, haverá muitas ativações que contribuem para isso, como ‘dentes’ e ‘água’”, explicou Carter.
“Parece um pouco como criar um microscópio. Pelo menos é isso que estamos aspirando”, disse Chris Olah, da OpenAI, pesquisador que também trabalhou no desenvolvimento do Atlas de Ativação. O trabalho não é um grande avanço para AI, mas um progresso em um campo mais amplo de pesquisa conhecido como “visualização de recursos”.
Um experimento inicial deste tipo foi o DeepDream, um programa de visão computacional, lançado em 2015, que criava uma versão alucinógena de qualquer imagem. O que o DeepDream fez foi ajustar imagens para serem as mais interessantes possíveis para algoritmos. Seria como alguém desenhando: preenchendo cada centímetro com olhos, caules, espirais e focinhos, tudo para excitar ao máximo o algoritmo.
Apesar de pouco conclusivo, o programa foi um passo inicial para poder ver do mesmo modo que um algoritmo. “De certa forma, tudo isso começou com o DeepDream”, observou Olah. Pesquisas posteriores tomaram a mesma abordagem básica e a aprimorou: primeiramente, volta-se para neurônios individuais dentro da rede para ver o que os ativa; em seguida, faz o mesmo em grupos de neurônios; depois, concentra-se em combinações de neurônios em diferentes camadas da rede. Ao mapear quais elementos visuais são ativados em cada parte de uma rede neural por X vezes seguidas, eventualmente, obtém-se o atlas de visão do algoritmo: um índice visual de seu cérebro.
Como é ver imagens como uma Inteligência Artificial?
Para demonstrar sua abordagem, os pesquisadores treinaram uma rede chamada de InceptionV1, ou GoogLeNet. A rede teve a função de gerar imagens a partir do ImageNet, um conjunto de dados de código aberto reduzido a um milhão de imagens aleatórias. A InceptionV1 tem mais de um estímulo de ativação por camada em cada amostra de imagem, o que significa que os mesmos “neurônios” são executados em cada fragmento recebido pela camada anterior. Resumidamente, cada vez que uma foto do ImageNet passa pela InceptionV1, esses neurônios são avaliados centenas de vezes.
Com a ferramenta do Google e do OpenAI, consegue-se ver como cada parte da InceptionV1 responde a diferentes definições e como elas são agrupadas. Por exemplo, cães ficam todos em um lugar e os pássaros, em outro. Também é possível ver como as camadas da rede representam diferentes tipos de informação: níveis mais baixos são mais abstratos, respondendo a formas geométricas básicas, enquanto níveis mais altos os resolvem em conceitos reconhecíveis.
A demonstração fica mais interessante quando o Atlas de Ativação mostra classificações individuais de visualização das imagens. Um exemplo é a diferença entre duas categorias de práticas de mergulho: “snorkel” e “scuba diver.””. De imediato, pode-se ver algumas cores e padrões óbvios: manchas e listras de peixes coloridos e formas que se parecem com máscaras, por exemplo. Mas também se nota uma ativação incomum: um padrão fortemente associado a locomotivas. Isso fez os pesquisadores pensarem por que essa informação visual sobre locomotivas era importante para diferenciar os tipos de mergulhadores. “Nós pensamos ‘ok, se colocarmos uma foto de uma locomotiva a vapor ela vai virar a classificação de um snorkel ou de um mergulhador?’”, refletiu Carter.
A resposta que eles chegaram é simples: as curvas de metal de uma locomotiva são visualmente semelhantes aos tanques de ar de um mergulhador. Em uma rede neural de máquinas, essa é uma relação óbvia entre mergulhadores. Isso quer dizer que, para economizar tempo distinguindo as duas categorias, os neurônios da IA buscaram em outro lugar os dados visuais de identificação de que precisavam.
Esse tipo de exemplo é importante para revelar como um cérebro artificial opera. Porém, para alguns, mostra as limitações desses sistemas, ao mostrar que a informação que os algoritmos de visão aprendem se parece pouco com o modo dos humanos entenderem o mundo. Isso torna os sistemas de AI suscetíveis a erros caso imagens não sejam apresentadas a elas de forma clara. Mas, para os pesquisadores do Atlas de Ativação, as informações mostram as profundidade e flexibilidade desses algoritmos.
Eles esperam também que, ao desenvolver ferramentas como essa, ajudem a impulsionar todo o campo da inteligência artificial. Para Carter e Olah, compreender como os sistemas de visão de máquina veem o mundo permite, na teoria, construi-los de maneira mais eficiente e avaliar sua precisão de forma mais completa. “Isso está nos dando uma nova ferramenta para a compreensão de problemas desconhecidos. Parece que cada geração dessas ferramentas está nos aproximando de poder realmente entender o que está acontecendo em todas essas redes”, argumenta Olah.
Explore aqui a versão interativa do Atlas de Ativação.
A ativação dos neurônios de uma Inteligência Artificial
Para entender melhor como como o Atlas de Ativação e outras ferramentas de visualização de recursos funcionam, é preciso saber o básico sobre como os sistemas de IA reconhecem objetos e cenários.
A maneira básica com que essas máquinas fazem isso é com uma rede neural: uma estrutura computacional que é amplamente semelhante ao cérebro humano (embora anos-luz atrás em sofisticação). Dentro de cada rede neural existem camadas de neurônios artificiais conectados como teias. Como as células do cérebro, elas disparam em resposta a estímulos, um processo conhecido como ativação, dando a cada uma um valor específico ou “peso”.
Para transformar uma rede neural em algo inteligente, deve-se alimentá-la com muitos dados de treinamento. No caso de um algoritmo de visão, isso significa exibir milhões de imagens, cada uma definida em categorias específicas. No caso da rede neural testada pelo Google e pelo OpenAI, as categorias eram muito amplas: desde lã até gravatas, e desde cintos de segurança até aquecedores de ambiente.
À medida que esses dados são exibidos, diferentes neurônios na rede neural se acendem em resposta a cada imagem. Esse padrão passa a ser conectado ao “rótulo” da imagem e essa associação permite à rede “aprender” a decifrar as informações e construir imagens (ou tomar decisões). Uma vez treinada, a rede pode ser apresentada a uma imagem nunca vista antes e os neurônios serão ativados, direcionando o conceito apreendido a uma categoria específica. Assim, é criado um algoritmo de aprendizado de visão de máquina.
Como muitos programas de aprendizado de IA, os algoritmos de visão são, basicamente, máquinas de reconhecimento de padrões. Isso garante pontos fortes e fracos. No primeiro caso, eles são fáceis de treinar, contanto que se tenha os dados e o poder de computação necessários. Já o fato de que eles podem se confundir facilmente com estímulos nunca vistos antes é uma de suas fraquezas.