A Microsoft anunciou o desenvolvimento de um novo modelo de inteligência artificial que é capaz de descrever o conteúdo de imagens de forma muito mais precisa que os anteriormente disponíveis, e tão bem quanto os humanos.
“Descrever imagens é uma das principais capacidades da visão computacional, algo que pode tornar possível uma ampla gama de serviços”, diz Xuedong Huang, CTO do Azure AI Cognitive Services em Redmond, Washington.
A descrição automática de imagens ajuda todos os usuários a acessar conteúdo importante nelas, de uma foto que surge como resultado de uma busca a uma imagem inclusa em uma apresentação. O uso de legendas para descrição de uma imagem é especialmente importante para portadores de deficiência visual.
Para descrever uma imagem com precisão “você realmente precisa entender o que está acontecendo, a relação entre objetos e ações e você precisa sumarizar e apresentar esta informação em linguagem natural”, diz Lijuan Wang, gerente de pesquisas no laboratório de pesquisa da Microsoft em Redmond, nos EUA.
Wang liderou a equipe que igualou – e eventualmente superou – os humanos em um benchmark chamado novel object captioning at scale (legendagem de novos objetos em escala), ou nocaps. O teste avalia sistemas de IA quanto à sua capacidade de gerar legendas para objetos em imagens que não estão no conjunto de dados usado para seu treinamento.
Treinamento mais eficiente
Sistemas de descrição de imagens geralmente são treinados com conjuntos de dados que contém imagens combinadas com sentenças que as descrevem. A Microsoft adotou uma abordagem diferente, com um conjunto de imagens onde cada objeto específico numa cena estava relacionado a uma tag ou marcação indicando o que é.
Conjuntos de imagens com tags em vez de sentenças completas podem ser criados com mais eficência, o que permitiu à equipe de Wang alimentar o modelo com grandes quantidades de dados. Com esta abordagem a Microsoft criou um “vocabulário visual” para o modelo. Grosso modo, é como treinar uma criança para ler, associando a imagem de um gatinho à palavra “gato”.
Depois de treinado em uma primeira etapa, o modelo é refinado para que aprenda a compor sentenças completas. Com este método, quando apresentado a um objeto ou cena para a qual não foi treinado, o modelo consegue usar seu vocabulário para ainda assim gerar uma descrição coerente.
Segundo a Microsoft, o novo modelo é duas vezes superior ao que é usado em seus produtos e serviços desde 2015. Ele já está disponível aos desenvolvedores através do Azure Cognitive Services Computer Vision, parte da plataforma Azure AI, para que possa ser integrado a programas e serviços. No final deste ano a tecnologia também será integrada no Word e Outlook, tanto para Windows quanto para Mac, alem do PowerPoint nas versões para Windows, Mac e na Web.
Fonte: Microsoft