Milhões de pessoas se comunicam usando a linguagem de sinais, mas até agora os projetos para capturar os gestos complexos e traduzi-los para a fala verbal tiveram pouco sucesso. No entanto, o Google está encabeçando um novo avanço no rastreamento de mão em tempo real. A nova técnica usa alguns atalhos inteligentes e a crescente eficiência dos sistemas de inteligência artificial para produzir, em tempo real, um mapa altamente preciso da mão e de todos os seus dedos, utilizando apenas um smartphone.

“Enquanto as abordagens atuais de ponta se baseiam principalmente em poderosos desktops de inferência, nosso método alcança desempenho em tempo real em um telefone celular e até mesmo se adapta a várias mãos”, escrevem os pesquisadores do Google Valentin Bazarevsky e Fan Zhang em um blog. Eles dizem ainda que a percepção da mão em tempo real é uma tarefa de visão computacional decididamente desafiadora, pois elas geralmente se ocludem uma às outras e não apresentam padrão de alto contraste. 

Não apenas isso, mas os movimentos das mãos geralmente são rápidos, sutis ou ambos – não necessariamente o tipo de coisa que os computadores são bons em capturar em tempo real. Basicamente, é muito difícil fazer o certo, e fazer o certo é difícil de fazer rápido. Por isso os pesquisadores, neste caso, pensaram em reduzir a quantidade de dados que os algoritmos precisavam filtrar. Menos dados significa um retorno mais rápido.

Como funciona o sistema?

Por um lado, os pesquisadores abandonaram a ideia de ter um sistema para detectar a posição e o tamanho da mão. Em vez disso, eles só têm o sistema para encontrar a palma, que não é apenas a parte mais distinta da mão, mas é quadrada, para inicializar, o que significa que eles não precisavam se preocupar com a capacidade do sistema de reconhecer imagens com diferentes formatos.

Uma vez que a palma da mão é reconhecida, os dedos brotam de uma das pontas e podem ser analisados separadamente. Um algoritmo separado olha para a imagem e atribui 21 coordenadas a ela, demarcando as articulações e as pontas dos dedos, e incluindo uma ideia de suas larguras.

via GIPHY

Para o reconhecimento, primeiro é necessário adicionar manualmente esses 21 pontos a cerca de 30 mil imagens de mãos em várias poses e situações de iluminação para o sistema de aprendizado de máquina captar e aprender. Uma vez determinada a pose da mão, ela é comparada a um monte de gestos conhecidos, desde símbolos da linguagem de sinais a letras e números, até coisas como “paz” e “metal”. O resultado é um algoritmo de reconhecimento manual rápido e preciso, executado em um smartphone normal. E tudo funciona dentro da estrutura do MediaPipe (é uma estrutura baseada em gráficos para a construção de pipelines de aprendizado de máquina multimodal (vídeo, áudio e sensor) aplicados).

O que se espera para o futuro?

Com sorte, outros pesquisadores serão capazes de pegar o material e melhorar os sistemas existentes para fazer o tipo de reconhecimento de mão necessário para reconhecer gestos. No entanto, é muito difícil entender realmente a linguagem de sinais, que usa as duas mãos, expressões faciais e outras sugestões para produzir um modo rico de comunicação diferente de qualquer outro.

Como a tecnologia ainda não foi aplicada a nenhum produto do Google, os pesquisadores puderam oferecer o código-fonte do trabalho gratuitamente, para qualquer um explorar. “Esperamos que o fornecimento dessa funcionalidade de percepção da mão para a comunidade de pesquisa e desenvolvimento resulte em um crescimento de uso criativo, estimulando novas aplicações e novos caminhos de pesquisa”, afirmaram os pesquisadores. 

Fonte: TechCrunch