Numa época onde máquinas são capazes de reconhecer uma pessoa numa multidão em questão de segundos, é fácil esquecer que mesmo os melhores sistemas de visão computacional tem limitações, como a incapacidade de ver através objetos ou paredes. Mas uma nova técnica promete resolver este problema de uma forma engenhosa.

Além da luz que enxergamos, máquinas também podem ser sensíveis a várias outras formas de radiação, como ondas de rádio. E para estas, uma parede pode ser tão transparente quanto o vidro de uma janela. Infelizmente ruído ambiente, reflexos indesejados e baixa resolução tornam esta uma forma ineficaz de “ver” o que acontece em um local.

Uma equipe de pesquisadores do MIT, liderada por Tianhong Li, descobriu uma forma de usar imagens visíveis para ‘treinar’ um sistema de reconhecimento baseado em ondas de rádio, aumentando sua eficácia. O segredo é a simplificação. O sistema funciona gravando ao mesmo tempo imagens em luz visível e em sinais de rádio. Um algoritmo de reconhecimento analisa e cataloga as imagens em luz visível, identificando ações como “pessoa falando ao telefone” ou “pessoa sentada”.

Reprodução

A representação de cada pessoa na imagem é reduzida a um “bonequinho de palito” em baixa resolução e sua movimentação é correlacionada às ondas de rádio gravadas. Com o tempo, o sistema aprende quais movimentos correspondem à quais alterações nas ondas de rádio, e passa a ser capaz de identificar cenas sozinho, sem o auxílio da imagem visível.

Segundo os pesquisadores, “demonstramos de nosso modelo tem precisão similar aos sistemas de reconhecimento baseados na visão, mas que continua a funcionar de forma precisa quando as pessoas não estão visíveis”.

A técnica pode resolver um dos dilemas dos sistemas de vigilância, que é a privacidade. Com ela é possível ver o que acontece em uma sala sem saber quem está dentro dela. Um dos usos propostos pelos pesquisadores é em casas inteligentes, permitindo que um sistema antecipe as ações de um usuário sem precisar de uma câmera apontada para ele o tempo todo.

Fonte: MIT Technology Review