Tobias Weiland, especialista em visão de computador do Google, publicou um artigo com dois colegas no qual eles detalham a criação de uma rede neural capaz de identificar o local onde qualquer foto foi tirada, sem usar dados de geolocalização. O artigo completo pode ser lido aqui.

 A rede neural – chamada por seus riadores de PlaNet – consegue localizar até mesmo o local de origem de fotos tiradas em ambientes fechados, ou retratos de pessoas, animais e objetos, contanto que elas pertençam a um álbum.

Mostrando o mundo à máquina

Para criar a rede, Tobias e seus colegas dividiram o mapa-mundi em mais de 26 mil regiões de tamanhos diferentes. A ideia era que cada região contivesse aproximadamente o mesmo número de fotos. Por isso, grandes centros urbanos foram inseridos em regiões menores. Desertos, oceanos e os polos, por outro lado, foram ignorados, já que muito poucas imagens são produzidas nesses locais.

Em seguida, a equipe criou uma base de dados com 126 milhões de fotografias retiradas da internet, todas elas com marcação geográfica. Cada uma dessas imagens foi associada pela PlaNet à região em que havia sido tirada, para criar uma referência para a rede.

91 milhões dessas imagens foram então alimentadas à rede neural para que ela conseguisse criar uma relação entre o conteúdo visual da imagem e o seu local de origem. As demais 25 milhões de fotografias, na sequência, foram utilizadas para validar essa relação.

Resultado

Para testar de fato a PlaNet, seus criadores retiraram 2,6 milhões de imagens com marcação geográfica do Flickr e alimentaram-nas à rede. No total, ela conseguiu adivinhar a rua em que 3,6% dessas fotos haviam sido tiradas e a cidade em que 10,1% das fotos havia sido tirada. Além disso, ela também conseguiu acertar o país de origem de 28,4% das imagens, e o continente de origem de 48% delas.

O grupo de Weiland também testou a precisão da rede contra a de humanos. Para isso, eles fizeram a PlaNet jogar o jogo GeoGuessr, que mostra ao usuário cenas aleatórias retiradas do Google Street View e pede que ele adivinhe, no mapa mundi, onde elas estão. A rede teve uma média de erro de 1131,7 quilômetros, contra uma média de 2320,75 quilômetros dos humanos.

Internas

Mesmo fotos tiradas em ambientes fechados como casas, escolas e bares ainda podem ser identificadas pela PlaNet, contanto que façam parte de um álbum. Nesse caso, a rede analisa as outras imagens do álbum para tentar determinar o local delas e, então, adivinhar o local daquelas fotos. A rede utiliza o mesmo truque para tentar determinar a localização de retratos ou fotos de objetos.

Segundo o MIT Technology Review, outra vantagem da rede neural é que ela utiliza relativamente pouca memória. Ao todo, ela ocupa cerca de 377MB de espaço, o que torna possível que ela venha a ser utilizada até mesmo por smartphones.