Gravar vídeos em câmera lenta é um processo que exige muito poder de hardware. Um filme em velocidade normal, por exemplo, exibe 24 frames por segundo (fps). Já um vídeo em câmera lenta feito por um celular como o Xperia XZ2, da Sony, por exemplo, exibe 960 quadros por segundo.

Por conta disso, criar um efeito de câmera lenta artificialmente quase nunca gera resultados convincentes: a imagem fica travando, exibindo um frame de cada vez, se não tiver sido originalmente filmada em uma taxa de quadros grande o bastante para ser exibida mais lentamente.

É aí que entra um estudo publicado recentemente por cientistas da Nvidia, da Universidade de Massachusetts Amherst e da Universidade da Califórnia em Merced. Eles conseguiram criar uma rede neural capaz de multiplicar o framerate de um vídeo para criar um efeito realista de câmera lenta.

Funciona da seguinte maneira: os pesquisadores inserem no sistema um vídeo de framerate normal (como, por exemplo, os 30 fps de uma gravação de celular). Eles então informam à rede neural qual deve ser a nova taxa de quadros daquele vídeo, de modo que a máquina crie, entre um quadro e outro, mais algums quadros “falsos”.

Para fazer isso, o sistema analisa quadro a quadro a movimentação dos pixels na imagem. A partir daí, ele estima qual é a trajetória de cada pixel entre um quadro e outro, e cria um frame intermediário com base nessa estimativa de onde ele acha que cada pixel deve estar naquele momento.

Numa segunda etapa, outra rede neural faz o trabalho de limpar as arestas, corrigir qualquer possível falha da primeira etapa, criando uma espécie de mapa tridimensional da cena, dando profundidade e contornos aos objetos no vídeo. O resultado pode ser conferido no vídeo abaixo.

Para treinar essa rede neural, os cientistas usaram 11 mil vídeos feitos originalmente em 240 fps. Jan Kautz, líder do estudo pela Nvidia, disse ao site VentureBeat, porém, que a rede neural ainda não está otimizada para rodar em tempo real e não está pronta para ser usada em público.

Mesmo que um dia essa tecnologia seja encontrada em algum aplicativo ou programa de PC para usuários comuns, é provável que todo o processamento das imagens seja feito pelo servidor, e não localmente, por conta da complexidade da tarefa.