Com o objetivo de melhorar a acessibilidade em sua plataforma de vídeos, o YouTube vai começar a transcrever automaticamente, em suas legendas, os efeitos sonoros, como aplausos, gargalhadas e músicas.

Por enquanto, apenas esses três efeitos são reconhecidos pelo sistema. Segundo o Google, dono do YouTube, a escolha pelas três opções acontece porque esses são os recursos que a maioria dos produtores de vídeo legenda manualmente.

“O espaço sonoro é, obviamente, muito mais rico e fornece ainda mais informações contextualmente relevantes do que essas três classes, mas a informação semântica transmitida por esses efeitos sonoros nas legendas é relativamente inequívoca, ao contrário de sons como ‘RING’, que levantam questões como ‘O que foi que tocou? Um sino, um alarme, um telefone?'”, explica Sourish Chaudhuri, engenheiro do Google.

Como funciona?

A legendagem automática do YouTube usa um modelo de rede neural profunda, treinada em conjunto com uma série de dados. Sempre que um novo vídeo é enviado para a plataforma, o sistema tenta identificar esses sons sozinho.

Via TechCrunch