A mais recente expansão da tecnologia de dobragem automática do YouTube, inclui uma funcionalidade de sincronização labial, visando resolver um problema antigo com os conteúdos de vídeo traduzidos por automaticamente. Anunciada este mês no evento ‘Made on YouTube’, a funcionalidade foi projectada para fazer com que os vídeos traduzidos pareçam e soem mais naturais, ao mesmo tempo que tornam o conteúdo mais acessível aos espectadores em todo o mundo. A tecnologia será inicialmente lançada em 20 línguas, incluindo o inglês, o alemão, o francês e o espanhol, com línguas adicionais nos próximos meses.
Há muito tempo que os sistemas de dobragem e de tradução automática do YouTube têm gerado polémica à renderização automática do conteúdo original para formatos localizados, o que afecta tanto os títulos como as faixas de áudio.
Muitos espectadores criticaram estas funcionalidades, citando uma preferência pelas versões originais e frustração pela falta de uma opção universal para desligar as traduções automáticas. Utilizadores multilingues, em particular, expressaram insatisfação quando as traduções geradas por IA falham em corresponder à qualidade da tradução humana.
Actualmente, não existe uma configuração global para desactivar a dobragem automática, forçando os utilizadores a ajustar manualmente as configurações da faixa de áudio para cada vídeo. Esta limitação levou à criação de extensões para browsers como a YouTube Anti-Translate, que bloqueiam camadas de tradução e dobragem indesejadas.
A nova funcionalidade de sincronização labial do YouTube aborda especificamente uma das queixas mais comuns sobre a dobragem: o áudio e os movimentos da boca desalinhados. O sistema utiliza IA para sincronizar visualmente os movimentos labiais de um orador com a faixa de áudio gerada, criando uma experiência de visualização mais fluida.
Os criadores podem optar pela funcionalidade de dobragem automática com sincronização labial através do YouTube Studio. A fase de teste inicial focar-se-á em membros do Programa de Parcerias do YouTube. Embora actualmente a participação seja voluntária, a Google poderá eventualmente expandir ou automatizar a funcionalidade para uma gama mais vasta de vídeos.
A iniciativa de dobragem multilíngue baseia-se em modelos de IA proprietários – que, segundo relatos, incluem o Gemini e o Aloud – para gerar o áudio traduzido, replicar o tom e a emoção do orador e separar as faixas vocais dos sons de fundo.
Testes iniciais com criadores seleccionados mostraram resultados promissores, com alguns canais a triplicarem o seu público em línguas não nativas após a adopção de faixas de áudio multilíngues.