AI da Microsoft consegue imitar qualquer voz a partir de uma gravação de curta duração

A Microsoft apresentou os resultados da sua mais recente pesquisa no campo da Inteligência Artificial para a conversão de texto para voz, o resultado é o VALL-E um modelo de Inteligência Artificial que consegue simular a voz de qualquer pessoa, depois de “ouvir” um clip de som com apenas 3 segundos. Segundo o site Ars Technica, a Inteligência Artificial consegue, não só imitar o timbre, mas também a emoção que o orador coloca na voz e até as condições acústicas do espaço onde se encontra. A empresa quer usar esta tecnologia para a ser usada para aplicações de texto para voz com utilizações específicas.

Segundo a Microsoft, o VALL-E é um “neural codec language model”, derivado do codec de compressão de áudio assistida por IA, chamado Encodec, que foi desenvolvido pela Meta. VALL-E consegue gerar o uma voz a partir de texto e gravações de áudio de curta duração da voz de uma pessoa.

Na publicação que explica esta tecnologia, a equipa responsável explica como usou os dados da biblioteca LibriLight da Meta, para treinar o VALL-E com 60000 horas de conversas em inglês de mais de 7000 pessoas. A voz que o modelo tenta imitar, tem de ser semelhante a uma que esteja na biblioteca. Se for o caso, o modelo usa os dados com que treinou para inferir a forma como o orador soa a ler o texto que foi introduzido.

A equipa que desenvolveu o modelo mostra a eficácia na página de Github do VALL-E. Para cada frase que deve ser falada pela IA, tem de existir um clip de som com pelo menos 3 segundos com a voz do orador para determinar a forma básica de como a voz do orador soa a dizer uma coisa completamente diferente.

Os resultados são algo dispares, alguns soam mecânicos e outros muito realistas. Mas, o facto, a voz da IA conseguir reter o tom da emoção que foi captada no áudio do orador real é o que é mais convincente. Outra coisa imitada na perfeição é a acústica do espaço onde o orador original se encontra quando foi gravado. Se a gravação tiver um eco, a IA consegue imitá-lo na perfeição.

Para melhorar o modelo, a Microsoft planeia aumentar a quantidade de dados usado para o treinar e também está a procurar reduzir a quantidade de palavras que o modelo falha ou que pronuncia mal.

A Microsoft não vai tornar público o código do VALL-E, possivelmente para minimizar os riscos de esta IA ser usada para falsificações. A IA VALL-E da Microsoft até consegue imitar a entoação, emoção e as condições acústicas do espaço onde a pessoa está a falar.