VASA-1: o novo modelo de inteligência artificial da Microsoft já criou uma Mona Lisa a cantar rap

A Microsoft sublinha que o VASA-1 «não se destina a criar conteúdos que sejam utilizados para induzir em erro ou enganar».

Por: Ricardo Durand
Tempo de leitura: 3 min
©Microsoft

Basta uma fotografia e um clip de voz: depois, ao juntar estes dois elementos, o VASA-1 consegue gerar um vídeo em tempo real da cara de uma pessoa, com várias expressões. Desta forma, ao analisar o clip de som carregado, o modelo da Microsoft consegue transformar o texto que quisermos em áudio e colocá-lo na boca de um avatar.

A Microsoft descreve este modelo como uma «estrutura para gerar rostos realistas de personagens virtuais com capacidades visuais e afectivas». Há dois anos, surgiu um recurso semelhante, embora bastante mais limitado e embrionário: o LiveStory do site de genealogia My Heritage, já depois de ter sido lançado o Deep Nostalgia, na mesma plataforma.

Basicamente, aqui, fazíamos o upload de uma foto de um familiar, escrevíamos um texto sobre a sua história de vida e o site, com recurso a IA, gerava um vídeo com áudio de uma voz sintetizada e dava vida ao rosto dessa pessoa, como se estivesse a falar, na realidade.

O VASA-1, apesar de fazer lembrar o Deep Nostalgia e o LiveStory do My Heritage, é mais avançado e, segundo a Microsoft, «abre caminho a interacções em tempo real com avatares realistas que emulam comportamentos humanos de conversação». Para isso, este modelo «não só capaz de produzir movimentos labiais perfeitamente sincronizados com o áudio, mas também de captar um amplo espetro de nuances faciais e movimentos naturais da cabeça que contribuem para a perceção de autenticidade e vivacidade», diz a empresa.

©Microsoft

A Microsoft já partilhou vários exemplos no seu site, incluindo um que mostra a Mona Lisa a cantar um rap. Relativamente aos outros vídeos, temos avatares a fazer discursos triviais sobre experiências de vida. Os vídeos têm 512 x 512 e chegam aos 45 fps em modo offline; para streaming, há um limite de 40 fps.

Sobre os riscos que esta tecnologia implica, com a possibilidade de gerar deepfakes em tempo real e cada vez mais realistas, a Microsoft sublinha que o VASA-1 «não se destina a criar conteúdos que sejam utilizados para induzir em erro ou enganar». Contudo, a empresa assume que este modelo pode ser «utilizada de forma incorrecta».

Todos os detalhes sobre as capacidades e forma de funcionamento do VASA-1 podem ser vistos aqui.

Por: Ricardo Durand Editor
Seguir:
Começou no jornalismo de tecnologias em 2005 e tem interesse especial por gadgets com ecrã táctil e praias selvagens do Alentejo. É editor do site Trendy e faz regularmente viagens pelo País em busca dos melhores spots para fazer surf. Pode falar com ele pelo email rdurand@pcguia.fidemo.pt.
Deixar um comentário

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Exit mobile version