PCGuia PCGuia
  • [email protected]
  • Dicas
    • Apps
    • Descomplicómetro
    • Download da semana
    • Guia completo
    • Inteligência Artificial
    • Linux
    • Modding
    • Photoshop
    • Teste de velocidade da Internet
    • Open Source
  • MacGuia
  • Jogos
  • Notícias
    • Ambiente
    • Apps
    • Ciência
    • Curiosidades
    • Hardware
    • Inteligência Artificial
    • Internet
    • Mercados
    • Mobilidade
    • Multimédia
    • Robots
    • Segurança
    • Software
    • Startup
    • Especiais
      • Especial PCGuia
      • História
  • Reviews
    • Armazenamento
    • Áudio
    • Componentes
    • Desktops
    • Gadgets
    • Imagem
    • Mobilidade
    • Periféricos
    • Robótica
  • Opinião
    • Conceito Humanoide
    • Há Uma App Para Tudo
    • O Que Vem à Rede
    • Praia das Maçãs
    • Quinta Coluna
  • Precisa de ajuda?
  • Contactos
  • Como testamos os produtos
  • Termos de utilização
  • Política de privacidade e cookies
  • Estatuto Editorial
  • Declaração de Privacidade
  • Política de Cookies
© 2023 - Fidemo Sociedade de Media
A ler: AI da Microsoft consegue imitar qualquer voz a partir de uma gravação de curta duração
Font ResizerAa
PCGuia PCGuia
Font ResizerAa
Procurar
  • Dicas
  • Jogos
  • Linux
  • Notícias
  • Opinião
  • Reviews
  • Cookie Policy
© 2023 Fidemo Sociedade de Média
PCGuia > Notícias > Software > AI da Microsoft consegue imitar qualquer voz a partir de uma gravação de curta duração
NotíciasSoftware

AI da Microsoft consegue imitar qualquer voz a partir de uma gravação de curta duração

Pedro Tróia
Publicado em 10 de Janeiro, 2023
Tempo de leitura: 3 min
Microfone
Photo by Matt Botsford on Unsplash

A Microsoft apresentou os resultados da sua mais recente pesquisa no campo da Inteligência Artificial para a conversão de texto para voz, o resultado é o VALL-E um modelo de Inteligência Artificial que consegue simular a voz de qualquer pessoa, depois de “ouvir” um clip de som com apenas 3 segundos. Segundo o site Ars Technica, a Inteligência Artificial consegue, não só imitar o timbre, mas também a emoção que o orador coloca na voz e até as condições acústicas do espaço onde se encontra. A empresa quer usar esta tecnologia para a ser usada para aplicações de texto para voz com utilizações específicas.

- Publicidade -

Segundo a Microsoft, o VALL-E é um “neural codec language model”, derivado do codec de compressão de áudio assistida por IA, chamado Encodec, que foi desenvolvido pela Meta. VALL-E consegue gerar o uma voz a partir de texto e gravações de áudio de curta duração da voz de uma pessoa.

Na publicação que explica esta tecnologia, a equipa responsável explica como usou os dados da biblioteca LibriLight da Meta, para treinar o VALL-E com 60000 horas de conversas em inglês de mais de 7000 pessoas. A voz que o modelo tenta imitar, tem de ser semelhante a uma que esteja na biblioteca. Se for o caso, o modelo usa os dados com que treinou para inferir a forma como o orador soa a ler o texto que foi introduzido.

A equipa que desenvolveu o modelo mostra a eficácia na página de Github do VALL-E. Para cada frase que deve ser falada pela IA, tem de existir um clip de som com pelo menos 3 segundos com a voz do orador para determinar a forma básica de como a voz do orador soa a dizer uma coisa completamente diferente.

Os resultados são algo dispares, alguns soam mecânicos e outros muito realistas. Mas, o facto, a voz da IA conseguir reter o tom da emoção que foi captada no áudio do orador real é o que é mais convincente. Outra coisa imitada na perfeição é a acústica do espaço onde o orador original se encontra quando foi gravado. Se a gravação tiver um eco, a IA consegue imitá-lo na perfeição.

Para melhorar o modelo, a Microsoft planeia aumentar a quantidade de dados usado para o treinar e também está a procurar reduzir a quantidade de palavras que o modelo falha ou que pronuncia mal.

- Publicidade -

A Microsoft não vai tornar público o código do VALL-E, possivelmente para minimizar os riscos de esta IA ser usada para falsificações. A IA VALL-E da Microsoft até consegue imitar a entoação, emoção e as condições acústicas do espaço onde a pessoa está a falar.

- Publicidade -
Etiquetas:IAinteligência artificialMicrosoftVoz. VALL-E
Ad image
Apoio
Ad image Ad image

Também lhe pode interessar

©IPLeiria | DboidS
InovaçãoNotícias

DBoidS: há mais um projecto português de gémeos digitais e drones para a prevenção de incêndios

Tempo de leitura: 3 min
©Sword Health
MercadosNotícias

Sword Health quer «acelerar a prosperidade nacional» e vai começar a pagar salários mínimos de 1305 euros

Tempo de leitura: 2 min
©Xiaomi | YU7
MobilidadeNotícias

Tem 835 km de autonomia e é o sucessor do SU7: a Xiaomi anunciou um novo SUV de trinta mil euros

Tempo de leitura: 3 min
©Philips | Evnia
Notícias

O novo monitor de gaming Evnia tem 27 polegadas, taxa de actualização com overclock e custa 250 euros

Tempo de leitura: 1 min
© 2023 Fidemo Sociedade de Media
Gerir a sua privacidade

Para fornecer as melhores experiências, nós e os nossos parceiros usamos tecnologias como cookies para armazenar e/ou aceder a informações do dispositivo. O consentimento para essas tecnologias permitirá que nós e os nossos parceiros processemos dados pessoais, como comportamento de navegação ou IDs exclusivos neste site e mostrar anúncios (não) personalizados. Não consentir ou retirar o consentimento pode afetar adversamente certos recursos e funções.

Clique abaixo para consentir com o acima ou fazer escolhas granulares. As suas escolhas serão aplicadas apenas a este site. Pode alterar suas configurações a qualquer momento, incluindo a retirada de seu consentimento, usando os botões de alternância na Política de Cookies ou clicando no botão de consentimento para gerir na parte inferior do ecrã.

Funcional Sempre ativo
O armazenamento ou acesso técnico é estritamente necessário para o fim legítimo de permitir a utilização de um determinado serviço expressamente solicitado pelo assinante ou utilizador, ou para o fim exclusivo de efetuar a transmissão de uma comunicação numa rede de comunicações eletrónicas.
Preferências
O armazenamento ou acesso técnico é necessário para o propósito legítimo de armazenamento de preferências não solicitadas pelo assinante ou utilizador.
Estatísticas
O armazenamento técnico ou acesso que é usado exclusivamente para fins estatísticos. O armazenamento técnico ou acesso que é usado exclusivamente para fins estatísticos anónimos. Sem uma intimação, conformidade voluntária por parte do seu Fornecedor de Serviços de Internet ou registos adicionais de terceiros, as informações armazenadas ou recuperadas apenas para esse fim geralmente não podem ser usadas para identificá-lo.
Marketing
O armazenamento ou acesso técnico é necessário para criar perfis de utilizador para enviar publicidade ou para rastrear o utilizador num site ou em vários sites para fins de marketing semelhantes.
Estatísticas

Marketing

Recursos
Sempre ativo

Sempre ativo
Gerir opções Gerir serviços Gerir {vendor_count} fornecedores Leia mais sobre esses propósitos
Gerir opções
{title} {title} {title}