Meta apanhada a “enganar” um site de benchmarks com modelos de IA que não correspondem à realidade?

A Meta lançou, nos últimos, dias, dois novos modelos de IA de gama “média”: os Llama 4 Scout e Maverick. Ambos foram submetidos aos benchmarks do site LMArena, um plataforma que que compara resultados de diferentes modelos, cabendo aos utilizadores decidir quais são os melhores.

Na sequência dos 1417 pontos que o Llama 4 Maverick conseguiu no teste ELO (originalmente criado para avaliar a capacidade de jogadores de xadrez, tendo mais tarde passado a ser usado em eSports), a Meta apontou, em comunicado, que isto o colocava acima do ChatGPT 4o e logo abaixo do Gemini 2.5 Pro.

- Publicidade -

Desta forma, o Maverick assumia-se como uma séria ameaça aos modelos das suas concorrentes, mas… há um problema. A documentação da Meta sobre esta IA mostra, nas chamadas “letras pequeninas” que a versão testada na LMArena não é a mesma que está disponível ao público, acusaram vários especialistas em IA, no X.

Desta forma, não terá as mesmas capacidades que uma chamada “versão comercial”, uma vez que foi reforçada apenas para ter um bom desempenho nos testes.

De acordo esta documentação, a Meta diz que submeteu uma «versão experimental de chat» do Maverick «especificamente optimizada para conversação», noticiou o TechCrunch, o que levou a uma reacção dura do LMArena: «A interpretação da Meta da nossa política não corresponde ao que esperamos dos fornecedores de modelos»

- Publicidade -

Os responsáveis do site acusam mesmo a empresa de Mark Zuckerberg de falta de transparência: «A Meta deveria ter deixado mais claro que o ‘Llama-4-Maverick-03-26-Experimental’ era um modelo personalizado para estes benchmarks». Na sequência desta polémica, o LMArena decidiu «actualizar as políticas de classificação para reforçar o compromisso com avaliações justas e reproduzíveis» com o objectivo de que este tipo de confusões «não volte a acontecer».

Da parte da Meta, há uma reacção de Ahmad Al-Dahle, vice-presidente de IA generativa, no X : «Simplesmente, não é verdade, nunca faríamos isso». O responsável esclareceu ainda que alguns utilizadores podem estar a a ter «experiências inconsistentes» com o Maverick pelo facto de nem todas as funcionalidades disponíveis quando os modelos são partilhados online,

«Uma vez que lançamos os modelos assim que ficaram prontos, esperamos que sejam necessários vários dias para que todas as implementações públicas sejam ligadas, disse Al-Dahle, que prometeu que a Meta vai «continuar a trabalhar na correcção de erros».

Também lhe pode interessar

Primeira caixa para PC da Noctua promete silêncio absoluto e design optimizado

Operadores de ransomware mudam de táctica para contornar quebras nos lucros

Tally: os ex-directores da Uber criaram uma nova empresa de contabilidade com (claro) inteligência artificial

Tribunal alemão dá razão à Samsung e proíbe vendas de alguns modelos de televisores da TCL