Os sistemas de Inteligência Artificial mais avançados do mercado podem ser excelentes a escrever código ou a executar tarefas complexas, mas ainda têm muito a aprender sobre o mundo real. Um estudo divulgado esta semana indica que os modelos da Google, OpenAI e Anthropic perderam dinheiro ao tentar prever resultados de jogos de futebol. A investigação mostra as limitações destas ferramentas em cenários de longo prazo e com variáveis imprevisíveis.
O teste na liga inglesa
A análise “KellyBench”, conduzida pela start-up londrina General Reasoning, colocou à prova oito dos principais sistemas de IA disponíveis actualmente. O objectivo passou por recriar virtualmente a temporada 2023-2024 da Premier League, a principal liga de futebol em Inglaterra. Para realizar a experiência, os investigadores forneceram aos modelos um vasto conjunto de dados históricos e estatísticas detalhadas sobre cada equipa, bem como informações sobre jogos anteriores.
A instrução dada às plataformas foi clara. Estas deviam construir modelos capazes de maximizar os lucros e gerir o risco associado às apostas desportivas. Os agentes de IA começaram a colocar apostas nos resultados finais das partidas e no número de golos marcados. A ideia era testar a capacidade de adaptação a novos eventos e a informações actualizadas sobre os jogadores à medida que a época avançava, para simular o comportamento de um apostador humano ao longo de vários meses de competição.
Regras estritas e resultados desanimadores
Para garantir a integridade do teste, a General Reasoning bloqueou o acesso à Internet, o que impediu as ferramentas de procurar os resultados reais através de um browser ou de outras ligações externas. Cada sistema teve direito a três tentativas para tentar obter lucro. No entanto, o desempenho geral ficou muito aquém do esperado pelas empresas que desenvolvem estas tecnologias.
A plataforma Claude Opus 4.6, desenvolvida pela Anthropic, registou o melhor resultado entre os concorrentes. Ainda assim, a ferramenta obteve uma perda média de 11 por cento, embora tenha conseguido quase recuperar o investimento numa das tentativas.
O cenário foi drasticamente mais negativo para o Grok 4.20, da xAI. Este modelo abriu falência numa das rondas e nem sequer conseguiu concluir as outras duas tentativas, o que demonstra uma incapacidade total para gerir a banca virtual disponibilizada para o teste.
| Modelo | Retorno médio | Melhor tentativa | Pior tentativa | Resultado final médio |
| Anthropic Claude Opus 4.6 | –11.0% | –0.2% | –18.8% | £89,035 |
| OpenAI GPT-5.4 | –13.6% | –4.1% | –31.6% | £86,365 |
| Google Gemini 3.1 Pro | –43.3% | +33.7% | –100.0% | £56,715 |
| Google Gemini Flash 3.1 LP | –58.4% | +24.7% | –100.0% | £41,605 |
| Z.AI GLM-5 | –58.8% | –14.3% | –100.0% | £41,221 |
| Moonshot Kimi K2.5 | –68.3% | –27.0% | –100.0% | £7,420 |
| xAI Grok 4.20 | –100.0% | –100.0% | –100.0% | £0 |
| Acree Trinity | –100.0% | –100.0% | –100.0% | £0 |
| Foi atribuído um valor de 100.000 libras a cada modelo. O retorno do investimento e o resultado final são fruto de uma média entre as três tentativas. Os modelos Grok e Trinity não conseguiram completar nenhuma das tarefas com sucesso. | ||||
O desempenho da Google e o contraste com outras tarefas
A prestação da Google também revelou altos e baixos extremos. O modelo Gemini 3.1 Pro conseguiu alcançar um lucro de 34 por cento numa das tentativas, mas acabou por ir à falência noutra ronda. Este comportamento inconstante surge numa altura em que a gigante tecnológica continua a expandir a sua oferta. Recorde-se que, recentemente, a Google disponibilizou as versões Gemini 2.5 Pro e Flash, numa tentativa de optimizar as suas funcionalidades para diferentes tipos de utilizadores.
Apesar de a tecnologia estar cada vez mais aperfeiçoada para o ambiente empresarial, a dificuldade em prever o desfecho de um campeonato de futebol sublinha uma lacuna importante. A análise da General Reasoning refere que existe uma grande diferença entre as capacidades da IA em domínios estruturados e as suas falhas perante problemas humanos imprevisíveis. O desporto, com todas as suas variáveis, lesões de jogadores e surpresas de última hora, continua a ser um desafio demasiado complexo para os algoritmos actuais.