Num anúncio que agitou a comunidade tecnológica na passada sexta-feira, Jim Fan, Director de IA e cientista da Nvidia, apresentou ao mundo o NitroGen. Descrito como um modelo de fundação (ou “foundation model”) de código aberto, esta inteligência artificial destaca-se pela sua capacidade de se adaptar e jogar mais de 1.000 videojogos diferentes. Contudo, reduzir o NitroGen a um simples “gamer” artificial é subestimar o seu potencial: este projecto representa um passo gigante na criação daquilo que os especialistas chamam de um “GPT para acções”.
O estudo, que conta com a participação de várias instituições de prestígio, aplica tecnologias de treino em larga escala — semelhantes às utilizadas em modelos de linguagem (LLM) — mas direccionadas para o controlo motor e tomada de decisão. O objectivo é alcançar o “Santo Graal” da investigação em IA: agentes incorporados capazes de operar eficazmente em ambientes desconhecidos e não mapeados.
Do ecrã para a realidade
Curiosamente, a base arquitectónica do NitroGen é o GROOT N1.5, uma estrutura originalmente desenhada para a robótica. Esta polinização cruzada entre o mundo virtual e o físico sugere que os avanços conseguidos nos ambientes simulados dos jogos poderão ser directamente aplicados a robôs que necessitem de trabalhar em cenários imprevisíveis no mundo real.
Para treinar esta IA, os investigadores utilizaram mais de 40.000 horas de vídeos de gameplay públicos partilhados por streamers. Um detalhe crucial para o sucesso do treino foi a selecção de vídeos onde os jogadores sobrepunham as imagens dos seus comandos (gamepad overlays) em tempo real, permitindo à IA associar o que via no ecrã à acção motora correspondente nos botões.
Instinto de Jogador
Nos testes realizados, o NitroGen demonstrou uma versatilidade notável. Segundo Jim Fan, o modelo obteve sucesso em géneros tão díspares como RPG, jogos de plataformas, battle royales, corridas, e títulos tanto em 2D como em 3D. O foco desta primeira versão é o controlo motor rápido, ou o que Fan denomina de “instinto de jogador”.
Os resultados falam por si: o modelo funciona mesmo em mundos gerados proceduralmente e em jogos que nunca “viu” antes, apresentando uma melhoria relativa de 52% na taxa de sucesso de tarefas quando comparado com modelos treinados de raiz.
A Nvidia e os investigadores disponibilizaram todo o projecto em open source. O código, o conjunto de dados de acções e os pesos do modelo pré-treinado estão agora acessíveis a qualquer entusiasta ou investigador que deseje explorar as fronteiras entre os videojogos, os LLM e a robótica.