Uma notícia do site The Information avança que a xAI, a empresa de inteligência artificial fundada por Elon Musk, está a utilizar apenas uma pequena fracção da sua frota de placas da Nvidia. De acordo com a publicação, a infra-estrutura responsável por dar vida ao Grok e a outras ferramentas da marca consegue aproveitar apenas 11% da capacidade instalada.
Actualmente, a empresa dispõe de cerca de 550 mil GPU da NVIDIA, numa combinação de modelos H100 e H200. Estes componentes estão distribuídos pelos centros de dados de Memphis e pelo supercomputador Colossus, cuja primeira fase de construção terminou há algum tempo. Vários destes sistemas operam com configurações de refrigeração líquida. Apesar de pertencerem a uma geração anterior à nova arquitectura Blackwell, a escala de hardware continua a impressionar a indústria tecnológica.
No entanto, a taxa de utilização de 11% equivale a tirar partido de apenas 60 mil unidades, a deixar as restantes centenas de milhares subaproveitadas nos servidores da empresa.
O desafio da eficiência em grande escala
O principal motivo para este estrangulamento reside no software. Para configurações de menor dimensão, que agrupam entre mil e dez mil placas gráficas, a gestão de recursos não apresenta grandes dificuldades. Contudo, à medida que os servidores crescem e passam a integrar centenas de milhares de GPU, o tempo de inactividade dos componentes acumula de forma rápida e a taxa de utilização cai drasticamente.
Esta situação gera várias inconsistências no software, falhas que estão a afectar a operação diária da xAI. A publicação refere que este não é um problema exclusivo da empresa de Elon Musk, mas sim um obstáculo estrutural em toda a indústria, uma vez que garantir a eficiência em escalas tão massivas é uma tarefa extremamente complexa.
Algumas empresas do sector investem fortemente na optimização do software e conseguem ultrapassar a taxa típica de utilização, que se situa entre os 35% e os 45%. A Meta e a Google são exemplos de sucesso nesta área, a registar taxas de aproveitamento de 43% e 46%, respectivamente. No caso da xAI, a rede de treino distribuído e a base de software ainda não atingiram a maturidade necessária. Isto resulta em tempos de inactividade mais longos para o hardware e em estrangulamentos constantes nas fases de análise e no processamento de dados.
Planos para o futuro e novos processadores
Para resolver esta limitação, a xAI planeia implementar melhorias na sua infra-estrutura, com o objectivo de atingir uma taxa de utilização de 50%. Embora não exista um prazo definido para alcançar esta meta, a estratégia passa por garantir que o software seja optimizado para executar tarefas de forma mais fluida e sem interrupções. A longo prazo, a empresa poderá vir a disponibilizar serviços de aluguer da sua vasta frota de GPU, à medida que transita para hardware mais recente capaz de responder às exigências de modelos mais avançados.
Paralelamente, Elon Musk continua a apostar no desenvolvimento de soluções próprias. O projeto TeraFab visa a criação de chips internos para a família de produtos de inteligência artificial. Além disso, o magnata pretende aproveitar as tecnologias de fabrico 14A da Intel para criar componentes avançados destinados à xAI e a outras das suas empresas, numa altura em que a SpaceX também prepara o desenvolvimento de hardware próprio para inteligência artificial. No futuro, existe ainda a possibilidade de vermos estas centenas de milhares de placas gráficas a ser utilizadas para criar videojogos baseados em inteligência artificial generativa à escala real.