A Huawei apresentou o Flex:ai, uma ferramenta de coordenação de código aberto concebida para aumentar a taxa de utilização de chips de Inteligência Artificial (IA) em clusters de computação de larga escala. Anunciada na sexta-feira, 21 de Novembro, a plataforma baseia-se no Kubernetes e será lançada através da comunidade de programadores ModelEngine da Huawei. A ferramenta surge no meio de contínuas restrições de exportação dos EUA de GPU de topo e reflecte uma mudança crescente na China em direcção a ganhos de eficiência do lado do software como uma medida provisória para o fornecimento limitado de chips.
Além de estar equipada para ajudar a China a “…criar um chip de IA análogo 1000 vezes mais rápido que os chips da Nvidia”, a Huawei afirma que o Flex:ai pode aumentar a utilização média em cerca de 30%. Segundo consta, fá-lo ao dividir placas individuais de GPU ou NPU em múltiplas instâncias de computação virtual e ao orquestrar tarefas através de tipos de hardware heterogéneos.
Tarefas menores, que de outra forma poderiam subutilizar um acelerador completo, são arrumadas umas ao lado das outras, enquanto modelos maiores que excedem a capacidade de um único dispositivo podem abranger múltiplas placas. A ferramenta inclui um agendador inteligente, apelidado de Hi Scheduler, que redistribui recursos inactivos entre nós em tempo real, reatribuindo automaticamente a computação para onde as tarefas de IA estiverem em fila de espera.
A arquitectura do Flex:ai baseia-se nas fundações existentes de código aberto do Kubernetes, mas estende-as de formas que ainda são incomuns em implementações abertas. O Kubernetes já suporta plugins de dispositivos para expor aceleradores e agendadores, como o Volcano, ou frameworks como o Ray que podem realizar alocação fraccionada e agendamento de grupo. O Flex:ai parece unificá-los numa camada superior, integrando simultaneamente o suporte para NPU Ascend juntamente com hardware GPU padrão.
O lançamento assemelha-se à funcionalidade oferecida pela Run:ai, uma plataforma de coordenação adquirida pela Nvidia em 2024, que permite o agendamento multi-inquilino e a alocação de tarefas em grandes clusters de GPU. A versão da Huawei, pelo menos no papel, parece fazer o mesmo, mas fá-lo com um foco na implementação de código aberto e compatibilidade entre aceleradores. Isso pode dar-lhe mais relevância em clusters construídos em torno de chips chineses, particularmente aqueles que usam chips Ascend.
O código aberto ainda não foi publicado e a Huawei não tão pouco foi divulgada documentação ou benchmarks. Quando ficar disponível, as questões-chave incluirão a granularidade da divisão de atrefas, como o Flex:ai interage com os agendadores padrão do Kubernetes e, crucialmente, se suporta tipos de GPU amplamente utilizados através de plugins padrão. A empresa afirmou que investigadores da Shanghai Jiao Tong, Xi’an Jiaotong e da Universidade de Xiamen contribuíram para o desenvolvimento da ferramenta.