À medida que mais empresas querem apanhar o comboio da Inteligência Artificial, o consumo de energia dos modelos que são usados está a tornar-se uma preocupação. Enquanto os principais intervenientes – Nvidia, Microsoft e OpenAI – têm vindo a minimizar a problema, uma empresa, quase desconhecida, afirma ter encontrado a solução.
Investigadores da BitEnergy AI desenvolveram uma técnica que pode reduzir drasticamente o consumo de energia da IA sem sacrificar muita precisão e velocidade. O estudo afirma que o método pode reduzir o consumo de energia em até 95%. A equipa chama a esta descoberta inovadora chamada Linear-Complexity Multiplication (Multiplicação de Complexidade Linear) ou L-Mul, abreviadamente. O processo computacional usa adições de números inteiros, um processo que requer muito menos energia e menos etapas do que as multiplicações de números de vírgula flutuante usadas actualmente nas tarefas relacionadas com IA.
Os números de vírgula flutuante são amplamente utilizados em cálculos de IA para lidar com números muito grandes ou muito pequenos. Esses números são como notação científica em formato binário e permitem que os sistemas de IA executem cálculos complexos com precisão. No entanto, essa precisão tem um custo.
Os consumos de energia devido ao grande crescimento da tecnologia de IA estão a atingir um nível preocupante. Por exemplo, para funcionar, o ChatGPT consome a electricidade equivalente ao gasto de 18.000 casas nos EUA (cerca de 564 MWh diários). Analistas do Cambridge Centre for Alternative Finance estimam que a indústria de IA poderá consumir entre 85 e 134 TWh anualmente até 2027.
O algoritmo L-Mul aborda este desperdício de energia aproximando multiplicações complexas de virgula flutuante com adições de inteiros mais simples. Em testes feitos pela empresa, os modelos de IA utilizados mantiveram a precisão, mas gastaram menos 95% de energia eléctrica em produtos tensoriais e em 80% para produtos escalares.
A técnica L-Mul também oferece um desempenho proporcionalmente melhorado. O algoritmo excede os padrões computacionais de 8 bits actuais, alcançando uma precisão maior com menos cálculos. Testes abrangendo várias tarefas de IA, incluindo processamento de linguagem natural e visão computacional, demonstraram apenas uma diminuição de desempenho de 0,07% – uma pequena desvantagem quando se se considerar a energia que é economizada.
Os modelos baseados em transformadores, como os GPT (Generative Pre-trained Transformers), são os que podem beneficiar mais com o L-Mul, porque o algoritmo integra-se perfeitamente no mecanismo de atenção, um componente crucial desta tecnologia que consome muita energia. Os testes executados com recurso a outros modelos de IA populares, como o Llama e o Mistral, até mostraram uma precisão de resultados melhorada em algumas tarefas. No entanto, há boas e más notícias.
A má notícia é que, actualmente, o L-Mul requer hardware especializado para funcionar. A boa notícia é que os planos para desenvolver esse hardware e APIs para facilitar a programação estão em andamento, abrindo caminho para uma IA mais eficiente em termos energéticos a médio prazo.
Para aqueles que gostam de ler documentos mais técnicos, há uma versão preliminar do estudo na biblioteca “arXiv” da Universidade Rutgers.