No passado dia 24 de Março, a Google apresentou o TurboQuant, um novo algoritmo de compressão desenhado para reduzir drasticamente o consumo de memória dos grandes modelos de linguagem (LLM). Esta novidade tecnológica promete optimizar o funcionamento da inteligência artificial, mas os seus efeitos já se começaram a fazer sentir no mercado de hardware. Como consequência deste anúncio, os preços das memórias RAM DDR5 registaram a primeira queda acentuada dos últimos meses, um alívio para os consumidores que procuram actualizar os seus computadores.
O fim do estrangulamento na memória
O grande obstáculo actual da inteligência artificial reside na chamada key-value cache (cache KV). À medida que os utilizadores interagem com os chatbots, o contexto da conversa cresce, o que obriga a máquina a consumir cada vez mais memória e energia. Para resolver este problema, a Google desenvolveu três algoritmos de compressão, com destaque para o TurboQuant, o PolarQuant e o Quantized Johnson-Lindenstrauss (QJL). Em conjunto, estas ferramentas conseguem diminuir o espaço ocupado pela memória em pelo menos seis vezes, sem comprometer a qualidade das respostas.
O PolarQuant reorganiza os vectores de dados e representa-os através de coordenadas polares, o que simplifica a geometria da informação e facilita a aplicação de um quantizador de alta qualidade. Por sua vez, o QJL age como um mecanismo matemático de correcção de erros de apenas um bit. Este algoritmo emprega um estimador especializado que equilibra consultas de alta precisão com dados simplificados para calcular a pontuação de atenção, a servir para determinar quais as partes do texto que são mais relevantes.
O resultado final permite comprimir a cache KV para níveis de apenas três bits por valor, muito abaixo dos tradicionais 32 bits. Testes realizados em plataformas de avaliação de contexto longo, como a LongBench, Needle in a Haystack, RULER e a ZeroSCROLLS, a utilizar modelos abertos como o Gemma e o Mistral, mostraram que a precisão se mantém intacta. Além disso, a velocidade de processamento pode aumentar até oito vezes em placas gráficas Nvidia H100.
Impacto imediato no mercado financeiro
A promessa de que o mundo poderá não precisar de tanta memória para executar tarefas de inteligência artificial gerou uma onda de choque na indústria. Nos cinco dias seguintes ao anúncio, as acções dos principais fabricantes de DRAM sofreram quedas expressivas. A Micron Technology viu o seu valor em bolsa cair 19,5%, enquanto as sul-coreanas SK Hynix e Samsung Electronics registaram descidas de 6% e 5%, respectivamente. Os investidores antecipam que a adopção desta funcionalidade pelas grandes empresas de tecnologia vá diminuir a procura desenfreada por componentes de alta capacidade.
Preços das memórias DDR5 em queda
Para o consumidor final, esta mudança de paradigma traz excelentes notícias. A Wccftech avança que várias lojas norte-americanas, como a Amazon e a Newegg, começaram a aplicar descontos agressivos em kits de memória DDR5 ao longo desta semana. Módulos da Corsair, como os Vengeance de 32 GB a 6400 MHz, que recentemente custavam cerca de 490 dólares, passaram a estar disponíveis por 379,99 dólares. Também as versões de 16 GB a 5200 MHz desceram para a casa dos 219 dólares. Outras marcas acompanharam a tendência, com os kits Patriot Viper Venom de 16 GB a registar quedas semelhantes.
Esta estabilização dos custos surge num momento crucial para a indústria electrónica, que tem sofrido com a inflação dos componentes devido ao pico de interesse na inteligência artificial. Basta recordar que, ainda há pouco tempo, o mercado assistiu a um aumento generalizado dos custos de hardware no sector dos videojogos, uma tendência que agora pode começar a inverter-se graças a esta optimização de software.
Se o TurboQuant cumprir todas as promessas, os benefícios vão estender-se muito além dos grandes centros de dados das empresas tecnológicas. A capacidade de reter mais contexto com menos recursos significa que os computadores portáteis e os telemóveis vão conseguir processar inteligência artificial localmente com muito mais facilidade. Ao libertar a pressão sobre a cadeia de abastecimento global, os fabricantes de DRAM ganham margem para aumentar a produção destinada ao mercado de consumo tradicional. Os engenheiros da Google acreditam que esta funcionalidade vai disponibilizar a eficiência necessária para aplicações críticas, ao mesmo tempo que melhora os resultados das pesquisas na web com latência quase nula.