Pular para o conteúdo

Metais em chips de IA: estudo desmonta o Nvidia A100 e estima o custo material do GPT-4

Jovem analisando um chip de computador em escritório com materiais de estudo na mesa.

Treinar um modelo grande de IA é, por definição, um processo que consome muita energia. Centros de dados gastam eletricidade em escala de gigawatts, e empresas de IA já divulgam relatórios de carbono. Só que, enquanto a energia é monitorizada e permanece no debate, os metais presentes nos chips de IA quase não têm sido analisados.

Um estudo recente desmontou um chip, examinou-o elemento por elemento e chegou a um número que, em geral, o setor preferiu não colocar no papel.

Metais em chips de IA

Para descobrir o que, de facto, existe dentro do hardware de IA, uma equipa da Universidade de Bonn desmontou um Nvidia A100 - o chip que impulsionou o primeiro grande salto dos chatbots de IA - e levou as peças para análise num laboratório de química.

Sophia Falk - investigadora do Sustainable AI Lab, em Bonn, e autora principal do estudo - trabalhou com colegas para listar todos os elementos presentes no dispositivo. Ao todo, identificaram 32.

Em termos de massa, cerca de 90% do chip é composto por metais pesados. Só o cobre corresponde a aproximadamente 1,4 kg (3 libras) por unidade; ferro, estanho, silício e níquel completam o top 5. Ouro, prata, platina e paládio aparecem apenas em quantidades residuais.

Uma mistura tóxica

Entre os 32 elementos catalogados pela equipa, chama a atenção o volume de substâncias classificadas como perigosas: arsénio, mercúrio, chumbo, cádmio, crómio, zinco, níquel, antimónio, cobalto e berílio.

Pelo peso, cerca de 93% de um único A100 é formado por elementos com propriedades tóxicas documentadas. Encapsulados no interior do componente, esses materiais não oferecem risco a um técnico que apenas instala a peça num rack de servidores.

O problema não está no chip parado dentro do servidor. Ele começa no solo de onde esses metais foram extraídos e continua no monte de lixo eletrónico para onde o hardware antigo acaba a ser enviado. Um artigo separado, do mesmo grupo, descreve todo o ciclo “do berço ao túmulo”.

Chips, metais e o GPT-4

Quantos chips são necessários, na prática, para uma única rodada de treino? Segundo o estudo, isso varia principalmente por dois fatores: quão intensamente os chips são utilizados e por quanto tempo funcionam antes de falhar.

No que a equipa define como o cenário de referência mais plausível - 35% de utilização e vida útil de dois anos - treinar uma rodada do GPT-4 consome o equivalente a cerca de 2,515 chips A100.

Se a vida útil for estendida para três anos, esse número cai para aproximadamente 1,676. Já no sentido oposto - baixa utilização e vida útil curta - uma única rodada de treino pode consumir até 8,800 GPUs.

Em qualquer hipótese, trata-se de milhares de dispositivos para um único modelo. A equipa estima algo em torno de 4 toneladas (3,6 toneladas métricas) de material extraído para uma única rodada de treino do GPT-4.

Retornos decrescentes na IA

O dado mais impressionante do artigo não se limita a um único modelo, e sim ao salto entre dois. A transição da OpenAI do GPT-3.5 para o GPT-4 exigiu cerca de 31 vezes mais recursos de GPU - um aumento de poder computacional superior a 3,000%.

O ganho de desempenho, porém, foi desigual. No benchmark difícil de matemática, o GPT-4 superou o antecessor em 61%, e em programação a alta foi de 39%. Já em raciocínio de senso comum, a melhoria ficou em apenas 14 percent.

“Inovações arquiteturais e metodologias de treino podem oferecer melhorias de desempenho mais eficazes do que simplesmente escalar recursos brutos”, escreveram Falk e os coautores. O artigo sustenta que maior não é sinónimo de mais inteligente.

Onde os custos recaem

No nível do chip, os números contam uma história; no mapa, aparece outra. Os metais dentro de um A100 vêm de minas e refinarias muito distantes dos centros de dados que, no fim, colocam esses chips para trabalhar.

Ao longo dos nove modelos analisados pela equipa, o cenário mais plausível soma cerca de 7 toneladas (6,4 toneladas métricas) de material extraído - quase tudo classificado como perigoso. No pior caso, o total chega perto de 22 toneladas (20 toneladas métricas).

A maior parte desse impacto ambiental não acontece perto dos centros de dados que usam os chips. Ele tende a concentrar-se nas regiões de mineração, frequentemente com fiscalização ambiental mais frágil do que nas cidades que compram o poder computacional.

A alavanca da vida útil mais longa

Os autores argumentam que duas ações poderiam alterar esses números de forma relevante: aumentar a carga de trabalho dos chips enquanto estão em operação e mantê-los em uso por mais tempo. Como os efeitos se acumulam, a diferença pode ser grande.

Elevar a utilização de 20 para 60% reduz em cerca de dois terços a quantidade de GPUs necessária para um treino específico. Prolongar a vida útil do hardware de um para três anos gera um corte de magnitude semelhante.

Ao combinar as duas estratégias - operar um A100 a 60% por cinco anos, em vez de um ano a 20% - a necessidade de chips para treinar o GPT-4 cai de 8,800 para 587. Isso representa uma redução de 93%.

Uma análise separada projeta que, até 2030, as cargas de trabalho de IA vão representar quase 70% da demanda total dos centros de dados, o que aumenta as consequências caso esses ganhos de eficiência não se concretizem.

O que isto muda

A contribuição central do estudo é fazer a ponte entre duas realidades. Já se sabia que GPUs contêm metais pesados e também era conhecida a dependência do treino de IA em relação a esses chips. O que faltava era ligar os pontos e quantificar o custo material de treinar um modelo específico.

Com isso, existe agora uma linha de base para o GPT-4: alguns milhares de chips e várias toneladas de material minerado por rodada de treino - a maior parte tóxica. Políticos, desenvolvedores de IA e fabricantes de chips passam a ter um parâmetro concreto.

Energia e água já não representam, sozinhas, toda a pegada do treino de um modelo grande de IA. Os metais - muitos deles tóxicos - precisam entrar na mesma contabilidade.

O grupo de Falk defende que laboratórios de IA divulguem as configurações de treino como parte de relatórios-padrão de sustentabilidade, para que a pegada do próximo modelo não dependa de terceiros a reconstruírem detalhes a partir de fichas técnicas vazadas.

Comentários

Ainda não há comentários. Seja o primeiro!

Deixar um comentário