Treinar um modelo grande de IA é, por definição, um processo que consome muita energia. Centros de dados gastam eletricidade em escala de gigawatts, e empresas de IA já divulgam relatórios de carbono. Só que, enquanto a energia é monitorizada e permanece no debate, os metais presentes nos chips de IA quase não têm sido analisados.
Um estudo recente desmontou um chip, examinou-o elemento por elemento e chegou a um número que, em geral, o setor preferiu não colocar no papel.
Metais em chips de IA
Para descobrir o que, de facto, existe dentro do hardware de IA, uma equipa da Universidade de Bonn desmontou um Nvidia A100 - o chip que impulsionou o primeiro grande salto dos chatbots de IA - e levou as peças para análise num laboratório de química.
Sophia Falk - investigadora do Sustainable AI Lab, em Bonn, e autora principal do estudo - trabalhou com colegas para listar todos os elementos presentes no dispositivo. Ao todo, identificaram 32.
Em termos de massa, cerca de 90% do chip é composto por metais pesados. Só o cobre corresponde a aproximadamente 1,4 kg (3 libras) por unidade; ferro, estanho, silício e níquel completam o top 5. Ouro, prata, platina e paládio aparecem apenas em quantidades residuais.
Uma mistura tóxica
Entre os 32 elementos catalogados pela equipa, chama a atenção o volume de substâncias classificadas como perigosas: arsénio, mercúrio, chumbo, cádmio, crómio, zinco, níquel, antimónio, cobalto e berílio.
Pelo peso, cerca de 93% de um único A100 é formado por elementos com propriedades tóxicas documentadas. Encapsulados no interior do componente, esses materiais não oferecem risco a um técnico que apenas instala a peça num rack de servidores.
O problema não está no chip parado dentro do servidor. Ele começa no solo de onde esses metais foram extraídos e continua no monte de lixo eletrónico para onde o hardware antigo acaba a ser enviado. Um artigo separado, do mesmo grupo, descreve todo o ciclo “do berço ao túmulo”.
Chips, metais e o GPT-4
Quantos chips são necessários, na prática, para uma única rodada de treino? Segundo o estudo, isso varia principalmente por dois fatores: quão intensamente os chips são utilizados e por quanto tempo funcionam antes de falhar.
No que a equipa define como o cenário de referência mais plausível - 35% de utilização e vida útil de dois anos - treinar uma rodada do GPT-4 consome o equivalente a cerca de 2,515 chips A100.
Se a vida útil for estendida para três anos, esse número cai para aproximadamente 1,676. Já no sentido oposto - baixa utilização e vida útil curta - uma única rodada de treino pode consumir até 8,800 GPUs.
Em qualquer hipótese, trata-se de milhares de dispositivos para um único modelo. A equipa estima algo em torno de 4 toneladas (3,6 toneladas métricas) de material extraído para uma única rodada de treino do GPT-4.
Retornos decrescentes na IA
O dado mais impressionante do artigo não se limita a um único modelo, e sim ao salto entre dois. A transição da OpenAI do GPT-3.5 para o GPT-4 exigiu cerca de 31 vezes mais recursos de GPU - um aumento de poder computacional superior a 3,000%.
O ganho de desempenho, porém, foi desigual. No benchmark difícil de matemática, o GPT-4 superou o antecessor em 61%, e em programação a alta foi de 39%. Já em raciocínio de senso comum, a melhoria ficou em apenas 14 percent.
“Inovações arquiteturais e metodologias de treino podem oferecer melhorias de desempenho mais eficazes do que simplesmente escalar recursos brutos”, escreveram Falk e os coautores. O artigo sustenta que maior não é sinónimo de mais inteligente.
Onde os custos recaem
No nível do chip, os números contam uma história; no mapa, aparece outra. Os metais dentro de um A100 vêm de minas e refinarias muito distantes dos centros de dados que, no fim, colocam esses chips para trabalhar.
Ao longo dos nove modelos analisados pela equipa, o cenário mais plausível soma cerca de 7 toneladas (6,4 toneladas métricas) de material extraído - quase tudo classificado como perigoso. No pior caso, o total chega perto de 22 toneladas (20 toneladas métricas).
A maior parte desse impacto ambiental não acontece perto dos centros de dados que usam os chips. Ele tende a concentrar-se nas regiões de mineração, frequentemente com fiscalização ambiental mais frágil do que nas cidades que compram o poder computacional.
A alavanca da vida útil mais longa
Os autores argumentam que duas ações poderiam alterar esses números de forma relevante: aumentar a carga de trabalho dos chips enquanto estão em operação e mantê-los em uso por mais tempo. Como os efeitos se acumulam, a diferença pode ser grande.
Elevar a utilização de 20 para 60% reduz em cerca de dois terços a quantidade de GPUs necessária para um treino específico. Prolongar a vida útil do hardware de um para três anos gera um corte de magnitude semelhante.
Ao combinar as duas estratégias - operar um A100 a 60% por cinco anos, em vez de um ano a 20% - a necessidade de chips para treinar o GPT-4 cai de 8,800 para 587. Isso representa uma redução de 93%.
Uma análise separada projeta que, até 2030, as cargas de trabalho de IA vão representar quase 70% da demanda total dos centros de dados, o que aumenta as consequências caso esses ganhos de eficiência não se concretizem.
O que isto muda
A contribuição central do estudo é fazer a ponte entre duas realidades. Já se sabia que GPUs contêm metais pesados e também era conhecida a dependência do treino de IA em relação a esses chips. O que faltava era ligar os pontos e quantificar o custo material de treinar um modelo específico.
Com isso, existe agora uma linha de base para o GPT-4: alguns milhares de chips e várias toneladas de material minerado por rodada de treino - a maior parte tóxica. Políticos, desenvolvedores de IA e fabricantes de chips passam a ter um parâmetro concreto.
Energia e água já não representam, sozinhas, toda a pegada do treino de um modelo grande de IA. Os metais - muitos deles tóxicos - precisam entrar na mesma contabilidade.
O grupo de Falk defende que laboratórios de IA divulguem as configurações de treino como parte de relatórios-padrão de sustentabilidade, para que a pegada do próximo modelo não dependa de terceiros a reconstruírem detalhes a partir de fichas técnicas vazadas.
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário