L’Empreinte Écologique des LLM en Action – Podcast

L'Empreinte Écologique des LLM en Action

Ce document (arxiv) évalue l’impact environnemental des modèles de langage à grande échelle (LLM) en termes de consommation d’énergie, d’eau et d’émissions de carbone, se concentrant sur la phase d’inférence plutôt que sur la formation. Il présente une nouvelle méthode pour quantifier ces coûts par requête, en combinant les données de performance des API avec des informations d’infrastructure régionales comme l’efficacité de l’utilisation de l’énergie et de l’eau, ainsi que les facteurs d’intensité carbone. Les résultats montrent des variations significatives entre les modèles, certains consommant beaucoup plus de ressources par requête que d’autres, et soulignent que l’infrastructure de déploiement est un facteur crucial de durabilité. L’étude de cas sur GPT-4o illustre qu’en dépit d’un coût par requête faible, l’échelle globale de l’utilisation entraîne un impact environnemental agrégé considérable, mettant en évidence le paradoxe de Jevons appliqué à l’IA.

L’Intelligence Artificielle a-t-elle Faim ? Mesurer l’Empreinte Environnementale de l’Inférence des Grands Modèles Linguistiques

Les grands modèles linguistiques (LLMs) ne sont plus cantonnés aux laboratoires de recherche ; ils sont désormais omniprésents dans nos vies numériques, des moteurs de recherche aux assistants virtuels. Des modèles de pointe comme GPT-4o et Claude-3.7 Sonnet, ainsi que des alternatives open-source telles que LLaMA-3 et DeepSeek-V3, montrent l’accessibilité et l’expérimentation croissantes dans ce domaine.

Cependant, cette avancée s’accompagne de préoccupations environnementales. Bien que la phase d’entraînement des modèles ait fait l’objet de discussions sur la durabilité, l’inférence (l’utilisation des modèles pour répondre aux requêtes) est en train de devenir le principal contributeur aux coûts environnementaux. Contrairement à l’entraînement qui est effectué ponctuellement, l’inférence se produit de manière continue et à grande échelle, représentant jusqu’à 90 % de l’utilisation totale d’énergie d’un modèle sur son cycle de vie.

Malgré l’empreinte croissante du déploiement à grande échelle, il manquait une méthode standard pour quantifier le coût de l’inférence au niveau de la requête. Les cadres existants ne peuvent pas évaluer les modèles propriétaires, n’ont pas la granularité en temps réel nécessaire, ou sont limités à des configurations locales qui ne reflètent pas la complexité de l’infrastructure de production. L’opacité des fournisseurs commerciaux, qui ne divulguent pas de données spécifiques à l’inférence par modèle, complique encore les choses.

Pour combler ces lacunes, une nouvelle approche de benchmarking a été développée. Ce cadre novateur vise à quantifier l’empreinte environnementale opérationnelle de l’inférence des LLMs au niveau de la requête individuelle, en tenant compte de l’infrastructure.

Comment ça marche ? Une méthodologie innovante et sensible à l’infrastructure

Ce framework combine des métriques de performance (comme la latence et le débit en tokens par seconde – TPS) provenant d’APIs publiques avec les spécifications de puissance des GPU et des systèmes. Ces données sont ensuite ajustées à l’aide de multiplicateurs environnementaux spécifiques à la région de déploiement. Les principaux multiplicateurs utilisés sont :

Power Usage Effectiveness (PUE) : Comptabilise les frais généraux d’énergie non informatiques, comme le refroidissement et l’éclairage. C’est le rapport entre la consommation totale d’énergie du centre de données et l’énergie utilisée spécifiquement par l’informatique.
Water Usage Effectiveness (WUE) : Mesure l’eau utilisée par kilowatt-heure d’énergie informatique, incluant le refroidissement sur site et l’eau liée à la production d’électricité hors site. L’étude se concentre sur la consommation d’eau (eau perdue, principalement par évaporation).
Carbon Intensity Factor (CIF) : Évalue les émissions de carbone par kilowatt-heure d’énergie consommée, principalement déterminées par le mix électrique régional. L’analyse se concentre sur les émissions de Scope 2 (génération d’électricité hors site).

Le framework estime également les configurations matérielles sous-jacentes grâce à des analyses statistiques. Les modèles sont classés en fonction de leur taille, et un nombre de GPU leur est attribué (1 à 8). L’estimation de la consommation d’énergie par requête prend en compte le temps d’inférence total (basé sur la latence et le TPS), la consommation électrique des GPU et des composants non-GPU, et le facteur PUE. Les consommations d’eau et les émissions de carbone sont ensuite calculées à partir de l’énergie consommée et des multiplicateurs WUE et CIF.

Pour contextualiser l’utilisation des ressources par rapport aux capacités du modèle, l’étude utilise le Data Envelopment Analysis (DEA) de cross-efficiency. Cette méthode évalue l’efficacité avec laquelle chaque modèle convertit les ressources environnementales (énergie, PUE, WUE, CIF) en performance (mesurée par un indice composite basé sur divers benchmarks comme le raisonnement, les mathématiques et le codage).

Des résultats frappants : des écarts énormes et le rôle de l’infrastructure

L’évaluation de 30 modèles révèle des disparités substantielles.

Consommation d’énergie : Pour les requêtes longues, o3 et DeepSeek-R1 sont les plus énergivores, consommant plus de 33 Wh, soit plus de 70 fois la consommation de GPT-4.1 nano. À titre de comparaison, une seule requête longue à o3 ou DeepSeek-R1 peut consommer autant d’électricité qu’une télévision LED de 65 pouces fonctionnant pendant 20 à 30 minutes. GPT-4.1 nano est le modèle le plus efficace globalement. GPT-4o démontre une bonne efficacité énergétique, nécessitant seulement 1,788 Wh pour les requêtes longues et 0,42 Wh pour les courtes.
Eau et Carbone : Les modèles les plus efficaces en ressources, comme GPT-4.1 nano et certains modèles LLaMA-3.2, émettent moins de 0,3 grammes de CO2e et utilisent moins de 2 ml d’eau par requête, quelle que soit la taille de l’entrée. À l’inverse, DeepSeek-R1, DeepSeek-V3, o3 et GPT-4.5 ont des empreintes environnementales beaucoup plus importantes. DeepSeek-R1 émet régulièrement plus de 14 grammes de CO2e et consomme plus de 150 ml d’eau par requête – l’équivalent de rouler 50 mètres en voiture à essence et d’utiliser les deux tiers d’une tasse d’eau standard.
Eco-efficacité (DEA) : Claude-3.7 Sonnet se classe le plus haut en éco-efficacité. Les modèles plus petits axés sur le raisonnement d’OpenAI, comme o4-mini (high) et o3-mini, ont également obtenu de bons résultats, offrant une forte capacité de raisonnement pour un coût en ressources moindre. DeepSeek-R1 et DeepSeek-V3 ont les scores les plus bas, leurs exigences élevées en énergie, eau et carbone indiquant des inefficacités infrastructurelles.

Un point crucial mis en évidence est que l’infrastructure de déploiement peut l’emporter sur la taille du modèle en termes de consommation d’énergie réelle. Par exemple, GPT-4o mini, bien que plus petit, consomme légèrement plus d’énergie par requête que GPT-4o en raison de son déploiement sur du matériel A100 moins efficace au lieu de H100 ou H200. Les empreintes élevées des modèles DeepSeek sont également attribuées en partie aux inefficacités de leurs centres de données.

Étude de cas GPT-4o : le paradoxe de l’échelle

Bien que les valeurs par requête puissent sembler modestes individuellement, leur impact devient considérable à l’échelle.

Consommation par utilisateur : Une seule requête courte à GPT-4o (0,42 Wh) dépasse l’empreinte d’une recherche Google (0,30 Wh). Une utilisation quotidienne typique de GPT-4o (8 requêtes/jour) équivaut à charger deux smartphones à pleine capacité.
Impact annuel estimé (2025) : Basé sur 700 millions de requêtes quotidiennes (une estimation prudente), l’inférence de GPT-4o pourrait nécessiter entre 391 509 MWh et 463 269 MWh par an. Cela dépasse la consommation totale d’électricité annuelle de 35 000 foyers américains, 50 hôpitaux ou 325 universités.
Empreinte hydrique annuelle estimée : La consommation annuelle d’eau (évaporée) de GPT-4o est projetée entre 1 334 991 kL et 1 579 680 kL. Cela correspond à plus de 500 piscines olympiques ou aux besoins annuels en eau potable de près de 1,2 million de personnes.
Empreinte carbone annuelle estimée : Les émissions annuelles de GPT-4o sont estimées entre 138 125 et 163 441 tonnes de CO2e. C’est comparable aux émissions annuelles de 30 000 voitures à essence ou de 2 300 vols transatlantiques. Pour compenser cela, il faudrait une forêt de plus de 138 000 acres, soit la taille de Chicago.

Ces chiffres illustrent un paradoxe croissant : bien que les requêtes individuelles soient efficaces, leur échelle mondiale entraîne une consommation de ressources disproportionnée.

Implications et la voie à suivre

Les résultats soulignent que la durabilité de l’inférence de l’IA dépend fortement de l’infrastructure, incluant l’efficacité matérielle, les stratégies de refroidissement et l’utilisation d’énergies renouvelables.

L’efficacité par tâche des LLMs, tout en étant supérieure au travail humain, ne réduit pas intrinsèquement l’impact environnemental global. Ce phénomène est aligné avec le Paradoxe de Jevons, où l’augmentation de l’efficacité entraîne une augmentation encore plus rapide de l’utilisation totale, amplifiant la consommation nette de ressources.

Pour une IA durable, il est crucial d’aller au-delà des optimisations au niveau du modèle et de considérer une réglementation systémique de l’infrastructure. Il est suggéré que les agences gouvernementales pourraient encourager ou établir des seuils sur l’empreinte environnementale par inférence (énergie, eau, carbone). Ces seuils pourraient être atteints par des innovations architecturales ou des optimisations d’infrastructure. La transparence, via le reporting des métriques environnementales par inférence, et l’intégration des stratégies de déploiement comme le batching (qui peut améliorer l’utilisation du matériel et réduire l’énergie par requête) sont également importantes. Des technologies comme le refroidissement diélectrique par immersion pourraient réduire drastiquement l’utilisation d’eau.

En conclusion, le framework présenté est le premier à grande échelle, sensible à l’infrastructure, pour évaluer l’empreinte de l’inférence des LLMs. Il révèle que l’éco-efficacité dépend à la fois de la conception du modèle et de l’infrastructure. L’étude de cas GPT-4o démontre clairement que même de modestes coûts par requête, multipliés par des centaines de millions d’utilisations quotidiennes, engendrent une consommation massive. Sans changements structurels dans la conception et le déploiement des LLMs, ces coûts « invisibles » continueront d’augmenter, menaçant d’annuler les bénéfices sociétaux qu’ils apportent.

L’étude reconnaît certaines limitations, notamment l’exclusion des émissions et de l’utilisation d’eau liées à la fabrication du matériel (Scope 3) afin d’éviter de surestimer les empreintes par requête et de se concentrer sur les impacts opérationnels. Les données de télémétrie détaillées des fournisseurs et le reporting au niveau des installations amélioreraient les futures analyses.

L’avenir de l’IA durable nécessitera une responsabilité accrue, une transparence des fournisseurs et des choix d’infrastructure éclairés.