COMMENT LE « TOKENMAXXING » TRANSFORME L’USAGE DE L’IA EN COMPÉTITION CHEZ LES GÉANTS DE LA TECH

hez Meta, un classement interne affichait les 250 salariés qui consommaient le plus de tokens d’IA. 60 trillions en 30 jours. Le tableau a été retiré après avoir fuité. Le phénomène, lui, ne fait que commencer. Le mot est apparu dans les colonnes d’Hacker News début 2026, avant d’exploser dans un article du New York Times le 20 mars. Le « tokenmaxxing » désigne une pratique née dans la Silicon Valley : consommer un maximum de tokens d’intelligence artificielle (Claude, ChatGPT, Gemini, Codex) pour afficher sa productivité et grimper dans les classements internes. Accessoirement, ça justifie aussi les milliards investis dans l’IA par les dirigeants. Un token, c’est environ les trois quarts d’un mot en anglais. Et dans certaines entreprises, en brûler plus que son voisin est devenu un marqueur de statut aussi visible que l’était une Tesla sur le parking dans les années 2010. En avril 2026, The Information révélait l’existence de «Claudeonomics », un tableau de bord créé par un employé de Meta sur l’intranet. Le principe : tracker la consommation de tokens Claude des quelque 85 000 salariés de l’entreprise et afficher les 250 plus gros consommateurs. Des titres gamifiés comme « Token Legend » ou « Session Immortal » récompensaient les plus voraces. Le champion : 281 milliards de tokens en 30 jours (de quoi remplir Wikipédia 33 fois, pour donner une échelle). Le tableau a été fermé après les fuites, mais le phénomène dépasse largement Meta. Chez Amazon, 80 % des développeurs doivent utiliser l’agent IA interne chaque semaine. Certains lancent des agents inutiles juste pour gonfler le compteur. Chez Salesforce, un widget Mac affiche la dépense IA personnelle actualisée toutes les 15 minutes, avec un objectif minimum. Jensen Huang (Nvidia) propose carrément d’intégrer un budget tokens dans les packages de rémunération, au même titre qu’une prime à l’embauche. Sa formule : un ingénieur à 500 000 dollars qui ne consomme pas 250 000 dollars de tokens devrait « profondément l’alarmer ». Le problème, c’est que brûler des tokens n’est pas synonyme de produire mieux. Une étude Faros AI menée sur 22 000 développeurs montre que le taux de code supprimé après avoir été fusionné (« code churn ») a augmenté de 861 % dans les équipes à forte adoption IA. Autrement dit, on produit beaucoup plus vite du code qu’on jette ensuite beaucoup plus vite aussi.  GPT-5.5 afficherait un QI de 136, Opus 4.7 de 132. Un nouveau site convertit les benchmarks IA en scores de QI. Le problème, c’est que le résultat ne mesure pas grandchose. Coller un score de QI sur un modèle d’intelligence artificielle, c’est le genre d’idée qui fait instantanément réagir : fascinant sur le papier, douteux dès qu’on gratte. Un nouveau site baptisé AI IQ s’y est attelé en compilant les résultats de 12 benchmarks publics (ARC-AGI, FrontierMath, GPQA, entre autres) et en les convertissant en un score de QI estimé réparti sur cinq dimensions : abstraction, raisonnement mathématique, programmation, raisonnement critique et raisonnement agentique. Le site propose même un score d’intelligence émotionnelle dérivé d’EQ-Bench 3. En mai 2026, GPT-5.5 d’OpenAI trône au sommet avec un QI estimé de 136, suivi d’Opus 4.7 d’Anthropic à 132, de Gemini 3.1 Pro de Google à 131 et de GPT-5.4 à 131. Sur une échelle séparée, celle de TrackingAI basée sur le test Mensa Norvège, Grok4.20 Expert Mode et GPT-5.4 Pro sont à égalité à 145. Le graphique le plus frappant du site montre l’évolution temporelle. En octobre 2023, GPT-4-turbo affichait un QI estimé d’environ 75. Trente mois plus tard, les modèles de tête flirtent avec 136. Soixante points de progression en deux ans et demi, c’est spectaculaire. Sauf que la compression au sommet raconte une histoire différente : les cinq meilleurs modèles sont séparés par seulement 7 points (129 à 136 sur AI IQ, 141 à 145 sur Mensa). Le problème fondamental n’est pas dans les chiffres, il est dans ce qu’on prétend mesurer. Le chercheur Alan D. Thompson, qui a travaillé sur l’évaluation cognitive des IA depuis 2021 et documenté en détail les limites de l’exercice, identifie quatre écueils que le site AI IQ ne résout pas. D’abord, les tests de QI ont été conçus pour la cognition humaine, et leurs échelles deviennent floues dès qu’on les applique à une intelligence non humaine. Ensuite, ces tests sont normés sur des populations humaines moyennes, ce qui rend l’interprétation des scores extrêmes (audelà de 155 environ) statistiquement peu fiable, même entre humains. Troisième écueil : l’intelligence artificielle est fondamentalement différente de l’intelligence humaine (un modèle peut résoudre un problème de mathématiques avancées et échouer sur une tâche de sens commun qu’un enfant de six ans maîtrise). Dernier point : AI IQ ne fait pas passer de tests. Le site compile des résultats de benchmarks existants et les traduit en scores de QI via un algorithme maison, ce qui revient à convertir des kilomètres en degrés Celsius : l’opération est techniquement faisable, mais le résultat ne signifie pas ce que l’unité promet.

Soyez le premier à commenter

Poster un Commentaire

Votre adresse de messagerie ne sera pas publiée.


*