GPT-5 d'OpenAI : Stratégie de réduction des coûts avant l'évolution de l'IA
Le dernier modèle phare d’OpenAI, GPT-5, est arrivé au milieu d’une avalanche d’affirmations, pourtant ses débuts suggèrent moins un bond révolutionnaire dans l’intelligence artificielle et plus un pivot stratégique vers l’optimisation des coûts. En tant qu’entreprise ayant allumé le boom de l’IA générative, OpenAI fait face à une immense pression non seulement pour démontrer sa supériorité technologique, mais aussi pour justifier ses cycles de financement de plusieurs milliards de dollars en prouvant la scalabilité et la rentabilité de son activité. Pour y parvenir, OpenAI peut soit étendre sa base d’utilisateurs, augmenter ses prix, soit réduire significativement ses dépenses opérationnelles. Avec une grande partie de l’industrie convergeant vers des niveaux de prix similaires, OpenAI doit soit offrir une expérience premium inégalée, soit risquer de perdre des utilisateurs au profit de concurrents redoutables comme Anthropic et Google.
L’année universitaire imminente devrait entraîner une augmentation des nouvelles souscriptions à mesure que les étudiants retournent en classe, stimulant les revenus mais augmentant simultanément les coûts de calcul. Ce contexte sert de toile de fond à ce qui semble être la nouvelle ère de réduction des coûts d’OpenAI. Un exemple frappant de cette stratégie est l’architecture même de GPT-5 : ce n’est pas un modèle singulier et monolithique. Au lieu de cela, il comprend au moins deux grands modèles linguistiques distincts – une variante légère conçue pour des réponses rapides aux requêtes courantes et un modèle plus robuste et lourd adapté aux tâches complexes. Un « modèle routeur » dirige intelligemment les invites des utilisateurs vers le modèle sous-jacent approprié, fonctionnant un peu comme un équilibreur de charge sophistiqué. Même les invites de génération d’images sont gérées par un modèle spécialisé séparé, Image Gen 4o. Cela marque un départ significatif de l’approche précédente d’OpenAI, où les utilisateurs Plus et Pro avaient l’autonomie de sélectionner leur modèle préféré pour toute tâche donnée. Théoriquement, ce nouveau système de routage devrait canaliser la majorité du trafic de GPT-5 via ses modèles plus petits et moins gourmands en ressources, ce qui entraînerait des économies substantielles.
Une preuve supplémentaire de la conception soucieuse des coûts est la décision d’OpenAI d’activer ou de désactiver automatiquement la capacité de « raisonnement » du modèle en fonction de la complexité de l’invite. Les utilisateurs du niveau gratuit, notamment, n’ont pas la possibilité d’activer manuellement cette fonctionnalité. Moins de raisonnement se traduit par moins de jetons générés et, par conséquent, des coûts opérationnels inférieurs. Bien que cette approche bénéficie sans aucun doute aux résultats d’OpenAI, elle n’a pas démontré rendre les modèles eux-mêmes significativement plus intelligents. Les benchmarks publiés par OpenAI n’indiquent que des gains de performance modestes par rapport aux itérations précédentes, les améliorations les plus notables étant observées dans l’appel d’outils et une réduction des « hallucinations » de l’IA. Les premiers retours ont également mis en évidence des problèmes avec la fonctionnalité du modèle routeur, le PDG Sam Altman admettant que le jour du lancement, un système de routage défectueux a fait paraître GPT-5 « beaucoup plus bête » que prévu, citant un cas embarrassant où le modèle a identifié incorrectement le nombre de ‘B’ dans « Blueberry ». Heureusement, ce composant de routage est un modèle séparé et donc susceptible d’amélioration.
Au-delà des changements architecturaux, la décision initiale d’OpenAI de déprécier tous les modèles antérieurs, y compris le populaire GPT-4o, a provoqué un tollé considérable chez les utilisateurs. Sam Altman a ensuite concédé que c’était une erreur, reconnaissant le fort attachement des utilisateurs à des modèles d’IA spécifiques – un phénomène qu’il a décrit comme « différent et plus fort » que les attachements aux technologies passées. Bien que GPT-4o ait depuis été restauré pour les utilisateurs payants, la motivation sous-jacente à la dépréciation reste claire : moins de modèles à gérer libère des ressources précieuses. OpenAI, bien que secret sur les détails techniques de ses modèles propriétaires, vise probablement à tirer parti des avancées comme la quantification MXFP4, qui peut réduire les exigences de mémoire, de bande passante et de calcul jusqu’à 75 % par rapport aux anciens types de données, rendant l’élimination des GPT hérités hautement souhaitable pour l’efficacité.
Un autre choix stratégique contribuant au contrôle des coûts est la décision d’OpenAI de ne pas étendre la fenêtre de contexte de GPT-5 – son équivalent de mémoire à long terme. Les utilisateurs gratuits restent plafonnés à un contexte de 8 000 jetons, tandis que les utilisateurs Plus et Pro accèdent à une fenêtre de 128 000 jetons. Cela contraste avec des concurrents tels que Claude Pro d’Anthropic, qui offre une fenêtre de contexte de 200 000 jetons à un prix similaire, et Gemini de Google, supportant jusqu’à un million de jetons. Les fenêtres de contexte plus grandes, bien qu’inestimables pour des tâches comme la synthèse de vastes documents, exigent d’immenses ressources de mémoire. En maintenant des contextes plus petits, OpenAI peut faire fonctionner ses modèles sur moins de GPU. Bien que la version API de GPT-5 prenne en charge un contexte plus étendu de 400 000 jetons, son utilisation a un coût significatif, avec un seul remplissage complet de contexte pouvant coûter environ 50 cents USD.
Suite au lancement de GPT-5, Sam Altman s’est engagé dans un important contrôle des dégâts. Outre la réintégration de GPT-4o, il a introduit des options permettant aux utilisateurs payants d’ajuster la vitesse de réponse de GPT-5 et d’augmenter les limites de débit. Altman a également décrit la stratégie d’allocation de calcul d’OpenAI, priorisant les clients payants, suivis par l’utilisation de l’API jusqu’à la capacité actuelle. Il a déclaré avec optimisme qu’OpenAI prévoit de doubler sa flotte de calcul au cours des cinq prochains mois, promettant des améliorations à tous les niveaux, y compris l’amélioration éventuelle de la qualité du niveau gratuit de ChatGPT. En fin de compte, le déploiement de GPT-5 souligne les immenses pressions financières sur les pionniers de l’IA, illustrant un équilibre complexe entre repousser les limites de l’intelligence artificielle et les aspects pratiques de la gestion de coûts de calcul colossaux.