OpenAI lâche enfin ses premiers modèles ouverts depuis 6 ans

OpenAI lâche enfin ses premiers modèles ouverts depuis 6 ans

Pour la première fois depuis GPT-2 en 2019, OpenAI sort de sa réserve et libère de nouveaux modèles de langage avec des poids ouverts. C'est un tournant majeur pour une entreprise souvent critiquée pour avoir abandonné sa mission d'origine : "s'assurer que l'intelligence artificielle générale profite à toute l'humanité". Après plusieurs reports liés à des tests de sécurité supplémentaires, voici donc gpt-oss-120b et gpt-oss-20b, disponibles en téléchargement sur Hugging Face.

Modèles ouverts, mais pas totalement

Attention, OpenAI ne balance pas tout en open source. L'entreprise partage uniquement les "poids" - ces valeurs numériques que les modèles ont apprises pendant leur entraînement - mais pas le code source ni les données d'origine. Comme l'explique Benjamin C. Lee, professeur d'ingénierie informatique à l'Université de Pennsylvanie, les modèles à poids ouverts et l'open source, c'est du jour et de la nuit.

"Un modèle à poids ouverts vous donne les valeurs apprises pendant l'entraînement. Vous pouvez l'utiliser tel quel ou l'ajuster pour votre application spécifique", précise-t-il. Si les modèles commerciaux sont des boîtes noires totales et l'open source permet une personnalisation complète, les modèles à poids ouverts se situent quelque part au milieu.

Pourquoi OpenAI ne va pas plus loin ? Simple : éviter qu'un concurrent utilise ses données et son code pour décortiquer sa technologie. "Un modèle open source inclurait aussi le code du processus d'entraînement", ajoute Lee. Et concrètement, sans une ferme de GPU NVIDIA haut de gamme qui fait flamber la facture électrique, le grand public n'aurait pas grand-chose à faire d'un modèle totalement ouvert.

Deux tailles, deux usages

La différence principale entre gpt-oss-120b et gpt-oss-20b ? Le nombre de paramètres. Ces paramètres, ce sont les réglages que le modèle peut ajuster pour vous donner une réponse. Malgré son nom trompeur, gpt-oss-120b embarque 117 milliards de paramètres, tandis que son petit frère en compte 21 milliards.

En pratique, le gros modèle demande du matériel costaud - OpenAI recommande un GPU de 80 Go pour tourner efficacement. La bonne nouvelle ? N'importe quel ordinateur moderne avec 16 Go de RAM peut faire fonctionner gpt-oss-20b. De quoi coder tranquillement sur votre machine sans connexion internet.

Les deux modèles sont distribués sous licence Apache 2.0, ce qui laisse une grande liberté pour les modifier selon vos besoins.

Des performances au niveau

Même si ce ne sont pas de nouveaux modèles commerciaux, OpenAI assure que ces versions rivalent largement avec ses systèmes propriétaires. Seule limitation : pas de multimodalité. Impossible de traiter des images, vidéos ou de la voix. Pour ça, il faut toujours passer par le cloud et les modèles payants d'OpenAI, même si les nouveaux systèmes ouverts peuvent être configurés pour s'y connecter.

Côté capacités, on retrouve le raisonnement par étapes et l'utilisation d'outils. Les modèles savent découper des problèmes complexes en petites étapes et peuvent utiliser le web ou des langages de programmation comme Python quand ils ont besoin d'aide.

OpenAI a d'ailleurs utilisé les mêmes techniques d'entraînement que pour o3 et ses autres systèmes de pointe récents. En programmation compétitive, gpt-oss-120b obtient un score à peine inférieur à o3, le modèle de raisonnement le plus avancé d'OpenAI, tandis que gpt-oss-20b se place entre o3-mini et o4-mini.

Un timing parfait face à Meta

Cette sortie arrive pile quand Mark Zuckerberg annonce que Meta va moins partager ses systèmes avec le public. Ironique, quand on sait que le patron de Facebook avait fait de l'open source un pilier de sa stratégie IA, allant jusqu'à dire "fuck that" à propos des systèmes fermés. Pour les passionnés qui bidouillent avec les modèles de langage, le timing est plutôt gênant pour Meta.

"Les modèles à poids ouverts démocratisent l'accès aux modèles les plus performants pour ceux qui n'ont pas de centres de données massifs bourrés de GPU", souligne le professeur Lee. "Ça permet d'utiliser le résultat d'un entraînement de plusieurs mois sur un énorme centre de données sans investir dans cette infrastructure."

OpenAI travaille déjà avec plusieurs organisations pour déployer leurs propres versions, notamment AI Sweden, le centre national suédois pour l'IA appliquée. L'équipe d'OpenAI voit ces deux modèles comme une expérimentation : plus les gens les utiliseront, plus l'entreprise aura de chances de sortir d'autres modèles ouverts à l'avenir.

Anthony Rodier
A propos de l'auteur

Anthony Rodier

Que ce soit à travers des critiques objectives, des guides d'achat ou des analyses approfondies, je m'efforce de rendre la technologie accessible à tous, en démystifiant les concepts complexes et en mettant en lumière les aspects pratiques de ces innovations. Mon travail consiste également à partager des réflexions sur l'impact de la technologie sur notre vie quotidienne et à explorer les possibilités fascinantes qu'elle offre pour l'avenir.