La Course effrénée pour les données IA: Stratégies d’OpenAI, Google et Meta

La Course effrénée pour les données IA: Stratégies d’OpenAI, Google et Meta

Dans le petit monde de l'intelligence artificielle, une bataille royale se joue autour de quelque chose d'aussi banal que précieux : les données. Le New York Times nous plonge dans les dessous de cette lutte acharnée où OpenAI, Google et Meta jouent des coudes pour rester en tête. La recette du succès ? Des données par camions entiers pour alimenter leurs cerveaux électroniques. Mais voilà, ces précieuses données ne poussent pas sur les arbres. Elles sont rares, convoitées et bien souvent enfermées derrière des serrures juridiques bien compliquées.

Imaginez : Meta, OpenAI et Google, les titans de l'IA, sont là, à se gratter la tête. Comment nourrir leurs machines affamées ? Nos amis journalistes nous racontent les combines à la limite de la légalité : acheter des banques de données à prix d'or, transformer des vidéos et podcasts en textes ou même flirter avec le droit d'auteur sans dire bonjour. C'est un peu comme essayer de remplir une piscine avec une petite cuillère, sauf que là, la piscine, c'est un modèle de langage qui a un appétit d'ogre.

C'est Jared Kaplan, un cerveau de chez Johns Hopkins, qui a posé les bases de cette quête dès 2020. Plus on a de données, mieux c'est. Sam Altman, le grand manitou d'OpenAI, nous dit même que bientôt, on aura ratissé tout l'internet à la recherche de ces pépites. Et les chercheurs tirent la sonnette d'alarme : au train où vont les choses, les données de qualité pourraient bien devenir une espèce en voie d'extinction.

Chez Meta, la situation est si tendue que des réunions de crise se sont enchaînées. Il paraît même qu'ils ont pensé à acheter tout un éditeur pour mettre la main sur ses trésors littéraires. Google, de son côté, a opté pour une méthode maison : pomper YouTube et transformer les vidéos en texte pour entraîner ses IA. Quant à OpenAI, ils ont misé sur Whisper, un outil capable de transformer en texte des heures de vidéos et podcasts.

Mais voilà, jouer avec le droit d'auteur, c'est comme danser sur un volcan. Les artistes et auteurs crient au vol, pendant que les avocats de ces géants nous parlent de "fair use", cette fameuse exception qui permettrait, peut-être, de justifier tout ce remue-ménage. Pendant ce temps, Google et OpenAI se regardent en chiens de faïence, chacun sachant très bien ce que l'autre fait de pas très catholique avec les vidéos YouTube.

Cette histoire, c'est un peu comme un thriller, mais sans fusillades ni courses-poursuites. Juste des gens en costume qui essaient de trouver le graal des données sans se faire prendre la main dans le sac. Et au final, peut-être que la solution, ça sera de créer leurs propres données, de toutes pièces. Une idée qui est encore au stade de l'expérimentation, mais qui pourrait bien devenir la nouvelle norme dans cette drôle de guerre où chaque octet compte.

Source : New York Times

Anthony Rodier
A propos de l'auteur

Anthony Rodier

Que ce soit à travers des critiques objectives, des guides d'achat ou des analyses approfondies, je m'efforce de rendre la technologie accessible à tous, en démystifiant les concepts complexes et en mettant en lumière les aspects pratiques de ces innovations. Mon travail consiste également à partager des réflexions sur l'impact de la technologie sur notre vie quotidienne et à explorer les possibilités fascinantes qu'elle offre pour l'avenir.