La révolution musicale de Stability AI : Créer des chansons de 3 Minutes avec Stable Audio 2.0

La révolution musicale de Stability AI : Créer des chansons de 3 Minutes avec Stable Audio 2.0

Eh bien, voilà quelque chose qui va faire du bruit : Stability AI vient de lever le voile sur Stable Audio 2.0, la version améliorée de sa plateforme de génération musicale. Ce système novateur permet à quiconque d'engendrer jusqu'à trois minutes d'audio juste en tapotant quelques mots. Et quand on dit trois minutes, on parle de la durée moyenne d'une vraie chanson, avec tout ce qui va avec : intro, progression d'accords complète, et outro pour finir en beauté.

Alors, commençons par les bonnes nouvelles. Trois minutes, c'est pas rien, surtout quand on sait que la version précédente plafonnait à 90 secondes. Imaginez un peu les chansons d'anniversaire délirantes que vous pourriez créer, à la manière de ce fameux morceau de Rob Thomas et Santana. Autre point positif : l'outil est gratos et accessible à tous sur le site de la boîte, donc allez-y gaiement.

Le fonctionnement est principalement basé sur des instructions textuelles, mais si vous êtes du genre à vouloir innover, vous pouvez aussi uploader un extrait audio. Le système va l'analyser et vous sortir quelque chose dans le même esprit. Attention, tout extrait téléchargé doit être libre de droits, donc oubliez l'idée de cloner votre hit préféré. Par contre, c'est plutôt sympa pour développer une petite mélodie ou étirer un clip de 20 secondes en quelque chose de plus conséquent.

Maintenant, passons aux moins bonnes nouvelles. On parle toujours de musique générée par IA ici. C'est sympa pour faire jaser lors d'un apéro et ça montre un avenir possible où les bidouilleurs s'éclatent tandis que les musiciens font la grimace, mais c'est à peu près tout. Les morceaux ont leur petit effet, jusqu'à ce que les imperfections sautent aux oreilles. Et là, ça peut devenir carrément flippant.

Par exemple, le système kiffe ajouter des voix, mais pas dans une langue connue des humains. On dirait plutôt le langage mystérieux des images générées par IA. Ces voix sonnent presque humaines, par moments, et à d'autres, on se croirait chez les moines grégoriens projetés dans l'espace. On est en plein dans la vallée de l'étrange. The Verge a décrit ces voix comme "sans âme et bizarres", en les comparant à des chants de baleines. C'est assez juste.

Stable Audio 2.0 commet les mêmes petites erreurs bizarres que tous ces systèmes, peu importe le type de contenu généré. Des éléments peuvent disparaître comme par magie, remplacés par autre chose. Parfois, des éléments mélodiques se dédoublent sans crier gare, comme une version audio de ces doigts supplémentaires dans les images générées par IA.

Et puis, il y a ce côté... ennuyeux. Au final, c'est de la musique juste de nom. Sans connexion humaine, à quoi bon ? J'écoute de la musique pour entrer dans la tête d'une autre personne ou d'un groupe. Là, il n'y a pas de tête où entrer, malgré les annonces constantes nous promettant l'intelligence générale artificielle pour bientôt.

Donc, pour ceux qui veulent créer des vidéos d'anniversaire rigolotes ou de la musique d'attente pour les services bancaires, cette techno est un vrai cadeau. Pour les autres ? Mouais. Si je peux partager mon expérience personnelle : c'est sacrément rapide. Le système a pondu une chanson de big band absolument terrifiante sur mon chat en environ une minute.

Anthony Rodier
A propos de l'auteur

Anthony Rodier

Que ce soit à travers des critiques objectives, des guides d'achat ou des analyses approfondies, je m'efforce de rendre la technologie accessible à tous, en démystifiant les concepts complexes et en mettant en lumière les aspects pratiques de ces innovations. Mon travail consiste également à partager des réflexions sur l'impact de la technologie sur notre vie quotidienne et à explorer les possibilités fascinantes qu'elle offre pour l'avenir.