Perplexity accusé de voler le contenu des sites web en secret
- 05/08/2025 à 06:30

Perplexity, l'intelligence artificielle qui se veut concurrent de Google, se retrouve dans une nouvelle polémique. Selon un rapport de Cloudflare, la société utiliserait des méthodes douteuses pour récupérer le contenu des sites web, même quand ces derniers lui interdisent formellement l'accès.
Une stratégie de contournement sophistiquée
Le problème vient des robots d'exploration de Perplexity, ces programmes automatisés qui parcourent le web pour collecter des informations. D'après Cloudflare, ces robots pratiquent ce qu'on appelle le "crawling furtif" : ils se déguisent pour passer inaperçus et contourner les barrières mises en place par les sites.
Normalement, les sites web utilisent un fichier appelé robots.txt pour indiquer aux robots d'exploration s'ils peuvent ou non récupérer leur contenu. C'est un peu comme un panneau "entrée interdite" numérique. Les robots officiels de Perplexity s'appellent "PerplexityBot" et "Perplexity-User", et ils sont censés respecter ces règles.
Mais voilà le problème : même quand ces robots spécifiques étaient bloqués, Perplexity arrivait encore à afficher le contenu des sites dans ses réponses. Comment ? En utilisant un robot déguisé qui se fait passer pour un navigateur Chrome classique sur Mac.
Des techniques de plus en plus élaborées
Les méthodes employées par Perplexity ne s'arrêtent pas là. Cloudflare a découvert que la société change régulièrement d'adresses IP pour éviter les pare-feu, un peu comme quelqu'un qui changerait constamment de voiture pour éviter d'être reconnu. Ces changements d'identité numérique se produisent des millions de fois par jour sur des dizaines de milliers de sites.
Cette situation n'est pas nouvelle pour Perplexity. En 2024, plusieurs sites web avaient déjà signalé que l'entreprise continuait à aspirer leur contenu malgré les interdictions. À l'époque, Perplexity avait rejeté la faute sur des partenaires externes qu'elle utilisait pour collecter les données.
Une guerre sans fin
Pour les entreprises d'intelligence artificielle comme Perplexity, avoir accès aux informations les plus récentes du web est crucial. Ces données servent à entraîner leurs modèles et à fournir des réponses actualisées aux utilisateurs. Mais cette course à l'information pose des questions importantes sur le respect de la propriété intellectuelle.
Suite aux révélations précédentes, Perplexity avait signé des partenariats avec plusieurs éditeurs pour partager les revenus publicitaires générés à partir de leur contenu. Une façon de se racheter une conduite, en quelque sorte.
En réponse à ces nouveaux éléments, Cloudflare a pris les devants : l'entreprise a retiré les robots de Perplexity de sa liste de robots vérifiés et a développé des outils pour détecter et bloquer ces crawlers furtifs.
Cette bataille entre les créateurs de contenu et les entreprises d'IA qui veulent y accéder ressemble à un jeu du chat et de la souris sans fin. Chaque nouvelle protection développée semble rapidement contournée par des techniques toujours plus sophistiquées.

Que ce soit à travers des critiques objectives, des guides d'achat ou des analyses approfondies, je m'efforce de rendre la technologie accessible à tous, en démystifiant les concepts complexes et en mettant en lumière les aspects pratiques de ces innovations. Mon travail consiste également à partager des réflexions sur l'impact de la technologie sur notre vie quotidienne et à explorer les possibilités fascinantes qu'elle offre pour l'avenir.
Newsletter
Recevez notre newsletter hebdomadaire directement dans votre boite mail !
Publicité