Page 1 sur 1

Un piège de données d’IA attrape Perplexity en train d’usurper l’identité de Google

Posté : 20 sept. 2025, 17:22
par Admin
C’est ce qui vient d’arriver à Perplexity, une startup qui rivalise avec ChatGPT, le Gemini de Google et d’autres services d’IA générative.

Des données de qualité sont cruciales pour réussir dans l’IA, mais les entreprises technologiques ne veulent pas payer pour cela, elles explorent donc le web et collectent des informations gratuitement, souvent sans permission. Cela a suscité une réaction négative de la part de certains créateurs de contenu et d’autres intéressés à préserver les incitations qui ont construit le web.

Cloudflare et son PDG, Matthew Prince, se sont lancés dans cette bataille avec de nouvelles fonctionnalités qui aident les sites web à bloquer les robots d’indexation indésirables. Cloudflare est une entreprise d’infrastructure, de sécurité et de logiciels qui aide à gérer environ 20 % de l’internet. Il prospère lorsque le web se porte bien, d’où son intérêt à aider les sites à être payés pour du contenu.

Certains clients de Cloudflare se sont récemment plaints à l’entreprise que Perplexity contournait ces blocages et continuait à gratter et collecter des données sans permission.

Donc, CloudFlare a posé un piège numérique et pris cette startup en flagrant délit, selon un blog de lundi décrivant l’escapade.

« Certaines entreprises d’IA soi-disant « réputées » agissent plutôt comme des hackers nord-coréens », a écrit Prince sur X lundi. « Il est temps de les nommer, de leur faire honte et de les bloquer avec force. »

Perplexity n’a pas répondu à une demande de commentaire.


L’appât : domaines Honeytrap et portes verrouillées

Cloudflare a créé des sites web entièrement nouveaux, non publiés et les a configurés avec des fichiers robots.txt qui bloquaient explicitement tous les crawlers — y compris les bots déclarés de Perplexity, PerplexityBot et Perplexity-User. Ces sites d’essai n’avaient pas de liens publics, d’entrées dans les moteurs de recherche ou de métadonnées qui les rendraient normalement découvrables.

Pourtant, lorsque Cloudflare a interrogé l’IA de Perplexity avec des questions sur ces sites spécifiques, le service de la startup a répondu avec des informations détaillées qui ne pouvaient provenir que de ces pages restreintes. La conclusion ? Perplexity avait accédé au contenu bien qu’on lui ait clairement dit de ne pas le faire.


Le manteau : comment la perplexité a masqué son rampement

Perplexity a initialement exploré ces sites en utilisant sa chaîne d’utilisateur-agent officielle, respectant les protocoles standard. Cependant, Cloudflare a déclaré avoir découvert qu’une fois bloqué, Perplexity avait recours à des tactiques furtives.

Cloudflare a découvert que Perplexity avait commencé à déployer des robots d’indexation non déclarés déguisés en navigateurs web normaux et à envoyer des demandes depuis des adresses IP inconnues ou ayant subi une rotation et des ASN non officiels, qui sont des identifiants cruciaux qui aident à acheminer le trafic internet efficacement.

Lorsque ses crawlers officiels ont été bloqués, Perplexity a également utilisé un navigateur web générique conçu pour usurper l’identité du navigateur Chrome de Google sur les ordinateurs Mac d’Apple (Business Insider a demandé à Google s’il avait dit à Perplexity d’arrêter d’imiter Chrome. Google n’a pas répondu).

Selon Cloudflare, Perplexity a fait des millions de demandes « furtives » chaque jour sur des dizaines de milliers de domaines web.

Ce comportement non seulement viole les normes du web, mais trahit également la confiance fondamentale qui sous-tend le fonctionnement du web ouvert, a expliqué Cloudflare.


La comparaison : Comment OpenAI s’y prend-il correctement

Pour souligner à quoi ressemble un bon comportement de bot, Cloudflare a comparé la conduite de Perplexity à celle des crawlers d’OpenAI, qui collectent des données pour développer ChatGPT et des modèles d’IA géants tels que le prochain GPT-5.

Lorsque les bots d’OpenAI ont rencontré un fichier robots.txt ou un bloc similaire, ils se sont simplement rétractés. Aucun contournement. Aucun masquage. Pas de backdoor crawling, selon les tests de Cloudflare.


The Fallout : Dévérification et blocage

Suite à ces résultats, Cloudflare a retiré Perplexity de la liste des bots vérifiés et a déployé de nouvelles techniques de détection et de blocage sur son réseau.

Le démantèlement de Cloudflare sert d’exemple dans la course aux armements de l’IA. Alors que le web se déplace vers un contrôle plus fort sur l’accès et l’utilisation des données, les acteurs qui ignorent ces normes en évolution peuvent non seulement être bloqués, mais aussi publiquement interpellés.

À une époque où les systèmes d’IA sont avides de données d’entraînement, l’opération d’intimidation de Cloudflare est un signal pour les startups et les acteurs établis : respectez les règles du web, ou vous risquez d’être exposé.

Source : https://www.businessinsider.com/ai-data ... are-2025-8