Référencement des robots, crawler et autres

Message par **Admin** » 05 avr. 2025, 10:20

Centurybot

"Centurybot" est le robot utilisé par le navigateur rightdao* pour parcourir les pages de l’index. La requête envoyée par ce robot peut être identifiée par le champ d’en-tête "User-Agent". Quelque chose comme ceci peut être observé du côté serveur :

Code : Tout sélectionner

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Centurybot/1.0; +http://www.rightdao.com/bot.html) Chrome/131.0.0.0 Safari/537.36

Politesse
Centurybot est un robot très poli et rampe beaucoup moins souvent que les autres robots. En général, il récupère une page en quelques secondes. Il pourrait entraîner un trafic observable, mais il est peu probable qu’il cause des problèmes en raison de son paramètre de politesse conservatrice. Si d’une manière ou d’une autre ce crawler provoque un impact indésirable pour votre site, veuillez nous le faire savoir.

robots.txt
Centurybot respecte le paramètre robots.txt, il suit ce que les autres bots font, comme googlebot.

https://rightdao.com/bot.html

*Right Dao est un moteur de recherche entièrement indépendant

Message par **Admin** » 06 juin 2025, 04:49

Applebot

Applebot est le robot d'exploration d'Apple utilisé pour Siri et les suggestions Spotlight.

Le robot d'Apple respecte les instructions données dans un fichier robots.txt. Si le robots.txt ne mentionne pas Applebot mais mentionne Googlebot, le robot d'Apple va suivre les instructions du robots.txt pour Googlebot.

Exemple de robots.txt ciblant Applebot pour bloquer l'exploration du dossier /styles/ :

User-agent: Applebot
Disallow: /styles/

Par ailleurs, le User-Agent utilisé par Apple contient toujours le nom Applebot :

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Applebot/0.1)

Plus d'informations sur la page officielle du robot d'Apple

Message par **Admin** » 06 juin 2025, 10:13

Babbar's bot: Barkrowler

À propos du robot Babbar's bot: Barkrowler

Type de robot : Crawler (s’identifier)
Version : 0.9
Suit les directives du fichier robots.txt
Suivi du délai de crawl
Suffixe DNS inverse : babbar.eu

: babbar's bot.png (25.22 Kio) Vu 13584 fois

babbar.tech exploite un service de crawler nommé Barkrowler qui alimente et met à jour notre représentation graphique du web. Cette base de données et toutes les mesures que nous calculons sont utilisées pour fournir un ensemble d’outils de marketing en ligne et de référencement pour la communauté SEO.

#Qu’est-ce que Barkrowler fait sur votre site web ?
Barkrowler explore les URL trouvées sur des pages publiques et peut donc visiter chaque page qui a été publiquement citée quelque part.

Même redirection (301) ou pages manquantes (404) ?
Oui il continu à essayer de parcourir ces pages juste pour être sûr qu’une page manquante ne reflète pas un état temporaire ou un serveur web défectueux.

Et qu’en est-il de ne pas suivre les liens ?
Google présente Aucun lien de suivi pour laisser un site indiquer que certaines pages ne doivent pas être prises en compte lors du calcul des métriques web. Mais cela n’empêche pas un robot d’explorer ces pages.

Respecte-t-il mon fichier robots.txt ?
Oui il respecte le fichier robots.txt (en utilisant l’ensemble d’outils crawler-commons) et ne permet pas les directives. Si vous avez le sentiment qu'il y a un non respect de vos directives, veuillez les contacter.

Comment puis-je augmenter l’intervalle entre les requêtes de Barkrowler ?
Il y a une politique de politesse de 5 sec entre deux requêtes sur le même hôte, et 2,5 sec entre deux requêtes sur la même IP du même domaine. Vous pouvez prolonger le délai de crawl en utilisant le fichier robots.txt :

User-agent: barkrowler
Crawl-Delay: [delayInSec]

Notez que le délai de crawl ne s’applique qu’à un hôte donné. Si un même serveur web héberge des sites avec des domaines différents, les règles ci-dessus s’appliqueront. Si votre serveur héberge un grand nombre de sites web avec un grand nombre de domaines distincts, il est peu probable mais possible que plusieurs robots d’indexation consultent le même serveur à un moment donné.

Comment puis-je empêcher Barkrowler d’explorer une partie de mon site ?
Le fichier robots.txt vous permet de refuser à Barkrowler d’explorer une partie ou l’ensemble de votre site en utilisant la directive de refus. Par exemple, pour empêcher Barkrowler d’accéder à la section admin :

User-agent: barkrowler
Disallow: /admin/

Qu’arrive-t-il au contenu parcouru ?
Le contenu crawlé n’est pas stocké dans leur base de données, ils gardent principalement des liens et des méta-informations sur les pages web. Aucune donnée nominative n’est stockée dans la base de données.

Mon site bloque ce robot, comment le réparer ?
Même si Barkrowler crawle des pages web avec un délai raisonnable (2,5 ou 5 sec entre les requêtes), il est parfois confondu avec un DDOS ou une attaque de force brute. Si il a trouvé une URL contenant des paramètres de session, cela pourrait également être considéré comme une tentative de connexion. Pour ces raisons, Barkrowler peut être temporairement inscrit sur la liste noire. Dans ce cas, vous pouvez essayer de mettre en liste blanche Barkrowler directement dans votre plugin, ou les contacter si vous ne pouvez pas.

Message par **Admin** » 24 août 2025, 10:12

IbouBot

À propos du robot Babbar's bot: Barkrowler
Ibou - Le moteur de recherche Iboustouflant

Informations techniques

Type de bot : Crawler (s’identifie)
Version : 1.0
Suit robots.txt : Oui
Suit le retard de crawl : Oui
Suffixe DNS inverse : ibou.io

Ibou.io exploite un service de crawler nommé IbouBot qui alimente et met à jour une représentation graphique du World Wide Web. Cette base de données et toutes les métriques sont utilisées pour fournir un moteur de recherche. IbouBot n’entraîne pas les modèles d’IA avec les données.
IbouBot explore les URL trouvées sur des pages publiques et peut donc visiter chaque page qui a été publiquement citée quelque part.

Comment augmenter l’intervalle entre les requêtes IbouBot ?

IbouBot a une politique de politesse de X secondes entre deux requêtes sur le même hôte, et Y secondes entre deux requêtes sur la même adresse IP du même domaine. Vous pouvez prolonger le délai de crawl en utilisant le fichier robots.txt :

User-agent: IbouBot
Crawl-Delay: [delayInSec]

Comment empêcher IbouBot d’explorer une partie de mon site ?

Le fichier robots.txt vous permet d’interdire à IbouBot de crawler tout ou partie de votre site web en utilisant la directive disallow. Par exemple, pour empêcher l’accès à la section admin WordPress par IbouBot :

User-agent: IbouBot
Disallow: /wp-admin/

IBOU, le moteur de recherche français qui veut réinventer l’information en ligne
Fonctionnement de Ibou Explorer

Référencement des robots, crawler et autres

Référencement des robots, crawler et autres

Re: Référencement des robots, crawler et autres

Re: Référencement des robots, crawler et autres

Re: Référencement des robots, crawler et autres