Référencement des robots, crawler et autres

Discussions sur l'utilisation du logiciel phpBB.
Fux RSS
Règles du forum
Discussions sur l'utilisation du logiciel phpBB.
Répondre
Avatar du membre
Admin
Administrateur du site
Messages : 109
Enregistré le : 12 mai 2024, 17:11
Statut : Hors ligne

Référencement des robots, crawler et autres

Message par Admin »

Centurybot

"Centurybot" est le robot utilisé par le navigateur rightdao* pour parcourir les pages de l’index. La requête envoyée par ce robot peut être identifiée par le champ d’en-tête "User-Agent". Quelque chose comme ceci peut être observé du côté serveur :

Code : Tout sélectionner

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Centurybot/1.0; +http://www.rightdao.com/bot.html) Chrome/131.0.0.0 Safari/537.36 
Politesse
Centurybot est un robot très poli et rampe beaucoup moins souvent que les autres robots. En général, il récupère une page en quelques secondes. Il pourrait entraîner un trafic observable, mais il est peu probable qu’il cause des problèmes en raison de son paramètre de politesse conservatrice. Si d’une manière ou d’une autre ce crawler provoque un impact indésirable pour votre site, veuillez nous le faire savoir.

robots.txt
Centurybot respecte le paramètre robots.txt, il suit ce que les autres bots font, comme googlebot.

https://rightdao.com/bot.html

*Right Dao est un moteur de recherche entièrement indépendant
🏴‍☠️ Celui qui ne croit pas en la sauvegarde vit en équilibre instable.
Avatar du membre
Admin
Administrateur du site
Messages : 109
Enregistré le : 12 mai 2024, 17:11
Statut : Hors ligne

Re: Référencement des robots, crawler et autres

Message par Admin »

Applebot

Applebot est le robot d'exploration d'Apple utilisé pour Siri et les suggestions Spotlight.

Le robot d'Apple respecte les instructions données dans un fichier robots.txt. Si le robots.txt ne mentionne pas Applebot mais mentionne Googlebot, le robot d'Apple va suivre les instructions du robots.txt pour Googlebot.

Exemple de robots.txt ciblant Applebot pour bloquer l'exploration du dossier /styles/ :

User-agent: Applebot
Disallow: /styles/


Par ailleurs, le User-Agent utilisé par Apple contient toujours le nom Applebot :

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Applebot/0.1)

Plus d'informations sur la page officielle du robot d'Apple
🏴‍☠️ Celui qui ne croit pas en la sauvegarde vit en équilibre instable.
Avatar du membre
Admin
Administrateur du site
Messages : 109
Enregistré le : 12 mai 2024, 17:11
Statut : Hors ligne

Re: Référencement des robots, crawler et autres

Message par Admin »

Babbar's bot: Barkrowler

À propos du robot Babbar's bot: Barkrowler
  • Type de robot : Crawler (s’identifier)
  • Version : 0.9
  • Suit les directives du fichier robots.txt
  • Suivi du délai de crawl
  • Suffixe DNS inverse : babbar.eu
babbar's bot.png
babbar's bot.png (25.22 Kio) Vu 10 fois


babbar.tech exploite un service de crawler nommé Barkrowler qui alimente et met à jour notre représentation graphique du web. Cette base de données et toutes les mesures que nous calculons sont utilisées pour fournir un ensemble d’outils de marketing en ligne et de référencement pour la communauté SEO.

#Qu’est-ce que Barkrowler fait sur votre site web ?
Barkrowler explore les URL trouvées sur des pages publiques et peut donc visiter chaque page qui a été publiquement citée quelque part.

Même redirection (301) ou pages manquantes (404) ?
Oui il continu à essayer de parcourir ces pages juste pour être sûr qu’une page manquante ne reflète pas un état temporaire ou un serveur web défectueux.

Et qu’en est-il de ne pas suivre les liens ?
Google présente Aucun lien de suivi pour laisser un site indiquer que certaines pages ne doivent pas être prises en compte lors du calcul des métriques web. Mais cela n’empêche pas un robot d’explorer ces pages.

Respecte-t-il mon fichier robots.txt ?
Oui il respecte le fichier robots.txt (en utilisant l’ensemble d’outils crawler-commons) et ne permet pas les directives. Si vous avez le sentiment qu'il y a un non respect de vos directives, veuillez les contacter.

Comment puis-je augmenter l’intervalle entre les requêtes de Barkrowler ?
Il y a une politique de politesse de 5 sec entre deux requêtes sur le même hôte, et 2,5 sec entre deux requêtes sur la même IP du même domaine. Vous pouvez prolonger le délai de crawl en utilisant le fichier robots.txt :

User-agent: barkrowler
Crawl-Delay: [delayInSec]


Notez que le délai de crawl ne s’applique qu’à un hôte donné. Si un même serveur web héberge des sites avec des domaines différents, les règles ci-dessus s’appliqueront. Si votre serveur héberge un grand nombre de sites web avec un grand nombre de domaines distincts, il est peu probable mais possible que plusieurs robots d’indexation consultent le même serveur à un moment donné.

Comment puis-je empêcher Barkrowler d’explorer une partie de mon site ?
Le fichier robots.txt vous permet de refuser à Barkrowler d’explorer une partie ou l’ensemble de votre site en utilisant la directive de refus. Par exemple, pour empêcher Barkrowler d’accéder à la section admin :

User-agent: barkrowler
Disallow: /admin/


Qu’arrive-t-il au contenu parcouru ?
Le contenu crawlé n’est pas stocké dans leur base de données, ils gardent principalement des liens et des méta-informations sur les pages web. Aucune donnée nominative n’est stockée dans la base de données.

Mon site bloque ce robot, comment le réparer ?
Même si Barkrowler crawle des pages web avec un délai raisonnable (2,5 ou 5 sec entre les requêtes), il est parfois confondu avec un DDOS ou une attaque de force brute. Si il a trouvé une URL contenant des paramètres de session, cela pourrait également être considéré comme une tentative de connexion. Pour ces raisons, Barkrowler peut être temporairement inscrit sur la liste noire. Dans ce cas, vous pouvez essayer de mettre en liste blanche Barkrowler directement dans votre plugin, ou les contacter si vous ne pouvez pas.
🏴‍☠️ Celui qui ne croit pas en la sauvegarde vit en équilibre instable.
Répondre