Agence de référencement naturel Paris

AGENCE DE REFERENCEMENT NATUREL PARIS

Actualités E-commerce

+33 1 41 62 10 61
+33 6 07 49 90 52

Agence de référencement Paris : Conseils et solutions pour
comment bien vendre sur internet

Entête http : la directive X-Robots-Tag

Article publié le 15/01/2015

Sans une balise meta dans la page HTML, on peut toujours fournir des indications aux robots via l’entête HTTP. Il faut juste ajouter des lignes dans l’entête qui seront identiques à cette balise meta robots.

Quand le CMS n’autorise pas l’ajout d’une balise meta, ou quand les documents sont autres que HTML tels que des PDF ou des images, il faut utiliser le X-Robots-Tag.

Interdire l’indexation avec l’entête HTTP X-Robots-Tag

Qu’en est-il des documents qui ne sont pas au format HTML comme les PDF, audio, Word, Excel ou Powerpoint ? Qu’en est-il également des flux RSS/Atom ? Google et Yahoo gèrent la directive X-Robots-Tag, visible directement dans l’entête HTTP. Cela la rend utilisable avec tous les formats de documents. Ci-dessous quelques précisions sur cette fonctionnalité.

Qu’est-ce que l’entête HTTP ?

Ce sont des informations envoyées par le serveur web à un internaute à la recherche d’un document. Ces envois se font via le navigateur de l’internaute, du robot d’un moteur de recherche ou tout autre moyen. Parmi ces informations, il y a le code de statut HTTP, dont les valeurs les plus connues sont :

  • 200 : le document a été trouvé et bien disponible.
  • 301 : le document a changé définitivement d’adresse (ou URL). C’est la redirection permanente.
  • 302 : le document a changé temporairement d’adresse (URL). C’est la redirection temporaire.
  • 404 : le document est introuvable à l’adresse indiquée

D’autres codes existent. Consulter la liste des codes HTTP pour plus de détails. L’entête HTTP contient d’autres informations comme :

  • le nom et la version du serveur web (exemple : Server: Apache/2.0.59 (Unix))
  • la date de dernière modification du document (exemple : Last-Modified:Wed, 26 Sep 2007 21:19:04 GMT)
  • la taille en octets du document (exemple : Content-Length: 7854)
  • le type de document (exemples : Content-Type :text/html ou Content-Type: image/gif)
  • la valeur du tag intitulé X-Robots-Tag

La balise metagooglebot

Etant donné que les directives s’adressent à tous les robots, on utilise généralement la balise meta robots. Différentes directives spécifiques existent selon les robots. Il faut juste remplacer name="robots"parname="googlebot" ou tout autre nom de robot.

Par exemple, la ligne suivant demande uniquement au robot standard de Google de ne pas indexer la page :
<meta name="googlebot" content="noindex" />

Deux instructions différentes peuvent figurer en même temps dans la même page. Par exemple, quand on autorise tous les robots, à l’exception de Google, de suivre les liens et de demander à tous les moteurs de ne pas indexer la page :

<meta name="robots" content="noindex" />

<meta name="googlebot" content="nofollow" />

Pour Google, les noms d’agents (user agents) qu’on peut utiliser dans la balise méta (de même que dans le robots.txt) sont :

Crawler | User-agent (robots.txt, balise meta ou X-Robots-Tag)

Googlebot (web) | Googlebot

Googlebot Actualités | Googlebot-News(Googlebot)

Googlebot Images | Googlebot-Image(Googlebot)

Googlebot Vidéo | Googlebot-Video(Googlebot)

Googlebot Mobile | Googlebot-Mobile(Googlebot)

Google Mobile AdSense | Mediapartners-GoogleMediapartners(Googlebot)

Google AdSense | Mediapartners-GoogleMediapartners(Googlebot)

Google AdsBot | AdsBot-Google