Indexation par les moteurs de recherche – Entête http : la directive X-Robots-Tag
- Interdire l’indexation avec l’entête HTTP X-Robots-Tag
- Qu’est-ce que l’entête HTTP ?
- La balise metagooglebot
- Zoom sur l’importance des en-têtes http
Sans une balise meta dans la page HTML, on peut toujours fournir des indications aux robots via l’entête HTTP. Il faut juste ajouter des lignes dans l’entête qui seront identiques à cette balise meta robots . Quand le CMS n’autorise pas l’ajout d’une balise meta robots ou quand les documents sont autres que HTML, il faut utiliser le X-Robots-Tag.
Interdire l’indexation avec l’entête HTTP X-Robots-Tag
Que faire avec les documents non HTML tels que PDF, audio, Word, Excel, Powerpoint, etc ? Qu’en est-il des flux RSS/Atom ? Google et Yahoo maintiennent la directive X-Robots-Tag et peuvent être affichés directement dans l’en-tête HTTP. Cela signifie qu’il peut être utilisé avec tous les formats de documents. Vous trouverez ci-dessous les détails de cette fonctionnalité.
Qu’est-ce que l’entête HTTP ?
Ce sont des informations envoyées par le serveur web à un internaute à la recherche d’un document. Ces envois se font via le navigateur de l’internaute, du robot d’un moteur de recherche ou tout autre moyen. Parmi ces informations, il y a le code de statut HTTP, dont les valeurs les plus connues sont :
- 200 : le document a été trouvé et bien disponible.
- 301 : le document a changé définitivement d’adresse (ou URL). C’est la redirection permanente.
- 302 : le document a changé temporairement d’adresse (URL). C’est la redirection temporaire.
- 404 : le document est introuvable à l’adresse indiquée
D’autres codes existent. Il vous est possible de consulter la liste des codes HTTP pour plus de détails. L’entête HTTP contient d’autres informations comme :
- le nom et la version du serveur web (exemple : Server: Apache/2.0.59 (Unix))
- la date de dernière modification du document (exemple : Last-Modified:Wed, 26 Sep 2007 21:19:04 GMT)
- la taille en octets du document (exemple : Content-Length: 7854)
- le type de document (exemples : Content-Type :text/html ou Content-Type: image/gif)
- la valeur du tag intitulé X-Robots-Tag
La balise metagooglebot
Étant donné que les directives s’adressent à tous les robots, on utilise généralement la balise meta robots. Différentes directives spécifiques existent selon les robots. Il faut juste remplacer name= »robots »parname= »googlebot » ou tout autre nom de robot. Deux instructions différentes peuvent figurer en même temps dans la même page. Par exemple, quand on autorise tous les robots, à l’exception de Google, de suivre les liens et de demander à tous les moteurs de ne pas indexer la page. Pour Google, les noms d’agents (user agents) qu’on peut utiliser dans la balise méta (de même que dans le robots.txt) sont :
- Crawler | User-agent (robots.txt, balise meta ou X-Robots-Tag)
- Googlebot (web) | Googlebot
- Googlebot Actualités | Googlebot-News(Googlebot)
- Googlebot Images | Googlebot-Image(Googlebot)
- Googlebot Vidéo | Googlebot-Video(Googlebot)
- Googlebot Mobile | Googlebot-Mobile(Googlebot)
- Google Mobile AdSense | Mediapartners-GoogleMediapartners(Googlebot)
- Google AdSense | Mediapartners-GoogleMediapartners(Googlebot)
- Google AdsBot | AdsBot-Google
Zoom sur l’importance des en-têtes http
Depuis longtemps, les sites ne s’indexent plus simplement via le « www ». Il est important, voire obligatoire d’avoir un en-tête « http ». C’est aussi une base importante du SEO. Le point.
Une exigence de Google
C’est notamment Google qui a été à l’origine de l’indexation obligatoire sous « http », voire désormais sous « https ». Lors de l’indexation de votre site, vous pouvez choisir de vous faire connaître sous l’en-tête « www ». Néanmoins, ce n’est pas suffisant si vous avez envie que les crawls de Google vous trouvent. Vous pouvez indiquer une préférence pour le « www ». Néanmoins, pensez tout de même à mettre l’en-tête « http » pour vous faire rapidement un nom sur les moteurs de recherche.
Pour une recherche rapide des informations de votre page
L’en-tête « http » n’est pas là uniquement pour faire jolie. C’est en fait un ensemble d’informations concernant votre page que vous allez envoyer aux crawls afin de faciliter les recherches des internautes. Il fait partie du code html de votre page où les crawls vont devoir aller pour chaque requête qui sera formulée par les internautes. C’est notamment sous cet en-tête que seront enregistrés les derniers changements que vous avez opérés sur votre site, et ce, notamment en ce qui concerne le référencement. Vous pouvez voir tout cela en détails avec un expert SEO Google Paris.
Pour structurer votre site internet
Pour une meilleure expérience utilisateur, chose importante désormais sur Google, vous devez structurer votre site internet. Et l’en-tête « http » vous permettra de se faire. Il contient aussi en effet les différents codes de redirection qui est disponible sur votre site. Ce qui aide d’ailleurs aussi à évaluer la pertinence de vos contenus. Attention, les moteurs de recherche ont désormais en horreur les redirections 404 ou erreur de page sous « http ».