Qu’est-ce que les wildcards ?

L’utilisation d’un caractère générique permet de gagner beaucoup de temps lors de la création du fichier robots.txt. Cependant, les wildcards ne sont pas toujours requis!

Supposons que vous souhaitiez rendre toutes les pages du répertoire / courses / inaccessibles aux robots de recherche, alors vous n’avez pas besoin d’utiliser un caractère générique. Dans ce cas, procédez comme suit:

Mal

Agent utilisateur: * Disallow: / courses / *

Bien

Agent utilisateur: * Disallow: / courses /

Le moteur de recherche de Google ne prend en charge que 2 types de caractères génériques:

* caractères génériques
$ caractères génériques

Le caractère générique * est utilisé lorsqu’il existe des modèles d’URL évidents que vous ne souhaitez pas autoriser, tels que des filtres et des paramètres.

Voici un exemple où un filtre doit être exclu:

 

Agent utilisateur: * Disallow: / filter? *

En utilisant le caractère générique, vous n’avez pas à saisir toutes les URL du filtre dans le fichier robots.txt.

$ Caractères génériques
Le caractère générique $ est utilisé pour indiquer la fin d’une URL. Ceci est particulièrement utile avec les types de fichiers tels que .pdf, .jpg ou .png.

Voici un exemple si vous souhaitez que les fichiers .pdf soient inaccessibles:

Agent utilisateur: * Disallow: /*.pdf$

En utilisant le caractère générique, vous n’avez pas à ajouter manuellement chaque fichier .pdf séparément au fichier robots.txt.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *