Utilisation de Robots.txt et des balises HTML en vue d'une interdiction d'accès :
Un fichier
robots.txt sert à indiquer l'emplacement où les robots (outils d'analyse Web) peuvent se rendre sur un site Web et si des outils d'analyse précis doivent être exclus
ou non. Les serveurs Web utilisent ces règles pour contrôler l'accès à leurs sites en empêchant les outils d'analyse d'accéder à certaines zones. SharePoint Portal Server recherche toujours ce fichier lors des analyses et respecte ses
restrictions. Vous pouvez empêcher un autre serveur d'analyser votre espace de travail en modifiant le fichier robots.txt. Par exemple, vous pouvez restreindre l'accès au serveur SharePoint Portal Server pour un outil
d'analyse précis car la fréquence de ses demandes bloque le site. Vous pouvez également restreindre ou interdire tous les outils d'analyse de certaines zones sur le serveur.
SharePoint Portal Server n'installe pas le
fichier robots.txt, mais vous pouvez le créer pour le placer à la racine du serveur. Vous devez placer le fichier robots.txt dans le répertoire de base du site Web par défaut de l'ordinateur SharePoint Portal Server. Pour spécifier
l'emplacement :
Dans la barre des tâches, cliquez sur Démarrer, pointez sur Programmes, puis sur Outils d'administration et cliquez sur Gestionnaire des services Internet.
Cliquez sur le signe plus
(+) en regard de votre ordinateur SharePoint Portal Server.
Cliquez à l'aide du bouton droit de la souris sur Site Web par défaut, puis cliquez sur Propriétés.
Cliquez sur l'onglet Répertoire de base.
Notez l'emplacement qui apparaît sous Chemin local. Robots.txt doit se situer sur ce chemin. Par exemple, si le chemin qui s'affiche est
D:\inetpub\wwwroot,
cela signifie que robots.txt est situé sous D:\inetput\wwwroot\robots.txt sur votre serveur. Vous pouvez confirmer l'emplacement correct de votre fichier robots.txt en
ouvrant un navigateur Web et en tapant http://nom_serveur/robots.txt.
Vous pouvez restreindre l'accès à certains espaces de travail du serveur en modifiant le fichier robots.txt. Si un nouveau fichier robots.txt est copié sur le serveur (ou si le fichier robots.txt existant est modifié),
SharePoint Portal Server se rapporte automatiquement à ce fichier pour l'analyse une seule fois par jour. Si vous voulez que vos changements prennent effet immédiatement, vous devez arrêter et relancer Microsoft Search Service. Vous pouvez restreindre l'accès à certains documents grâce aux balises HTML META. Ces balises indiquent à l'outil d'analyse s'il peut inclure le document dans l'index et s'il peut suivre les liens dans ce document à l'aide
des attributs INDEX/NOINDEX et FOLLOW/NOFOLLOW de cette balise. Par exemple, vous pouvez marquer un document avec
<META name="robots" content= "NOINDEX, NOFOLLOW"> si vous ne souhaitez pas que le
document soit analysé et ne souhaitez pas que ses liens soient suivis.
SharePoint Portal Server respecte automatiquement les règles fixées dans le fichier robots.txt, ainsi que les règles HTML d'exclusion des outils
d'analyse.
Voici un exemple donné par Google : cela me semble bien comléter les explications ci-dessus.
Pour exclure de l'index Google une partie (un ou plusieurs dossiers) ou la totalité de votre site Web, il suffit de placer le fichier robots.txt au niveau racine/root de votre serveur.
Pour
empêcher l'exploration de votre site par Google (et par tout autre service de recherche), votre fichier robots.txt doit contenir l'instruction suivante :
User-Agent: *
Disallow: / Ce protocole standard est respecté par la plupart des robots-explorateurs et autres araignées : lorsqu'ils rencontrent cette instruction, ils n'incluent pas le serveur Web (ou le ou les dossiers
considérés) dans leur index. Pour plus de détails sur le fichier robots.txt, consultez la page suivante (en anglais) :
www.robotstxt.org/wc/norobots.html, ou la page suivante (en
français) : www.referencement-fr.com/?file=referencement7.
|
Remarque : Si vous estimez que le changement requis est
urgent et que vous ne souhaitez pas attendre la
prochaine exploration de Google, utilisez notre
système automatique de suppression d'URL. Ce système
automatique fonctionne seulement si votre webmaster a placé un fichier robots.txt sur le site considéré.
Tant que le fichier robots.txt sera présent au niveau racine/root
de votre serveur Web, Google continuera à ignorer les site (ou le ou les dossiers spécifiés) lors de ses explorations ultérieures. Si vous n'avez pas accès au niveau racine/root
de votre serveur Web, vous pouvez placer le fichier robots.txt au niveau des fichiers à ignorer ; cette solution (avec soumission via notre système automatique de suppression
d'URL -- voir ci-dessus) entraîne la suppression temporaire (90 jours) du site ou des dossiers considérés. Si vous conservez le fichier robots.txt au niveau des
fichiers, vous devez réexécuter le système automatique de suppression d'URL tous les 90 jours. |
|
|
Supprimer certaines pages |
Pour empêcher l'indexation de certaines pages par Google (et par tout autre service de recherche), insérez la balise suivante dans le code HTML de ces pages :
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Pour empêcher l'indexation de certaines pages seulement par les robots Google (et non par les autres services de recherche), insérez la balise suivante dans le code HTML de ces pages :
<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">
Pour plus de détails sur cette balise, consultez la page suivante :
www.robotstxt.org/wc/exclusion.html#meta.
|
Remarque : Si vous estimez que le changement requis est
urgent et que vous ne souhaitez pas attendre la prochaine exploration de Google,
utilisez notre
système automatique de suppression d'URL. Ce système automatique fonctionne seulement si
votre webmaster a inséré la balise appropriée dans le code HTML de ces pages.
|
|
|
Supprimer les extraits de page (snippets) |
Un « snippet » Google est un court extrait de page qui permet aux utilisateurs de voir leurs termes de recherche en caractères gras et en contexte dans les résultats Google, et de sélectionner la page qui les intéresse.
En général, les utilisateurs sélectionneront plus volontiers (et plus rapidement !) une page qui est présentée avec des termes en contexte.
Toutefois, si vous préférez présenter des pages sans snippet, insérez la balise suivante dans leur code HTML :
<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET">
Remarque : Lorsque vous demandez la suppression des extraits de page/snippets, Google supprime également les pages cachées.
|
Remarque : Si vous estimez que le changement requis est
urgent et que vous ne souhaitez pas attendre la prochaine exploration de Google,
utilisez notre
système automatique de suppression d'URL. Ce système automatique fonctionne seulement si
votre webmaster a inséré la balise appropriée dans le code HTML de ces pages.
|
|
|
Supprimer les pages archivées (cachées) |
Google dispose d'un « cache » dans lequel il conserve une copie texte de la plupart des documents qu'il rencontre sur le Web. Grâce à ce cache, vous pouvez à tout moment consulter une version archivée (ou « cachée »)
d'une page Web qui vous intéresse, même si la page originale est inaccessible suite à un incident subi par son serveur Web). Lorsque vous cliquez sur le lien « Copie cachée » d'une page Web, Google affiche celle-ci dans l'état où elle
se trouvait lors de son indexation la plus récente, et un message affiché en haut de page rappelle qu'il s'agit d'une version cachée de la page demandée.
Pour empêcher l'archivage de certaines pages par Google (et par
tout autre service de recherche), insérez la balise suivante dans leur bloc <HEAD> :
<META NAME="ROBOTS" CONTENT="NOARCHIVE">
Pour empêcher l'archivage de certaines pages seulement par les robots Google (et non par les autres services de recherche), utilisez la balise suivante :
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">
Remarque : Cette balise annule uniquement le lien « Copie cachée » de la page ; en l'absence d'autres balises spécifiques, Google continue à indexer la page et à afficher un extrait/snippet.
|
Remarque : Si vous estimez que le changement requis est
urgent et que vous ne souhaitez pas attendre la
prochaine exploration de Google, utilisez notre
système automatique de suppression d'URL. Ce système
automatique fonctionne seulement si votre webmaster a inséré la balise appropriée dans le code HTML de ces pages.
|
|
Google met à jour son index automatiquement, intégralement et à intervalles réguliers. Lorsque nous explorons le Web, nous trouvons les nouvelles pages, nous éliminons les liens périmés ou sans cible et nous mettons à
jour les liens selon besoin. Les liens périmés ou sans cible disparaissent automatiquement de notre index lors de la prochaine exploration du Web.
|
Remarque : Si vous estimez que le changement requis est
urgent et que vous ne souhaitez pas attendre la prochaine exploration de Google,
utilisez notre
système automatique de suppression d'URL. Nous n'acceptons les demandes de suppression de page
seulement si la page considérée n'existe plus sur le Web. |
|
Si vous souhaitez qu'un élément graphique (image) de votre site soit supprimé de l'index d'images proposé par Google, vous devez demander à votre webmaster d'ajouter le fichier robots.txt au niveau racine/root du serveur
(si ce n'est pas possible, placez ce fichier au niveau des dossiers du site).
Exemple : Si vous souhaitez que Google n'indexe pas l'image ludo.jpg du site www.mon_site.com, soit www.mon_site.com/images/ludo.jpg, créez
le fichier robots.txt à l'adresse suivante www.mon_site.com/robots.txt et insérez l'instruction suivante dans ce fichier :
User-Agent: Googlebot-Image
Disallow: /images/ludo.jpg Pour exclure toutes les images de votre site de l'index Google, placez le fichier robots.txt suivant au niveau racine/root de votre serveur :
User-Agent: Googlebot-Image
Disallow: / Après avoir placé ce fichier, faites-nous parvenir un e-mail (googlebot@google.com) pour décrire la modification effectuée et préciser l'emplacement de votre
fichier robots.txt : sous 48 heures, nous arrêterons d'indexer les images de votre site. Pour plus de détails sur les fichiers robots.txt et leur utilisation, consultez la page suivante (au stade actuel, en anglais uniquement) :
www.google.com/webmasters/3.html#B3.
EROL / MiniTrucs 3 :
21-févr.-2004 19:05:18 +0100 |