Dossier sur le Robots.txt
![]() |

Puisque il y a un besoin de classer le Web et beaucoup de robots sont construits à cette fin. Vous connaissez déjà ce BOT célèbre de Google qui classe le Web pour maintenir des urls et pour établir un arrangement hors de lui (algorithme de popularité de lien?).
Il n’y a pas aussi beaucoup de manières de balayer un site Web mais quelques pages d’un site Web ne pourraient pas devoir n’être rampées pour aucune raison telle que l’intimité?
Une norme pour l’exclusion de robot a été créée et maintenant les robots des moteurs ou de d’autres de recherche regardent en avant le dossier de robots.txt avant de commencer à balayer un site Web. Ce dossier indique aux robots quels liens sont permis d’être balayés et quels liens ne devraient pas être classés.
Une bonne ressource au sujet du dossier de robots.txt est à cette adresse :
http://www.robotstxt.org
L’emplacement édite des informations sur des robots de Web, vous pouvez être intéressés par cet emplacement si vous projetez créer votre propre BOT ou apprendre plus au sujet de leur histoire.
Pratique
Vous avez pu avoir noté de vos notations de serveur la présence de la demande de robots.txt d’une fourmi, il jette un dossier pour ne pas exister erreur quand vous n’avez pas le dossier de robots.txt. Si vous voulez juste essuyer ceci les dossiers de notation puis vous devez créer ce dossier des textes de robots même si vous le rendez vide.
La structure de ce dossier est assez simple, vous pouvez rejetez des agents, vous pouvez rejetez des parties de vos sites Web ou seulement de peu de pages? Ou vous pouvez nier tout ou laisser tout.
Voici un exemple de http://www.robotstxt.org
Utilisateur-agent : le webcrawler rejettent :
Utilisateur-agent : le lycra rejettent : /
Utilisateur-agent : * Rejeter : /tmp rejettent : /logs
Le BOT de Webcrawler peut aller n’importe où. Le deuxième paragraphe indique que le robot appelé le « lycra » a tout l’URLs relatif commençant par « / » rejeté. Puisque tout le Relative URL sur un début de serveur avec « / », ceci signifie l’emplacement entier est fermé au loin.
Le troisième paragraphe indique que tous autres robots ne devraient pas visiter URLs commençant par /tmp ou /log. Noter « * » est une marque spéciale, signifiant « n’importe quel autre Utilisateur-agent » ; vous ne pouvez pas employer des modèles de wildcard ou des expressions régulières dans l’Utilisateur-agent ou ne rejetez pas des lignes.
Validator
Une fois que vous êtes faits avec votre dossier de robots.txt que vous devriez l’examinez en employant un Validator de robots.txt, il y a d’un à cette adresse : http://www.searchengineworld.com/cgi-bin/robotcheck.cgi. Le site Web de Searchengineworld fournit également un cours d’instruction plus complet au sujet du dossier de robots.txt.
Notes – l’utilisation de ce dossier peut réduire le consommation de largeur de bande par des robots sur votre serveur. Si vous rejeter peu de pages, – elle nettoie également un peu vos dossiers de notation (1 ligne moins par balayage de bots), – le point le plus important est que ce dossier est recommandé par Bots pour des sites Web doubles. Comme vous pouvez obtenir des pénalités quand vous avez les emplacements doubles, une solution est de nier l’accès à un côté.
Spécifique
Chaque BOT peut agir peu différemment, ainsi il a conseillé de vérifier des FAQ de chaque des bots pour apprendre plus au sujet de leur comportement d’indexation, par exemple pour assurer le BOT de slurp de Yahoo, vous pouvez examiner cet URL : Index de Yahoo Slurp
Le BOT de Msn : http://search.msn.com/docs/siteowner.aspx le BOT de Google : http://www.google.com/bot.html
Voici une base de données des webrobots : http://www.robotstxt.org/wc/active/html/contact.html
Avertissement
Il y a des intrus qui recherchent les dossiers de robots.txt des annuaires et des dossiers qui ne devraient pas être balayés, ils s’appellent également les « mauvais robots ».
La solution est pas à la mention les liens et aux annuaires pour les éviter ou mettre dans un endroit spécial où vous ajoutez une protection additionnelle de serveur.
Le futur du travail d’agents de Web d’agents de Web becomming de plus en plus le complexe pendant que le Web se développe, bien que la technologie s’améliore, des raccordements obtiennent plus rapidement et plus rapide, meilleur marché et meilleur marché, les câbles deviennent plus occupés et plus occupés cependant.
Là les tas des sites Web geting les everydays en ligne et les agents de Web devez-vous effectuer l’indexation appropriée, vous rappelez-vous le temps Google rampiez-vous un nouveau site Web en 1 jour ? ?
Je devine le non !
Je ne serais pas début étonnant d’agents de Web pour mettre en application un genre de choix et pour éviter automatiquement des sites Web ce qui ne sont pas HTML valide? Mon conseil : suivre les règles, examiner votre emplacement, le faire se conformer aux directives d’aujourd’hui de moteurs de recherche?
robots.txt peut aider ces agents à comprendre votre emplacement, ainsi l’employer, qui vous récompensera plus tard.
Merci pour la lecture, j’espère que cet article a été utile pour lui.









Poster un commentaire