Identification des robots

[ 19 commentaires]

Réussir son cloaking nécessite une bonne connaissance des moteurs de recherche, des robots, de leurs user-agents et adresses IP. Le construction d'une telle base de données nécessite beaucoup de temps, sans jamais pouvoir être certain d'être exhaustif. Nous avons vu dans le tuto PHP comment partiellement contourner cette difficulté grâce aux wild-cards.

Attention! les listes de robots que nous vous proposons ici ne sont pas forcément à jour (dernière mise à jour le 10/2/2005). En suivant ce lien, vous trouverez des listes des robots des principaux moteurs mises à jour automatiquement.

Vous pouvez aussi consulter les liens suivants: Database of Web Robots, Webmaster World.

(Les * représentent les caractères variables des hôtes et adresse IP)

Moteur de recherche: Google
Robot: Googlebot
• User-agent: Googlebot/2.1 (+http://www.google.com/bot.html) ou
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Hôtes (DNS) Adresses IP
crawl**.googlebot.com 66.249.**.**

Moteur de recherche: MSN (Microsoft)
Robot: MSNBot
• User-agent:
msnbot/1.0 (+http://search.msn.com/msnbot.htm) ou
msnbot/0.3 (+http://search.msn.com/msnbot.htm)
Hôtes (DNS) Adresses IP
msnbot.msn.com ou adresse IP 207.68.146.***
msnbot.msn.com ou adresse IP 65.54.188.***

Moteur de recherche: Yahoo!
Robot: Yahoo! Slurp
• User-agent:
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
Hôtes (DNS) Adresses IP
xxxxx.inktomisearch.com 66.196.***.***
xxxxx.inktomisearch.com 68.142.***.***

Moteur de recherche: Voila
Robot: VoilaBot
• User-agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows 95) VoilaBot BETA 1.2 (http://www.voila.com/)
Hôtes (DNS) Adresses IP
x1crawler*-1-0.x-echo.com 195.101.94.***

Moteur de recherche: WiseNut
Robot: ZyBorg
• User-agent: Mozilla/4.0 compatible ZyBorg/1.0 (wn.zyborg@looksmart.net; http://www.WISEnutbot.com)
Hôtes (DNS) Adresses IP
64.241.243.65 64.241.243.65
an-zyborg-g**.looksmart.com 209.249.67.1**
fdevoid1.looksmart.com 64.241.242.177

Moteur de recherche: Fast
Robot: Fast Web Crawler
• User-agent: FAST-WebCrawler/3.6 (atw-crawler at fast dot no; http://fast.no/support/crawler.asp)
Hôtes (DNS) Adresses IP
c***.sac2.fastsearch.net 66.77.73.***
• User-agent: FAST-WebCrawler/3.7/FirstPage (atw-crawler at fast dot no;http://fast.no/support/crawler.asp)
Hôtes (DNS) Adresses IP
***.sac2.fastsearch.net 66.77.73.***
• User-agent: FAST-WebCrawler/3.8 (atw-crawler at fast dot no; http://fast.no/support/crawler.asp)
Hôtes (DNS) Adresses IP
m***.sac2.fastsearch.net 66.77.73.***

Moteur de recherche: DeepIndex
Robot: DeepIndex bot
• User-agent: DeepIndex
Hôtes (DNS) Adresses IP
deepindex.net1.nerim.net 62.212.117.198

Moteur de recherche: Teoma
Robots: Teoma, DirectHit
• User-agent: Mozilla/2.0 (compatible; Ask Jeeves/Teoma)
Hôtes (DNS) Adresses IP
egspd***.teoma.com 65.214.36.***
ghost.directhit.com 65.214.38.10

Moteur de recherche: Whalhello
Robots: appie
• User-agent: appie 1.1 (www.walhello.com)
Hôtes (DNS) Adresses IP
qn-212-127-141-180.quicknet.nl 212.127.141.180
qn-213-73-184-**.quicknet.nl 213.73.184.**

Moteur de recherche: Gigablast
Robots: Gigabot
• User-agent: Gigabot/1.0
Hôtes (DNS) Adresses IP
gigablast.com 216.243.113.1

Moteur de recherche: Mirago
Robots: HenriLeRobotMirago
• User-agent: HenriLeRobotMirago
Hôtes (DNS) Adresses IP
217.205.60.225 217.205.60.225

Moteur de recherche: picsearch
Robots: Psbot
• User-agent: psbot/0.1 (+http://www.picsearch.com/bot.html)
Hôtes (DNS) Adresses IP
sp5.picsearch.com 62.119.21.157

Moteur de recherche: Szukacz
Robots: Szukacz robot
• User-agent: Szukacz/1.5 (robot; www.szukacz.pl/jakdzialarobot.html; info@szukacz.pl)
Hôtes (DNS) Adresses IP
robot.szukacz.pl 193.218.115.6

Moteur de recherche: Openfind
Robots: Openbot
• User-agent: Openfind data gatherer, Openbot/3.0+(robot- response@openfind.com.tw;+http://www.openfind.com.tw/robot.html)
Hôtes (DNS) Adresses IP
robot2.openfind.com.tw 210.59.144.149
66.237.60.22 66.237.60.22

Moteur de recherche: Naver
Robots: dloader
• User-agent: dloader(NaverRobot)/1.0
Hôtes (DNS) Adresses IP
218.145.25.*** 218.145.25.***
(Les * représentent les caractères variables des hôtes et adresse IP)

Dossier cloaking...

Vos réactions à cet article :::

le 10/12/2003 à 02:15De:
Terrible ce script de traitement de logs !
C'est possible de nous montrer les expregs pour ce script ou encore mieux le source qui traite directement les logs ?
Félicitations pour le site, joli, contenu intéressant et tonalité rédactionnelle sympa ! Je reviendrais ;-)
le 09/02/2004 à 16:55De: [Site web]
Idem. J'ai beaucoup apprécié la lecture de cet article fort intéressant et instructif.
Il reste que vous tenez deux discours :
- « faites gaffe, vous pourriez être black listé »
et
- « la plupart des gros sites le font »
On fait comme les gros sites et on se fera black lister ? Ou alors cette pratique (le "black listage") est-elle de moins en moins utilisée ? Black listent-ils uniquement les sites qui cloakent leur site avec une page n'ayant aucun rapport avec le contenu réel de leur site ou est-ce coup sur coup ? Je crois qu'avant d'aller plus en profondeur dans cette allée, il serait bon de répondre à de telles interrogations.
le 18/05/2004 à 20:03De:
65.54.164.132 msnbot64132.search.msn.com
le 20/05/2004 à 15:57De:
contenu de qualité, interface sympa. beau travail
le 15/06/2004 à 01:20De: [Site web]
Beaucoup de travail que tout celà, dire qu'il va falloir s'y mettre nous aussi petits wm, face aux portails d'hotels ou d'immo ... et de tout ce qui fait des sous et emploie ces méthodes, on ne peut plus grand chose pour placer les petits sites de commerces et petites pme. Pour ma part je considère ça comme du gros squat.
le 22/06/2004 à 19:13De: [Site web]
Pour completer il faut rajouter le media partner de google qui sert à analyser les pages quand elles contiennent des adsenses
Nom : Googlestats - Mediapartner
Nom d'agent : Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)
le 26/06/2004 à 23:31De: [Site web]
le media partner avantage t il les editeur de adsense ???
++
le 18/11/2004 à 17:44De: [Site web]
Attention ! Ces IPs n'ont plus l'air à jour. C'est dangereux pour vos visiteurs de laisser des IP non mises à jour. Ils risquent de se faire bannir de google.
le 24/11/2004 à 17:59De: [Site web]
Dommage, je viens de rentrer toute la liste :/
y a t-il quelqu'un qui auraient les IP à jour ?
/clap pour le site...
le 10/12/2004 à 05:35De:
Tout d'abord félicitations pour cet article et le site en général.
sans vouloir entrer dans le débat du bien fondé de cet article, faut-il l'utiliser ou ou pas... la technique est interressante et permetrai de calmer les robots mal intentionnés... je m'explique, il sufirait de retourner le probleme :
- montrer le vrai site aux gens normaux (on est d'accord, sinon pas la peine d'en faire un)
- montrer une site "gonflé" pour les moteurs de recherches et esperer monter dans le classement en prenant des risques (pourquoi pas, chacun est libre de faire ce qu'il veut, à près tout)
- mais surtout : faire bouffer des pages blanches ou des milliards de fausses adresses mails à des robots qui scrutent les adresses mail pour alimenter l'industrie du SPAM, ça devrait etre OBLIGATOIRE... suffit de mettre des pieges à robots bourrins à la con alimentant une mega database pour les lister (blacklister) un à un...
bref vive l'utopie, je m'en vais me bricoler un truc moi tout seul dans mon coin :-(
bonne continuation à tous.
le 11/12/2004 à 04:43De: [Site web]
Oui, très sympa cet article sur le cloaking..
Le principal problème de cette technique étant la dénonciation.
Meme si vous utiliser le cloaking sur l'IP, n'importe qui peut découvrir la supercherie en regardant dans le cache du moteur de recherche (principalement Google).
Le contenu du cache sera forcément différent de ce que vous présenterez aux visiteurs... Donc attention à ne pas trop abuser de cette technique... ;)
le 14/12/2004 à 16:56De: [Site web]
Je viens de découvrir votre site et je dois dire que la qualité des informations que vous fournissez dans vos articles est vraiment trés bien et abordable à tous.
De plus cet article est vraiment complet (même s'il n'est effectivement plus à jour en ce qui concerne les adresses ip des crawlers).
le 27/01/2005 à 15:40De:
Remplacer le fichier robot.txt par un script PHP devrait permettre d'avoir une connaissance dynamique des IPs utilisés par les moteurs de recherche. Non?
le 19/02/2005 à 13:20De: pierre [Site web]
excellent article !
le 26/02/2005 à 22:23De: ez [Site web]
salut à tous et merci aux concepteurs de ce tuto
puisque
1) les User-Agent ne sont pas fiables
2) les adresses IP des robots évoluent
pourquoi ne pas se consituter plutôt une liste de noms d'hôtes à partir de la résolution des IP en temps réel des robots lorsqu'ils crawlent votre site ?
écrire une liste d'expressions régulières à partir de ces noms d'hôtes est à priori plus facile à faire que maintenir une liste d'IP changeantes
par exemple :
Google crawl-d{1,3}-d{1,3}-d{1,3}-d{1,3}.googlebot.com
MSN msnbot.msn.com
Yahoo [a-z0-9]+.inktomisearch.com
...
etc...
qu'en pensez-vous ?
qu'en pensez-vous ?
le 17/03/2005 à 19:02De: Rav [Site web]
Bonjour,
Je me demande tout de même si tôt ou tard les moteurs de recherches ne vont pas se coupler avec des machines ayant un User-Agent classique et une IP indépendante de la plage habituelle. Ainsi il serait facile pour les moteurs de détecter tranquillement les auteurs de cloaking. Il suffirait alors après deux ou trois accès à des pages du site de les comparer avec la version en cache du moteur. Dans le cas ou plus de 50% du contenu est différent cela peut sans problème s'apparenter à du cloaking.
le 19/03/2005 à 12:01De: Fred [Site web]
Le fait de mettre des wildcards couvre un nombre de hosts suffisament grand pour pouvoir se protéger. Rien que pour google, le 66.249.*.* couvre plus de 65000 hosts. Je veux bien que ça change de temps en temps, mais il y a moyen de se consituer une liste à jour pendant un bon bout de temps de cette manière.
Le problème serait que google utilise d'autres machines qui ne soient pas dans leur subnet et certainement avec des nom d'hôte qui passeraient inaperçus... et là on est tous grillés !
le 19/03/2005 à 20:22De: webmaster@verticrawl.com [Site web]
Bonjour,
Verticrawl est un moteur de recherche dédié à l'entreprise (Veille, intelligence economique, Intranet, et aussi mode hébergé [site corporate par exemple]...mais ce n'est pas le propos.
En tant que moteur de recherche nous possédons aussi un User Agent dédié [verticrawlBot]. Nous avons depuis longtemps identifié le probleme du cloacking et l'envie classique de monter le ranking d'un site chez nos confrères moteurs généralistes.
1/ le cloacking est interdit : Et donc attendez vous à un déréférencement -brutal- ? c'est très facile de reconnaitre un site "cloacké" -> et vos concurrents ne vont pas se géner pour vous signaler au moteur.
2/ la course au ranking induit la course à l'algorithme chez les moteurs...et donc au référencement payant [et sans cloacking].
3/ les moteurs généralistes s'interessent très largement au solution "OFF crawler" (c'est à dire hébergées par l'internaute (genre peer to peer - cherchez "grub-client" dans votre moteur préféré). Conséquences :
- société de référencement ?
- fini le cloacking IP !
4/ clocking IP : la mauvaise méthode parce q'un simple proxy anonymous peut faire l'affaire (y compris avec une BP en terabits).
DONC :
-Duper les moteurs aboutira (un jour ou l'autre) à une sanction
-les enjeux économiques sont tels que risquer le déréferencement devient la roulette russe ...
- la sanction ne viendra pas des moteurs mais du site N°2 (après vous) dans le ranking du moteur de recherche...parce que le N°2 est peut être honnete !
EN CLAIR 1 : la pertinence de votre contenu primera toujours sur le volume de visite.
EN CLAIR 2 : Il vaut toujours mieux avoir 500 visiteurs avec 10 pages vues que 50000 visiteurs qui visitent 1 page de votre site...parce que ni les agences de com ni les internautes ne reviendront [cqfd].
EN CLAIR 3 : N'oubliez pas que si vous pensez duper le monde mondial...1 seul l'a fait jusqu'à maintenant...il s'appelle Bill G ! Méditons ?
Penser duper la communauté informatique est un reve nombriliste...
Jean-François Lhuisset
Fondateur de FraGGo.com
Fondateur de Verticrawl [search Engine] www.verticrawl.com
Consultant E-Commerce
le 03/05/2005 à 11:44De: mateo [Site web]
Très pertinant l'article. Seulement le risque de la dénonciation est trop élevé.
j'opte plutôt pour des pages statiques pertinantes avec un bon contenu, liées entre elles, puis avec une entrée (lien profond) dans le site dynamique. Comme ça, sans se faire ni dénoncer, ni backlister on peut proposer à l'internaute une page qui correspond à sa requête à 110% et le diriger naturellement vers l'info ou le produit qu'il cherche. Une mini toile dans la grosse. C'est naturel et ça ne risque rien. Pas de code pas de php obligatoire, juste du bon sens et du temps investi.
a++

Ajoutez un commentaire en direct :::

Il est temporairement impossible de poster un commentaire: nos modos sont en vacances. A bientôt;)

[Envoyer cette page à un ami | Créer un lien vers cette page | Ajouter cette page à vos favoris]
36.809.318 pages vues - Déjà 3.747 aujourd'hui - 20 visiteurs connectés
100 dossiers en ligne - Copyleft © 2003-2008 ActuLab :::