Cloaking décloaké
[ 26/03/05 - Référencement - 37 commentaires]
Le 4 décembre 2004, nous lancions le cloaking cracking challenge,
un défi consistant à décloaker une page d'ActuLab, c'est à dire à découvrir un texte exclusivement réservé à GoogleBot,
le robot de Google. Plus d'informations sur la page du défi...
Après 106 jours, notre cloaking a été cracké par -aK-, le webmaster de
Affaires Criminelles,
JFK assassinat,
et 11 septembre
(voir l'annonce de sa victoire sur
Webmaster Hub...).
Le cloaking étant fait sur l'adresse IP, la technique consistant à y accèder en se faisant passer pour GoogleBot
était pratiquement impossible à mettre en oeuvre, puisqu'elle aurait nécessité d'emprunter l'adresse IP du robot
de Google. Alors -aK- a utilisé sa connaissance de Google (et son cerveau) pour mettre en oeuvre une méthode indirecte...
et il a réussi. Il nous explique ici comment il a procédé. Félicitations, c'est remarquable!
Le texte cloaké, présenté à GoogleBot quand il visite la page:
Bravo! Vous avez cracké notre cloaking. Vous visualisez la version de cette page normalement réservée à GoogleBot.
Vous avez donc gagné le défi "cloaking" lancé par ActuLab. Contactez-nous, nous serons heureux de faire votre
connaissance ;)
L'explication de -aK-
« Je n'ai jamais essayé de changer mon IP, ni mon User Agent... C'est l'avantage de prendre un concours en marche avec 106 jours de retard: j'étais encore frais, et je n'ai pas perdu mon courage à tester des techniques qui n'ont rien donné pour tous ceux qui avaient essayé avant.
J'ai lu rapidement les nombreux commentaires qui accompagnaient le défi, et j'ai vite compris qu'une solution
"technique" m'était inenvisageable (j'ai de bonnes bases, mais je ne suis pas un hacker et apparemment il n'est même
pas certain qu'il y ait moyen de se faire passer pour Google de manière à afficher le texte cloaké). Par contre,
le commentaire de lafleur posté le 8 décembre m'a fait penser à un de mes livres préférés: "Histoire des codes secrets"
de Simon Singh. Dans ce livre passionnant, l'auteur explique notamment comme les codes prétendument inviolables générés
par Enigma ont pu être crackés régulièrement par les Britanniques de Bletchley grâce à des "messages prévisibles"
comme "wetter" (chaque jour peu après 6 heures les Allemands envoyaient un bulletin météo qui comportait quasiment
toujours ce mot, crypté de manière différente). Dans ce même livre, Simon Singh explique aussi l'importance pour
décoder un message de s'attacher à la fréquence de mots ou de lettres, et enfin aux petites habitudes linguistiques
de son auteur.
J'ai donc décidé de m'attaquer à la "faille humaine", comme l'avait proposé kimberlyclarko. Google permet en effet de
savoir si un mot-clef est présent dans une page, même si cette page a demandé à ne pas apparaître en cache.
Il me restait à décider si j'allais automatiser mes recherches en codant un script pour accélérer le processus et
tenter de cracker la page de façon barbare, ou me fier avant tout à mon intuition. J'ai choisi la deuxième option,
réservant la première au cas où je n'arriverais plus à avancer.
La requête à utiliser pour savoir si un mot était présent était connue (inurl:cracking-challenge.php "mot-clef")
et lafleur avait prouvé son efficacité en découvrant la présence des mots "bravo", "vous", "avez", "gagné" et "défi".
Mais jusqu'ici, tout le monde semblait considérer que le travail de recherche était beaucoup trop grand...
le livre de Singh m'avait prouvé que non, et j'ai donc commencé par chercher des mots "probables".
A mon grand étonnement, "Google" n'était pas présent... mais j'ai vite repéré "Googlebot", avant de passer en revue
les mots qui me paraissaient les plus fréquents en langue française: "et", "vous", "pour", etc (en n'oubliant pas
d'ajouter un "+" devant les termes ignorés par Google, comme "le" ou "la"). Constatant l'efficacité de la méthode,
j'ai cherché la liste des mots les plus fréquents de la langue française, que j'ai trouvée ici:
http://www.educalire.net/LectFrequence.htm,
et j'ai systématiquement vérifié la présence des 100 mots les plus fréquents (il y en avait effectivement 5 ou 6
que je n'avais pas encore trouvé).
Muni d'une liste de mots présents sur la page (comme "vous", "par", "à", "de", "votre", "faire"), j'ai essayé de
trouver des mots avec lesquels les assembler. Tout comme en français la lettre "q" est presque toujours suivie
d'un "u", il m'a semblé logique d'essayer d'accoler "êtes" et "avez" au pronom "vous". La deuxième association
s'est avérée exacte (inurl:cracking-challenge.php "vous avez"), et je me suis rapidement dit que le mot suivant
était peut-être "gagné". Le mot était bien présent sur la page, mais pas directement après "vous avez"...
J'ai constaté avec plaisir qu'en insérant la conjonction "donc", la requête fonctionnait.
De cette manière, j'ai pu constituer plusieurs groupes de 4 ou 5 mots, mais pas encore assez pour pouvoir
reconstituer le puzzle. Je me suis donc attaché à lire attentivement le texte écrit par Jan à propos du défi,
ainsi que le message destiné à ceux qui tentaient un maquillage du User Agent. C'est ainsi que j'ai pu identifier
des mots communs, comme "visualisez" et "version", que j'aurais eu beaucoup de peine à trouver autrement.
Autre problème, celui de savoir si le terme "Actulab" était présent dans la page... puisque le mot est présent
dans l'url, il m'a fallu penser à le faire précéder du mot "par" pour être assuré de sa pésence dans le corps du texte.
J'ai fini par obtenir les morceaux suivants:
"Bravo! Vous avez cracké notre cloaking"
"réservée à Googlebot"
"vous avez donc gagné le défi"
"vous visualisez la version de cette page"
"nous serons heureux de faire votre connaissance"
"contactez-nous"
"lancé par Actulab"
J'étais assez désappointé de constater que les extraits "vous avez donc gagné le défi" et "lancé par Actulab" ne
pouvaient pas être accolés. Heureusement, en insérant le terme "cloaking" entre les deux, ma tentative fut fructueuse.
J'ai ainsi pu reconstituer la quasi-totalité du texte (devinant par ailleurs qu'il n'y avait très certainement
aucune autre phrase, puisque de nombreux mots fréquents étaient totalement absents de la page, comme "qui", que", etc...)
et suis arrivé au texte suivant:
Bravo! Vous avez cracké notre cloaking.
Vous visualisez la version de cette page [] réservée à Googlebot,
vous avez donc gagné le défi cloaking lancé par Actulab
Contactez-nous, nous serons heureux de faire votre
connaissance
Restait un trou au milieu du texte, qui m'a rapidement paru n'être constitué que d'un seul mot: un adverbe.
J'ai épuisé tous les synonymes de "exclusivement", qui me semblait le plus approprié... sans succès.
J'ai alors essayé de trouver un autre adverbe, qui précédait souvent "réservé". Google n'autorisant pas la troncature,
j'ai fait une recherche "WHERE texte LIKE '%ment réservé%'" via la base mysql de mon plus gros forum.
Ca aurait pu fonctionner, mais les adverbes que j'ai trouvés n'étaient pas les bons. Je me suis alors à nouveau
penché sur le sens que Jan avait voulu donner à sa phrase, et me suis rendu compte que le terme "normalement"
était encore plus logique que "exclusivement". Bingo :-)
Depuis, je coule des jours paisibles dans ma bonne ville de Bruxelles, attendant avec impatience le million de
carambars promis par Jan ;-) »
Vos réactions à cet article :::
le 26/03/2005 à 16:51De:
thick
[Site web]
Ben ça alors ...
Aka, là tu as fait un tour de filou très impressionant.
Tu rentres désormais au Panthéon des webmasters les plus malins du Web.
Très belle démonstration.
Encore bravo
le 26/03/2005 à 19:04De:
-J-
[Site web]
Felicitations pour avoir remporté le challenge!
le 26/03/2005 à 19:17De:
lambda
[Site web]
Je trépignais depuis plusieurs jours en attendant l’explication. Félicitations à nouveau. Je serais curieux de savoir si Jan avait prévu une (autre) manière de "casser" le cloaking.
le 26/03/2005 à 19:41De:
Jan
[Site web]
lambda,
Non, la seule autre solution serait d'emprunter l'adresse IP de GoogleBot. Mais c'est quasiment impossible à ma connaissance.
le 26/03/2005 à 19:45De:
sarc
Salut !
Je ne comprends pas comment tu as pu faire pour trouver certains mots ! Dans la phrase "nous serons heureux de faire votre connaissance", tu as trouvé quel mot en premier ? Et comment faire la transition entre les mots ? Et si tu trouves une phrase, comment a tu fait pour savoir s'il y en avait une autre derrière ?
Bref, ta méthode est ingénieuse, mais j'ai du mal a m'imaginer quelqu'un y croire et le faire à fond...
Toute manière, tu as gagné le défi, c'est le principal ;)
le 26/03/2005 à 20:35De:
j0k3r
[Site web]
Bravo ingénieuse idée que de passer directement par google lui même.
Chapeau :o)
le 26/03/2005 à 21:35De:
Michmuch
[Site web]
Belle démo AK, tu t'es un peu cassé le crane mais le résultat est là :)
le 26/03/2005 à 23:03De:
aK
[Site web]
Merci à tous ceux qui m'ont félicité, ici ou ailleurs ;-) Je crois que le plus difficile était de se convaincre qu'il y avait moyen d'y arriver.
Sarc: Pour la phrase en question, j'ai essayé de me mettre à la place de Jan. J'étais sûr qu'il ne résisterait pas à l'envie de mettre une formule de politesse, j'ai donc rapidement trouvé le mot "heureux"... Je ne connais Jan que via Internet, mais j'ai l'impression que c'est quelqu'un qui cherche longtemps le mot qui exprime le mieux sa pensée, et qui essaye d'écrire de manière structurée. Pour deviner ce qu'il avait écrit, ça aide. En plus, je suis comme ça aussi ;-)
A tous ceux qui se sont intéressés à ce défi: je vous conseille le livre de Simon Singh "Le dernier théorème de Fermat" (en plus de "L'Histoire des codes secrets", déjà cité). Pour une dizaine d'euros au total, vous aurez des heures de lecture que je vous promets passionnantes.
le 27/03/2005 à 16:56De:
julien
[Site web]
Félicitations... Très joli!
Pour information, si quelque'un met en place un cloaking d'IP pour Google, je pense que connaître le contenu du claoking est quasi impossible, sauf dans le cas ou on "connait" dejà plus ou moins le contenu à l'avance... Si Jan avait mis des mots sans queue ni tête dans son message, sans aucun rapport sémantique, comment aK aurait-il pu trouver?
D'ailleur, aK, une fois ta phrase retrouvée, comment savais-tu que c'étais la seule? Qu'il n'y avait pas d'article à propos de l'elevage des papillons en Nouvelle Zélande? ou tout simplement une suite à la phrase que tu as trouvée?
le 27/03/2005 à 17:15De:
Rav
[Site web]
Une méthode ingénieuse et pour le moins innattendue de tous.
Sincères félicitations pour celle belle performance.
le 27/03/2005 à 21:33De:
hum !
Bonjour à tous.
Comme vous je félicite aK pour son exploit. Mais là où je suis plus mitigé, c'est que la technique décrite par aK est celle qui est expliquée point pour point dans la newsletter payante R&R du site abondance.com (olivier andrieux) du mois de mars 2005. Cette newsletter est disponible depuis le 15 mars 2005 soit avant la réussite de aK. Alors petit géni ou copieur ? De toute façon le doute ne pourra jamais être levé, alors je tranche pour les félicitations !
le 27/03/2005 à 22:30De:
Jan
[Site web]
hum !
Je ne savais pas que OA s'intéressait au cloaking :)) Si tu as une copie de la newsletter d'abondance, fais tourner;)
le 27/03/2005 à 23:49De:
aK
[Site web]
Ah mais LOL ! Merci au courageux anonyme de rester poli... un peu facile d'écrire "le doute ne pourra jamais être levé". Je ne suis pas abonné à cette newsletter et je n'ai jamais eu connaissance de son contenu. Point. D'ailleurs, permets-moi de douter qu'elle contienne "la technique expliquée point par point"... J'ai découvert le concours dimanche dernier dans l'après-midi (ça faisait longtemps que je n'étais plus venu sur Actulab), et après environ 2 heures de recherches, j'ai pu reconstituer le texte.
Je n'ai évidemment rien inventé du tout en utilisant les possibilités offertes par les requêtes de Google et les techniques décrites par Simon Singh. Mais si je dois partager les "honneurs" de ma découverte avec quelqu'un, je le fais volontiers avec Lafleur, qui m'a mis sur la piste comme je l'ai indiqué dans l'article ci-dessus. Si je me suis fendu d'une explication aussi détaillée sur le raisonnement qui m'a permis de trouver la solution, permets-moi de te dire que je n'aurais pas omis de préciser une éventuelle autre source d'inspiration s'il y en avait eu une.
le 28/03/2005 à 00:04De:
aK
[Site web]
Réponse à la question de julien: "comment savais-tu qu'il n'y avait pas d'autre phrase ?":
Dans le texte trouvé, il y avait quatre phrases. Je me suis bien entendu demandé si ce que j'avais trouvé était complet... mais la logique voulait que j'aie tout trouvé. En effet, comme je l'ai expliqué, j'ai d'abord trouvé des morceaux du puzzle (des groupes de quelques mots) avant de réussir à les assembler. Si tu trouves 12 pièces de puzzle au hasard sous un meuble et que tu arrives à les assembler parfaitement sans un seul trou (je pouvais vérifier les "jointures" et je l'ai fait), il est hautement improbable que le puzzle soit composé de plus de pièces que les 12 que tu as trouvées. J'avais en outre vérifié qu'il n'y avait pas d'autre mot parmi les plus fréquents en langue française et les plus probables sur une page d'Actulab "classique".
J'étais donc plutôt confiant au moment d'envoyer mon e-mail à Jan. Même si je lui ai écrit ceci en fin de mail: "Si par mégarde j'avais oublié l'un ou l'autre mot, je te saurais gré de me le dire... et de fermer les yeux trois minutes afin que je peaufine le boulot." Ben oui, toujours ce foutu léger doute ;-)
le 28/03/2005 à 00:08De:
Kimberlyclarko
Bravo aK ! Tu as fait preuve de perspicacité, et d'un bon esprit de déduction. Est-ce que je peut faire appel à tes services la prochaine fois que j'oublie mon mot de passe ? :P
le 29/03/2005 à 01:36De:
Eclipsis
[Site web]
Félicitations!
Comme le dit Julien, heureusement que le contenu était cohérent et que Jan parle bien français ;). Je suppose que pour la prochaine édition du challenge cloacking, si ça arrive un jour, il n'y aura aucune chance de trouver la phrase par cette méthode... Jan écrira sûrement une phrase avec des mots improbables, étrangers ou n'existant pas... Ou alors, la phrase sera sur une image ou un truc du style. Là, ça mettra(it) plus de 106 jours...
En tout cas, chapeau bas à Ak! :)
le 31/03/2005 à 13:29De:
doc
Bravo Ak, respect !
qd à toi hum, je suis abonné à la newsletter d'oa (et je suis pas pres de recommencé vu le vaste foutage de gueule de cette soit disant lettre d'information) et il n'est nul par fait mention de la technique de Ak
Rendons à Cesar ce qui appartient à Cesar
grats Ak :)
le 31/03/2005 à 13:52De:
Jan
[Site web]
Oui, je n'ai rien vu non plus dans la newsletter d'abondance qui explique la méthode d'aK.
Hum, tu peux nous en dire plus?
le 10/04/2005 à 03:22De:
biffre
[Site web]
En tout cas je suis sûr que Jan a dû être suppris quand Ak l'a contacté et lui a donné la phrase magique!
Bravo Ak mais comme certain l'on dit tu as eu de la chance que la phrase soit bien écrite et qu'elle ne soit pas trop longue mais le principale reste bel et bien que tu es réussi le concours alors félicitation!
le 11/04/2005 à 17:52De:
Le_Phasme
[Site web]
Bravo à toi !
Felicitation ! Je suis très impressionné par ton travail et je te dis franchement un gros bravo !
Bonne continuation pour tes sites ;-)
Guillaume
le 11/04/2005 à 21:41De:
kreol
[Site web]
Félicitation !
quel perseverance. Encore Bravo
le 02/05/2005 à 08:45De:
VGR
[Site web]
comme déjà dit, bravo pour l'opiniâtreté dans la recherche ;-)
il faut aimer les puzzles et avoir deux heures à perdre :D
Belle preuve d'"intelligence pratique" aussi ; moi j'avais abandonné toute recherche de solution techno-technique en unduisant qu'il n'y en avait guère.
re-bravo, avec le caveat suivant : ta technique empirique n'aura marché qu'une fois ;-)
le 03/05/2005 à 16:28De:
Ohax
[Site web]
Bravo à toi AK
Je ne savait pas que tu avait de tels talents ;-)
le 03/05/2005 à 17:49De:
blman
[Site web]
Bravo AK, quel balaise...
Moi non plus je savais pas et je suis surpris de voir autant de membre de WebRankInfo ici...
le 08/05/2005 à 16:25De:
corvisart
[Site web]
Bravo aK, impressionnée aussi par ta petite explication et l’esprit de déduction. Ravie que ce soit toi. Bonne chance pour les sites, et part à la découverte de 11/09, je ne le connais pas.
le 13/05/2005 à 12:27De:
klelugi
[Site web]
Bravo !!!
avec un petit peu de retard, je lis avec emerveillement que ce qui me semblait impossible a été réalisé ^^
Maintenant je vous laisse imaginé une page de cloaking faites dans un but réél de cloaking je ne pense pas que l'on puisse prendre le temps de tester ce genre de méthode et puis encore faudrait-il connaitre le nom des pages cloakée ^^
le 22/05/2005 à 00:41De:
Joffrey
[Site web]
Et bien franchement bravo aK, je suis très impressionné ! ^^
le 26/05/2005 à 23:16De:
MrArthur
[Site web]
Bravo, belle preuve de témérité et de bon sens. Voilà comment attaquer pacifiquement.
le 06/06/2005 à 23:45De:
SeTyR
ChApo ba maestro !
un délice :)
le 19/07/2005 à 23:18De:
fs
[Site web]
Je viens de lire cette article et je suis tres impressionné ! Bravo "MR"
le 08/09/2005 à 11:30De:
xpertiz
[Site web]
A quand une technique de GG pour découvrir le cloaking ? Je trouve ca pas correct de la part de GG qui laisse faire en tablant sur le fait que cela va généré des clics adword / adsense et généré du cash sur le dos des annonceurs...
Perso, utilisant les deux types d'annonces j'ai vu une chute assez importante du retour sur investissement des adwords depuis 1 an. GG en laissant faire scie sa propre branche, à un moment ou un autre ca cassera...
Ajoutez un commentaire en direct :::
Il est temporairement impossible de poster un commentaire: nos modos sont en vacances. A bientôt;)