Wikio et ses petites bidouilles

Nuage Wikio et ses petites bidouilles

Pas d’inquiétudes, je ne vais pas faire ici un article sur le bien fondé ou non du classement Wikio, je n’en ai à peu près rien à faire, je laisse ça aux gens que ça concerne.

Je vais m’intéresser à tout autre chose, des petites choses étranges qui me laissent assez dubitatif quand à leur utilité et finalité.

Ces petites choses concernent les flux rss de wikio, ou plutôt la page de redirection utilisée par les liens sortants dans ces flux.

Pour la petite histoire, je suis en train d’essayer de centraliser un certain nombre d’outils sur mon blog, pour commencer, nous avons travaillé avec julien sur un analyseur d’entête HTTP (oui en php5 il y a une fonction qui fait ça toute seule comme une grande, mais PHP5 et OVH…), au passage il est actuellement en travaux..

Comme je voulais tester la capacité du script à suivre et analyser des redirections, j’ai utilisé des liens tirés des flux Wikio que je savais par défaut être des redirections 301.

Et là, surprise, notre script ne suit pas la redirection, il nous indique juste l’entête http de la page de redirection chez Wikio (http://www.wikio.fr/info?id=l’id de l’article) ce qui veut dire qu’il ne s’agit pas d’une redirection « serveur » (on va utiliser ce terme à défaut d’autre chose).

Désactivation du javascript, des meta redirects (merci web developer toolbar), quand nous ouvrons le lien en direct dans le navigateur, nous avons bien la page qui s’affiche, par contre quand nous cliquons sur le lien à partir du flux rss, une redirection s’opère et comme il n’y  pas de scripts onclick dans un flux xml, on va chercher ailleurs.

Pour rappel,  l’analyseur d’entêtes n’a pas détecté de redirections « serveur ».

Allez, on tente autre chose, toujours pas de javascript ni de méta refresh, mais nous désactivons aussi les referers et là, surprise nous arrivons sur la page de redirections en cliquant à le lien dans la page de flux.

Et nous sommes très surpris, on parle bien ici de cloaking sur referer, une technique qui comme le scraping de contenu est plutôt utilisée du côté des chapeaux noirs.

Bref, nous avons enfin accès à la page de redirections et nous pouvons en analyser le contenu.

Code source de la page de redirections de Wikio :

Précision, les liens cibles de cette page change bien sur en fonction de l’article ciblé.

<HTML><HEAD><meta http-equiv="refresh" content="3;url=http://fr.techcrunch.com/2009/06/09/et-voici-donc-le-iphone-3gs/"></HEAD><BODY><SCRIPT>
window.location.href="http://fr.techcrunch.com/2009/06/09/et-voici-donc-le-iphone-3gs/"
</SCRIPT>
Vous allez &ecirc;tre redirig&eacute; sur la page demand&eacute;e. Si tel n'est pas le cas, veuillez cliquer sur <a href="http://fr.techcrunch.com/2009/06/09/et-voici-donc-le-iphone-3gs/">ce lien</a> .
</BODY></HTML>

Deux redirections et un lien en dur, une source on ne peu plus simple.

Intéressons nous aux redirections et à l’ordre dans lequel elles sont insérées dans la page.

La première est une redirection par http refresh, déjà, c’est surprenant, mais ce qui est encore plus surprenant, c’est la valeur de 3 qui indique (en secondes) le temps d’attente avant de lancer la redirection.

Pourquoi surprenant ? Et bien, voyez vous, bien que l’on puisse toujours dire qu’il n’y a pas de certitudes, on considère que pour les redirections par meta refresh, une valeur de 0 (redirection immédiate) correspond à une redirection de type 301 et qu’une valeur supérieure à 0 correspond plutôt à une redirection de type 302.

En clair, la première redirection (hors cloaking sur referer) active sur cette page ressemble plus à une redirection 302 qu’à une redirection permanente.

Bref, passons à la deuxième redirection, une redirection javascript qui par défaut n’est utile que pour le navigateur du visiteur, bien qu’encore une fois il soit supposé que les robots de moteurs de recherche, bien que ne pouvant pas exécuter le javascript semblent capables de suivre une url présente dans un script.

Donc, pour l’instant, sur cette page de redirection sensée donner des redirections de type 301, nous avons détecté :

  • Un cloaking sur referer (pour le referer wikio)
  • Une redirection par meta refresh avec un délai de 3 secondes
  • Une redirection javascript

Nous cherchons toujours la « vraie » redirection 301 qui pourtant est effectivement trouvée si vous utilisez l’analyseur d’entête HTTP de webmaster hub (testez avec l’url suivante http://www.wikio.fr/info?id=109378170).

EDIT : il semble d’après un retour d’infos que l’analyseur du Hub simule un user agent Googlebot (ça a son importance pour la suite de l’histoire).

A ce moment, je suis assez dubitatif de cet ensemble de détails, je n’arrive pas à savoir ce que l’équipe Wikio cherche à réaliser avec tout ça.

Un autre point qui semble étrange, c’est quand on utilise le flux dans un agrégateur, pour le test j’ai utilisé netvibes.

J’ai donc ajouté un flux tiré de wikio à mon netvibes. Au clic par défaut, on est bien redirigé, mais… Car il y a un mais, en effectuant de nouveau le test en désactivant le javascript, les meta refreshs, le referer et en cliquant sur le lien à partir de netvibes, la page de redirection s’ouvre… et redirige vers la page cible de l’article au bout de trois secondes, comme si le meta refresh s’effectuait malgré sa désactivation et ça, ça me laisse encore plus dubitatif.

Et là, je me dis, tient, vérifions comment un robot suit tout ce processus.

Javascript toujours désactivé, meta reflresh et referer aussi, je switche donc le user agent de mon navigateur en me faisant passer par Googlebot et là, presque sans surprise finalement, je suis redirigé vers la page cible de l’article.

Nous avons donc, non seulement un cloaking sur referer mais également un cloaking sur user agent, ça commence à faire beaucoup pour ce qui devrait être une simple redirection de type 301.

Donc, ma question au final :

Sincèrement, vous jouez quel jeu chez Wikio ?

Parce que entre nous, vous commencez sérieusement à trainer un bon paquet de casseroles, entre les redirections 302 de vos débuts, les liens vers les sites sources promis et toujours pas présents dans les flux générés par wikio, le scraping de contenu sans autorisation, le robots.txt de la mort… Vous ne trouvez pas que ça commence à faire un peu beaucoup d’expérimentations borderline ?

J’ai été, jusqu’à ce jour assez bienveillant avec Wikio, regardant le projet que ça pouvait devenir, mais là sincèrement, trop d’interrogations, perte de confiance, je crois qu’il est temps de demander la desindexation de mon blog de wikio et de demander également à ce que l’intégralité de mes contenus disparaissent du site, merci d’avance.

Cordialement,
Aymeric Jacquet

Tags : ,