Wikio et ses petites bidouilles

Nuage Wikio et ses petites bidouilles

Pas d’inquiétudes, je ne vais pas faire ici un article sur le bien fondé ou non du classement Wikio, je n’en ai à peu près rien à faire, je laisse ça aux gens que ça concerne.

Je vais m’intéresser à tout autre chose, des petites choses étranges qui me laissent assez dubitatif quand à leur utilité et finalité.

Ces petites choses concernent les flux rss de wikio, ou plutôt la page de redirection utilisée par les liens sortants dans ces flux.

Pour la petite histoire, je suis en train d’essayer de centraliser un certain nombre d’outils sur mon blog, pour commencer, nous avons travaillé avec julien sur un analyseur d’entête HTTP (oui en php5 il y a une fonction qui fait ça toute seule comme une grande, mais PHP5 et OVH…), au passage il est actuellement en travaux..

Comme je voulais tester la capacité du script à suivre et analyser des redirections, j’ai utilisé des liens tirés des flux Wikio que je savais par défaut être des redirections 301.

Et là, surprise, notre script ne suit pas la redirection, il nous indique juste l’entête http de la page de redirection chez Wikio (http://www.wikio.fr/info?id=l’id de l’article) ce qui veut dire qu’il ne s’agit pas d’une redirection « serveur » (on va utiliser ce terme à défaut d’autre chose).

Désactivation du javascript, des meta redirects (merci web developer toolbar), quand nous ouvrons le lien en direct dans le navigateur, nous avons bien la page qui s’affiche, par contre quand nous cliquons sur le lien à partir du flux rss, une redirection s’opère et comme il n’y  pas de scripts onclick dans un flux xml, on va chercher ailleurs.

Pour rappel,  l’analyseur d’entêtes n’a pas détecté de redirections « serveur ».

Allez, on tente autre chose, toujours pas de javascript ni de méta refresh, mais nous désactivons aussi les referers et là, surprise nous arrivons sur la page de redirections en cliquant à le lien dans la page de flux.

Et nous sommes très surpris, on parle bien ici de cloaking sur referer, une technique qui comme le scraping de contenu est plutôt utilisée du côté des chapeaux noirs.

Bref, nous avons enfin accès à la page de redirections et nous pouvons en analyser le contenu.

Code source de la page de redirections de Wikio :

Précision, les liens cibles de cette page change bien sur en fonction de l’article ciblé.

<HTML><HEAD><meta http-equiv="refresh" content="3;url=http://fr.techcrunch.com/2009/06/09/et-voici-donc-le-iphone-3gs/"></HEAD><BODY><SCRIPT>
window.location.href="http://fr.techcrunch.com/2009/06/09/et-voici-donc-le-iphone-3gs/"
</SCRIPT>
Vous allez &ecirc;tre redirig&eacute; sur la page demand&eacute;e. Si tel n'est pas le cas, veuillez cliquer sur <a href="http://fr.techcrunch.com/2009/06/09/et-voici-donc-le-iphone-3gs/">ce lien</a> .
</BODY></HTML>

Deux redirections et un lien en dur, une source on ne peu plus simple.

Intéressons nous aux redirections et à l’ordre dans lequel elles sont insérées dans la page.

La première est une redirection par http refresh, déjà, c’est surprenant, mais ce qui est encore plus surprenant, c’est la valeur de 3 qui indique (en secondes) le temps d’attente avant de lancer la redirection.

Pourquoi surprenant ? Et bien, voyez vous, bien que l’on puisse toujours dire qu’il n’y a pas de certitudes, on considère que pour les redirections par meta refresh, une valeur de 0 (redirection immédiate) correspond à une redirection de type 301 et qu’une valeur supérieure à 0 correspond plutôt à une redirection de type 302.

En clair, la première redirection (hors cloaking sur referer) active sur cette page ressemble plus à une redirection 302 qu’à une redirection permanente.

Bref, passons à la deuxième redirection, une redirection javascript qui par défaut n’est utile que pour le navigateur du visiteur, bien qu’encore une fois il soit supposé que les robots de moteurs de recherche, bien que ne pouvant pas exécuter le javascript semblent capables de suivre une url présente dans un script.

Donc, pour l’instant, sur cette page de redirection sensée donner des redirections de type 301, nous avons détecté :

  • Un cloaking sur referer (pour le referer wikio)
  • Une redirection par meta refresh avec un délai de 3 secondes
  • Une redirection javascript

Nous cherchons toujours la « vraie » redirection 301 qui pourtant est effectivement trouvée si vous utilisez l’analyseur d’entête HTTP de webmaster hub (testez avec l’url suivante http://www.wikio.fr/info?id=109378170).

EDIT : il semble d’après un retour d’infos que l’analyseur du Hub simule un user agent Googlebot (ça a son importance pour la suite de l’histoire).

A ce moment, je suis assez dubitatif de cet ensemble de détails, je n’arrive pas à savoir ce que l’équipe Wikio cherche à réaliser avec tout ça.

Un autre point qui semble étrange, c’est quand on utilise le flux dans un agrégateur, pour le test j’ai utilisé netvibes.

J’ai donc ajouté un flux tiré de wikio à mon netvibes. Au clic par défaut, on est bien redirigé, mais… Car il y a un mais, en effectuant de nouveau le test en désactivant le javascript, les meta refreshs, le referer et en cliquant sur le lien à partir de netvibes, la page de redirection s’ouvre… et redirige vers la page cible de l’article au bout de trois secondes, comme si le meta refresh s’effectuait malgré sa désactivation et ça, ça me laisse encore plus dubitatif.

Et là, je me dis, tient, vérifions comment un robot suit tout ce processus.

Javascript toujours désactivé, meta reflresh et referer aussi, je switche donc le user agent de mon navigateur en me faisant passer par Googlebot et là, presque sans surprise finalement, je suis redirigé vers la page cible de l’article.

Nous avons donc, non seulement un cloaking sur referer mais également un cloaking sur user agent, ça commence à faire beaucoup pour ce qui devrait être une simple redirection de type 301.

Donc, ma question au final :

Sincèrement, vous jouez quel jeu chez Wikio ?

Parce que entre nous, vous commencez sérieusement à trainer un bon paquet de casseroles, entre les redirections 302 de vos débuts, les liens vers les sites sources promis et toujours pas présents dans les flux générés par wikio, le scraping de contenu sans autorisation, le robots.txt de la mort… Vous ne trouvez pas que ça commence à faire un peu beaucoup d’expérimentations borderline ?

J’ai été, jusqu’à ce jour assez bienveillant avec Wikio, regardant le projet que ça pouvait devenir, mais là sincèrement, trop d’interrogations, perte de confiance, je crois qu’il est temps de demander la desindexation de mon blog de wikio et de demander également à ce que l’intégralité de mes contenus disparaissent du site, merci d’avance.

Flux RSS, le retour

J’avais annoncé au mois de Juin dans l’article Flux tronqués, c’est temporaire que les flux du blog passaient en version tronquée, un simple extrait du contenu des articles était donc affiché dans vos agrégateurs.

J’ai fini mes tests et donc, les flux reviennent dans leur version normale. Enfin, presque…

J’ai fait le choix de ne présenter qu’un résumé pour les articles longs, par contre, les articles courts sont, eux, affichés dans leur totalité, ça me semble un bon compromis et nettement plus agréable pour les lecteurs de pouvoir lire les brèves en entier, sans être obligés de venir lire les deux lignes qui manquent sur le blog.

Par contre, je me réserve le droit de vous faire venir lire les articles plus longs, ici, sur le blog, que voulez-vous, ça flatte mon égo.

Je vous ferai part des observations engendrées par la période de test dans un futur article, dés que je trouve le temps, qui est une denrée rare en ce moment.

Résultats du sondage sur les lecteurs de Flux RSS

Plusieurs choses intéressantes :

Si on compare ces résultats avec ce qui est proposé dans le Dashboard feedburner des blogs francophones proposé par Cedric de Chouingmedia on trouve de grandes disparités de résultats par rapport à ce sondage. Netvibes semble prendre beaucoup plus de parts de marché que Google reader (et autres produits google), seulement…

J’ai effectué une première comparaison avec mes statistiques de fréquentation du 29 juillet (date de lancement du sondage) au premier août, ça donne a peu près ceci :

  1. (direct) / (none) – visites : 149 – pourcentage de nouvelles visites : 67,11 %
  2. netvibes.com / referral – visites : 76 – pourcentage de nouvelles visites : 31,58 %
  3. google.com / referral – visites : 41 – pourcentage de nouvelles visites :51,22 %
  4. google.fr / referral – visites : 34 – pourcentage de nouvelles visites : 58,82 %
  5. bloglines.com – visites : 2 – pourcentage de nouvelles visites : 50,00 %

L’intérêt d’avoir un flux tronqué pour mes tests, les vrais lecteurs sont obligés de venir sur le site pour lire l’article. ;)

Bon, je n’ai pas réussi à obtenir les VUs, je vais donc faire avec les visites. Je vais donc maintenant faire une petite gymnastique mathématique simple : nous n’allons garder que les visiteurs « récurrents », c’est à dire ce qui n’est pas une nouvelle visite.

On va regrouper google.com et .fr , referal précise qu’il ne s’agit pas du moteur mais d’un de leurs services, par défaut en gardant uniquement les visites « récurrentes » on est à peu près sur que l’on parle en quasi totalité d’abonnés étant donné que les nouvelles visites viennent probablement de flux de sites ayant cité un article de l’Ajblog..

Idem pour le (direct) / (none) qui, bon an, mal an, devrait correspondre à toute source de visite non traçable par Google analytics : outil en local, navigateur, client mail et on va dire par défaut les « autres ».

Ce qui nous donne les chiffres suivants :

  1. netvibes.com / referral 38 %
  2. (direct) / (none) 36%
  3. google referal tout confondu 25%
  4. bloglines.com 1 %

Sachant que c’est du très, mais alors très approximatif.

On regroupe les statistiques données par le sondage un peu de la même façon. Pour des raisons totalement arbitraires et pour me faciliter la vie, on va placer les 3% de « autre agrégateur en ligne » du sondage dans la catégorie « outils divers ».

  1. Netvibes : 36%
  2. Google reader : 35%
  3. Outils divers : 23%
  4. Bloglines : 3%
  5. Un autre agrégateur en ligne : 3%

Il y a quand même un gros écart entre mes statistiques de fréquentation et les résultats du sondage.

Sachant que certains votants sont venus d’autres sites, on va lisser ces résultats en effectuant une moyenne entre les résultats du sondage et mes statistiques de fréquentation.

Ce qui nous donne au final, les statistiques lissées suivantes :

  1. Netvibes : 37%
  2. Outils divers : 31%
  3. Outils Google : 30%
  4. Bloglines : 2%

Oui, je sais, j’aime bien les gymnastiques des chiffres un peu tirées par les cheveux, mais je ne serais pas étonné que ce résultat final soit assez proche de la réalité des parts de marché des différents lecteurs de flux rss. A vous de voir.

Mais à quoi ça peut bien servir tout ça ?

Comme tout sondage de ce type, à ce faire une idée des parts de marché de tel ou tel outil.

Pour ma part, je voulais essayer de voir si il était possible d’avoir une idée approximative de son nombre d’abonnés réels au flux RSS en comparant les chiffres fournis par Google Webmaster Tools et les parts de marché des différents outils.

Il y a en effet un outil donnant le nombre d’abonnés à votre flux rss par les utilisateurs des services Google dans les GWT, ce qui permet de faire un petit calcul rapide :

Actuellement d’après GWT, j’ai 119 abonnés à mon flux RSS via des services Google.

Si on compte que les services Google représentent à peu près 30% de part de marché, il suffit de multiplier le nombre d’abonnés, soit 119, par 3,33 ce qui donnerait pour l’Ajblog un total d’abonnés d’à peu près 396.

Sachant qu’à l’époque ou j’ai arrêté d’utiliser Feedburner, il me comptait entre 480 et 500 abonnés, je ne serai pas surpris que ce total de 396 soit assez près de la réalité.

Merci à celles et ceux qui ont relayé ce sondage dans leurs blogs :

Si je vous ai oublié, n’hésitez pas à vous manifester dans les commentaires.

Sur ce, je retourne travailler.

Sondage sur vos lecteurs de flux RSS

Petit sondage que je voulais lancer depuis quelques temps sur les outils d’agrégation de flux RSS, c’est comme toujours pour continuer mes petites expériences.

Pour l’outil, je suis allé au plus simple, le plugin Poll de Dotclear qui répond parfaitement à mes besoins, et me permet de me passer d’un service externe comme d’habitude.

Donc, si vous avez 30 secondes pour répondre à un petit sondage, venez sur le blog, le formulaire de sondage se trouve dans la sidebar, merci d’avance.

Titre du sondage : Quel outil utilisez vous pour suivre les flux RSS ?

PS : pour optimiser les résultats de ce sondage, n’hésitez pas à relayer l’information et à préciser quel est l’outil utilisé si celui-ci entre dans un « groupe ».

Plugin WordPress du jour : Advanced Category Excluder

Et que fait ce plugin ? Il vous permet de retirer une ou des rubriques de différentes boucles utilisées dans votre template, sans avoir à toucher au code :

  • Pour la homepage
  • Pour le flux RSS principal
  • Pour le flux RSS de commentaires
  • Pour les pages d’archives (pas précisé mais je pense que c’est pour les archives « temporelles » )
  • Pour les résultats de recherche

Chose intéressante, même si vous avez exclu une catégorie de votre flux RSS général, la catégorie, elle, diffuse encore son flux RSS propre. Il vous suffit pour ça de proposer le flux de la rubrique sou l’url suivante : http://www.nomdublog.com/category/nomdelacategorie/feed (si vous n’avez pas changé le category par défaut).

Bien manipulé, ce plugin peut vous permettre, par exemple, de traiter de différentes thématiques sur un même blog et de le scinder, en quelque sorte, en plusieurs blogs si vous le désirez.

Un exemple étant plus parlant, prenons le cas de Delphine Dumont qui a deux blogs principaux : Le blog du monde qui avance et Ultra vite.

Je pense que si Delphine a créé un deuxième blog, c’était pour ne pas parasiter le flux et la structure du premier blog avec le rythme de publication sous forme de micro billets de son deuxième blog.

Là je sais qu’elle va basculer le premier blog (sous Dotclear) en WordPress.

En utilisant ce plugin, elle pourrait tout à fait regrouper ces deux blogs en un seul en diffusant par défaut le flux équivalent à celui Du Blog du monde qui avance et en faisant de Ultra Vite un « sous blog » dont les billets ne sont pas présents, ni sur la homepage, ni dans le flux général, mais dans leur page de rubrique et dans le flux rss de la rubrique.

Gain de temps, gain de maintenance, confort égal pour l’utilisateur, pas besoin de passer par un WordPress MU pour gérer les « deux » blogs.

En travaillant bien le template, on peut même avoir un habillage différent du blog de base pour la rubrique « Ultra Vite ».

Ah oui, le plugin se trouve dans le codex WordPress : Advanced Category Excluder

Feedburner : une raison de plus de ne pas l’utiliser

Je continue ma campagne pour vous débarrasser des services webdeux dont vous pouvez vous passer avec en tête de liste Feedburner.

Pour rappel : Dans une semaine, je coupe les flux Feedburner

Outre le fait que vous déléguez la diffusion de vos contenus à un service tierce, ce qui déjà en soit est une aberration car vous n’avez aucun moyen de contrôler qui ou quoi l’utilise mais en plus, si vous utilisez les outils de statistiques avancés, Feedburner utilise une redirection 302 pour lier votre contenu, oui vous avez bien lu, une redirection 302, pas une 301 ou quelque chose de propre, une bonne vieille saleté de redirection 302 qui indique aux moteurs de recherche que votre contenu a pour origine… Feedburner (en gros, hein, je ne vais pas rentrer dans les détails).

En pratique, ça donne quoi ? Et bien, sur tous les sites ou vous avez déposé (ou qui le font sans votre accord) vos flux pour qu’ils diffusent vos articles, le lien renvoie vers Feedburner qui grâce à cette redirection 302 indique aux moteurs de recherche que votre article sous son adresse réelle (chez vous) n’y est que temporairement et que la source d’origine à favoriser, c’est l’adresse du flux Feedburner.

Feedburner, définitivement un parasite du web et en plus maintenant, Feedburner = Google vu que Google a acheté la société.

Comparatif des lecteurs RSS en ligne

J’ai décidé il y a quelques jours de délaisser Netvibes, et de chercher un lecteur de flux RSS me permettant de suivre un plus grand nombre de flux…

Je me suis donc mis en chasse, avec l’idée d’écrire un article présentant différents logiciels. Il doit bien y avoir des dizaines d’applications en ligne pour la lecture des flux RSS, me disais-je…

Après des heures de recherches et de test, j’ai déchanté. C’est simple: le secteur est sinistré. Les solutions correctes se comptent sur les doigts de la main! C’est pourquoi je ne vous en présente que trois: Bloglines, Google Reader et Rojo. Et au risque de tuer le suspense, je peux déjà vous affirmer qu’aucune n’est à la hauteur de mes attentes…

Florent Verschelde (Covert Prestige) : Comparatif lecteurs RSS en ligne: Bloglines, Google Reader et Rojo

Une analyse assez complète des différents services de lecture de flux en ligne effectuée par Florent il y a quelques semaines, je vous préviens, c’est long, il y a passé du temps le bougre.

Pour ma part, je n’ai été réellement convaincu par aucun, donc je reste actuellement sur Netvibes, par défaut.

J’ai bien été regarder du côté de Gregarius, un agrégateur de flux de syndication en ligne en php à installer sur votre serveur, mais son ergonomie hasardeuse ainsi que le fait que son développement semble stoppé ont un peu refroidi mes ardeurs. Pourtant le produit semblait intéressant.

Si vous connaissez et utilisez un script semblable, n’hésitez pas à le faire savoir, j’ai vraiment envie de tout rapatrier sur mes serveurs.

Flux tronqués, c’est temporaire

Comme Julien A qui en parle dans un commentaire, vous avez sûrement remarqué que depuis une semaine, je ne diffuse plus qu’un flux d’informations tronqué.

Pas d’inquiétudes, c’est temporaire, la mise en place des flux tronqués s’est faite pour répondre à plusieurs projets que j’ai en tête en ce moment, dont un test sur l’usage des flux.

A l’avenir, plusieurs choses risquent de se mettre en place :

  • Les flux par défaut restent tronqués mais un flux complet peut-être proposé aux lecteurs sur simple demande (ça c’est pour lutter contre le vol de contenu).
  • Les flux resteront tronqués pour les longs articles mais complets pour les « brêves ». Tout dépendra des résultats de mon test.
  • Tout reviendra à la normale, encore une fois ça dépendra de mon test.

Voila, en espérant que ces flux tronqués temporaires ne vous gênent pas trop.

Et si je ne devais en garder que 5…

5 quoi déjà ? Ahh oui, 5 flux dans mon agrégateur RSS. Traduction française : si je ne devais continuer à lire que 5 blogs, lesquels choisirais-je ?

Bon vous avez compris, c’est une nouvelle chaine comme la blogosphère les aime ou les déteste et là j’ai été mis à contribution par leGizz.

Et bien, la surprise, c’est qu’il n’y a rien de technologique dans la liste :

5 Blogs humains, tout simplement.

Tiens ça me fait penser que Otir est oubliée dans ma blogoliste que j’aime lire, erreur que je vais réparer de ce pas.

Donc, comme la règle est de refiler la patate chaude, alors au choix et totalement au hasard :

  • kozlika, je suis sur qu’elle va me détester.
  • Padawan, si j’arrive à lui faire faire c’est qu’il n’est pas si occupé qu’il veut bien le faire croire.
  • Sébastien Billard, je lui devais une chaine alakon.
  • Otir, parce qu’elle s’ennuie dans son Amérique profonde.
  • Cath, parce que j’ai déjà peur de ce qu’elle va en faire.
  • Monsieur KA : parce que je l’ai oublié alors je répare mon oubli.