Wikio scrap le contenu html ?

Qu’est ce qui peut bien se passer dans le petit monde Wikio en ce moment ?

Premièrement, les liens vers les sites sources dans les flux, promis et fournis ont disparu, ce qui est loin d’être une bonne nouvelle.

Edit suite à commentaire : il semble simplement que le processus ne soit pas encore généralisé sur tous les flux.

Deuxièmement, je viens de me rendre compte que Wikio, d’une façon ou d’une autre, fait du scrap de contenu, et je suis très, mais alors très désagréablement surpris.

Preuve en est avec les captures suivantes :

Recherche sur le terme Ajblog dans la partie actualités de Wikio :

Recherche sur le terme Ajblog dans la partie blogs de Wikio :

Si la capture des résultats de la partie blogs correspond bien au contenu des articles, le contenu fourni par la partie actualités, ne peut en aucun cas provenir du flux rss du blog, pour la simple et unique raison, que ce texte (Ce blog utilise une syntaxe wiki dans les commentaires…) est écrit en dur dans la page des posts de mon thème dotclear.

Il n’est récupérable que dans le cas d’une opération de Scrapping de contenu, et là je m’étonne car à ce jour, rien ne m’indique que Wikio utilise cette technique très répandue dans les milieux « borderline ».

Et si vous vous demandez pourquoi cela ne me plait guère, c’est tout simplement, parce que je peux contrôler les informations que mon flux RSS diffuse, par contre je ne peux absolument pas contrôler ce qui est diffusé suite à un scrapping de mon contenu.

Jusqu’à maintenant, je crois avoir été assez bienveillant avec Wikio, mais si ils se mettent au Scrapping, ça va être une autre histoire.

Pour information voici la définition donnée au terme scrapper sur le blog Seo-blackout :

Définition de scraper : Récupérer le contenu d’une page web en vue de réutiliser ce contenu sur son propre site. Le but est d’obtenir du contenu sans efforts, la plupart du temps de façon automatique. Cela permet au scraper de générer des milliers de pages sur des thématiques ciblées. Sur ces pages ainsi générées, le scraper va ajouter des Adsenses ou des liens d’affiliation afin de gagner de l’argent facilement.

Cordialement,
Aymeric Jacquet

Tags : , ,

Be Sociable, Share!

45 Commentaires pour Wikio scrap le contenu html ?

  • Delphine Dumont

    Je vais suivre cette nouvelle affaire Wikio de près.

    En attendant que ça s’arrange, parce que je ne doute pas que ça s’arrangera, je me réjouis quand même que cela provienne d’une entreprise telle que Wikio. Avec d’autres entreprises, on pourrait hurler et s’enchaîner à leurs grilles qu’on ne serait pas entendu.

    Pierre Chappaz, on t’attend. ;)

    Le 16 juin 2008 à 15 h 03 min

  • Bon, en attendant, tu n’a plus qu’à changer ton texte en « Ce blog honteusement pompé par Wikio sans le consentement de son auteur utilise une syntaxe wiki dans les commentaires… » ;)

    C’est dommage, il n’y a pas loin finalement entre la symbiose et la parasitisme :( Enfin Pierre Chappaz va sûrement intervenir promptement.

    Le 16 juin 2008 à 14 h 21 min

  • Seb : Héhé. Clair qu’il y a des expérimentations du côté de Wikio, pas toujours dans le bon sens, pourtant, contrairement à d’autres, que Wikio gagne de l’argent avec notre contenu, ça ne me dérange pas, j’ai fait le choix d’intégrer mon flux à Wikio. Par contre si le scrapping se confirme, comme on dit, c’est la porte ouverte à toutes les fenêtres.

    Le 16 juin 2008 à 14 h 29 min

  • Bonjour Aymeric,

    comme vous vous en doutiez, Wikio vous a bien entendu ;)

    Je vais répondre point par point à vos interrogations et critiques, mais
    je tiens tout d’abord à vous rassurer de suite: non, Wikio n’est pas
    conçu pour voler votre contenu, et nous ne sommes pas de vulgaires
    « scrappers ».
    Maintenant, il y a une série de légers dysfonctionnements, que nous
    allons corriger, ainsi qu’une clarification sur le processus
    d’indexation à vous apporter.

    Tout d’abord, à propos des liens vers les sites sources dans les flux,
    que nous avons mis en fonctionnement suite à vos dernières remarques; ceux-ci sont toujours en fonctionnement !
    Nous avons cependant de multiple flux RSS sur notre site, en fonction
    des services auxquels vous vous adressez. Ainsi, le flux d’une catégorie de discussions sur Wikio Blogs sera différent d’une recherche sur Wikio Vidéo, qui sera différent d’une recherche sur Wikio Actualités.
    Je me doute que du point de vue utilisateur, il faudrait que tous ces
    flux fonctionnent exactement de la même façon. C’est ce que nous sommes en train de mettre en place progressivement : une unification de nos services afin d’apporter le plus de valeur ajoutée possible sur chaque
    requête faites par un utilisateur de Wikio (une sorte de « recherche
    universelle » si vous préférez)
    Cela demande un travail de fond, tant au niveau de la présentation des
    contenus aux utilisateurs, que de l’architecture de nos systèmes
    d’information.
    Pour en revenir au problème des flux : il manque effectivement dans les
    flux de recherche Actualités et Blogs l’habillage et les fonctionnalités qui
    sont sur le reste de Wikio Actualités :
    http://rss.wikio.fr/blogs/rss/a_la_une/search/ajblog
    http://rss.wikio.fr/search/AJBlog.rss
    Ces deux flux ne disposent pas des résumés augmentés, ainsi que des
    liens vers les sources.
    Contrairement à un flux traditionnel :
    http://rss.wikio.fr/high-tech/internet/blogosphere/blogueurs/aymeric_jacquet.rss

    C’est un oubli qui avait été remarqué (et donc… à nouveau ;) qui
    devrait être corrigé rapidement. Nous ne faisons pas marche arrière ;)

    Concernant le reste de votre article, je pense qu’il faut que l’on se
    mette d’accord sur le terme de « scrapper ».
    La frontière entre le scrapping-spam et le service est effectivement
    assez floue, mais vous conviendrez qu’en reprenant la même définition
    que celle citée dans votre article, on peut qualifier tous les moteurs
    de recherche de scrappers.
    La capture du contenu est nécessaire à son indexation par les moteurs,
    et c’est exactement ce que nous faisons.
    Par défaut, Wikio repose sur les flux RSS, mais il arrive que ceux-ci
    soient incomplets, tronqués, mal formatés etc.. Nous avons donc un
    processus complémentaire de capture, effectuant une capture « HTML » des
    articles. C’est ce que vous appelez le « scrapping ».
    Cet agent est déclenché sur certains flux, afin de récupérer l’article
    et parfois de recomposer un résumé inexistant, afin d’offrir à
    l’utilisateur un véritable aperçu du contenu.
    Lorsque Wikio ventile les articles dans ses catégories, cela permet de
    _qualifier_ le contenu indexé, et donc de valoriser ces articles et de
    les présenter aux utilisateurs les plus susceptibles d’être intéressés
    par ce contenu.
    Difficile d’indexer correctement un article et de le trier par
    pertinence si nous ne disposons que du titre et d’une ligne. C’est même
    un critère de pertinence important dans la plupart des algorithmes de
    tri d’actualités: un article ne peut pas être pertinent sur un sujet
    donné s’il n’a qu’une poignée de mots comme contenu.

    Ainsi donc, Wikio indexe autant que possible l’intégralité du contenu,
    afin de calculer au mieu la pertinence des articles

    Par contre, il faut bien comprendre que Wikio ne présente PAS le contenu
    complet des articles.
    C’est une chose que nous avons toujours soutenue, et nous sommes
    d’ailleurs liés contractuellement avec le GESTE (Groupement des Editeurs
    de Services En Ligne) sur ce point (entres autres).
    Les articles sont capturés et indexés dans le seul but de les ventiler
    dans nos catégories et de calculer leur pertinence en fonction des
    recherches des utilisateurs de Wikio.
    Vous remarquerez par exemple que Google indexe la totalité de vos
    articles et en présente également l’intégralité du contenu en cache :
    http://74.125.39.104/search?q=cache:http://www.ajblog.fr/flux-tronques-temporaire&strip=1

    C’est une chose que vous ne pouvez pas faire avec Wikio. Seul le résumé
    sera présenté et diffusé, sauf dans le cas de recherches spécifiques qui
    matchent un contenu full text, alors le mot clé peut etre présenté dans
    le contexte de sa phrase dans l’affichage des résultats (mais de
    nouveau, pas d’affichage complet du contenu, toujours un résumé)

    Voici donc ce qu’il s’est passé : vous avez récemment décidé de
    raccourcir la taille des résumés dans vos flux:
    http://www.ajblog.fr/flux-tronques-temporaire
    Les agents de capture de Wikio ont donc détecté que le contenu présenté
    n’était plus suffisant pour une bonne indexation, et ont enclenché une
    capture HTML.
    Malheureusement cette capture a « débordé » et a pris le contenu sous
    l’article. Ces agents sont très sensibles, et vous vous imaginez bien
    qu’avec les centaines de milliers de sources que nous gérons, il est
    assez difficile d’arriver a capturer parfaitement le contenu d’un
    article pour toutes les plateformes et templates existants. Les erreurs
    arrivent, comme vous pouvez le constater :(
    Nous avons un chantier en cours sur ce sujet, donc j’espère que la
    qualité de la capture s’améliorera prochainement.
    En attendant, j’ai modifié les information pour votre flux, et vous
    n’aurez plus de capture HTML déclenchée lorsque vos résumés seront trop
    courts.

    Malgré tout, si vous souhaitez que l’on continue à valoriser au maximum
    vos articles, nous serions très intéressés par l’indexation de vos
    articles à l’aide du flux complet dont vous parlez dans votre article du
    11 Juin.
    Enfin, si mes explications vous ont convaincues bien sur :)

    Voila, j’espère avoir apporté un peu de clarté sur vos interrogations au
    sujet de Wikio.
    Je vous remercie de l’intérêt que vous portez à notre service, ainsi que
    de vos suggestions qui nous sont toujours très utiles :)
    Si vous avez d’autres questions, ou si vous souhaitez poursuivre cette
    discussion par mail, n’hésitez pas, bien évidemment, à me contacter
    ( vous pouvez également nous écrire sur info@wikio.fr)

    Bonne journée,

    Alex / Wikio

    Le 16 juin 2008 à 17 h 07 min

  • Olivier

    Alex, une seule question : Google respecte le tag meta « NOINDEX », vous faites de même ?

    Le 16 juin 2008 à 18 h 09 min

  • Et si c’est Melle Agnès qui intervient, cela ira quand même ? Pierre, quand tu passeras par là, n’hésite pas à compléter.
    Wikio ne scrappe pas mais comble les lacunes de certains flux rss.
    Lors de la création de Wikio, de nombreux sites n’avaient pas encore développé de flux rss. Pour nous permettre de proposer leur contenu nous avons alors mis en place une capture des pages html. Cette capture est donc bien antérieure à la mise en place de publicité dans les pages Wikio et avait pour but de proposer un plus grand nombre de sources.
    Nous l’avons associé à la capture des flux rss pour pallier à de très court résumé, voire à l’absence de résumé dans ces flux. Un article sans résumé avec un titre peu explicite, sera un article introuvable dans Wikio sauf en faisant une recherche sur le titre exact. Cela nous permet donc d’améliorer le référencement des articles au sein de nos pages.
    N’y voyez aucun but lucratif mais uniquement le souci de présenter au mieux l’information.

    Le 16 juin 2008 à 17 h 09 min

  • Réponses croisées :-)
    Alex a été bien plus précis que moi. Nous espérons vous avoir convaincu et bien sûr n’hésitez pas à nous contacter par mail.

    Le 16 juin 2008 à 17 h 14 min

  • hé hé, wikio n’énerve pas que toi ;-)

    Le 16 juin 2008 à 18 h 13 min

  • @Olivier:

    Nous n’avons pas encore eu de cas qui se sont présentés. C’est (à mon avis) assez rare d’avoir un média/blog qui diffuse ses articles en RSS tout en demandant à ce que ceux-ci ne soient pas indexés (je ne dis pas que ça n’existe pas, juste que c’est très peu fréquent).
    La refonte et l’amélioration des agents de capture est un gros chantier en cours, et nous prévoyons effectivement de rendre nos agents conformes aux derniers standards en vigueur.
    Toutefois, je vous rassure, comme je le disais dans mon précédent commentaire, les agents de capture plein texte ne se lancent pas systématiquement, et ils n’interviennent que dans le cas de flux dont le contenu semble tronqué/cassé

    @Kozlika

    Sauf que contrairement à l’auteur du post que vous mettez en lien, Aymeric à le mérite d’être constructif dans la critique, et nous sommes très content de recevoir ce genre de feedbacks :)

    Le 16 juin 2008 à 18 h 51 min

  • Alex : la définition de « scrapper » était très volontairement choisie à titre de provocation.

    Je me suis douté dans le courant de la journée qu’il y avait une corrélation entre mon passage en flux tronqué et le fameux « scrapping » détecté chez wikio, vous me confirmez donc ce que j’avais déduit de mon côté.

    J’ai été surpris de l’application de cette méthode par Wikio, car à ce jour je n’avais aucune information sur le fait que wikio l’utilisait (contrairement à paperblog ou s’est de notoriété publique).

    Ceci dit, vous allez effectivement devoir vous poser de plus en plus de questions sur les flux tronqués car j’ai bien peur que ça ne devienne une généralité dans les mois à venir.

    Pour les flux, si j’ai été également étonné, c’est que jusqu’à maintenant je surveillais un flux précis pour voir son évolution et que effectivement j’en ai testé un autre aujourd’hui pensant que la chose avait été généralisée.

    Olivier : ohh la belle question pertinente que voila.

    Kozlika : j’avais vu son « attentat » hier et j’avoue que le coup de michel v m’a bien fait rigoler (surtout le Wikio mange des enfants).

    Le 16 juin 2008 à 21 h 08 min

  • Alex : ma critique constructive est dans mon billet : vous utilisez mon contenu et le videz souvent de sa substance en en virant les liens, tout en les remplaçant par du lien vers chez vous et en l’habillant de pubs qui ne me rapportent rien (mais qui vous rapportent), le tout en cachant TOUTE mention de mon URL derrière des redirections, comme si mon blog faisait partie intégrante d’une nébuleuse de contenu sur l’unique domaine wikio.com. (Ce qui pille mon indexation sur Google et consorts.)

    Quel est ici mon avantage à être indexé par Wikio ?

    Recevoir de temps en temps 40 visites parce que j’ai utilisé le tag « 2.0 » ? (qui à ce jour est le tag le plus efficace pour attirer le lecteur de wikio, ce qui vous donne une idée de la population du site)

    Être grâcieusement positionné loin dans un classement récemment décrié çà et là vis à vis de l’inclusion artificiellement haute du blog wikio ?

    Être heureux d’aider l’économie frrrrrançaise ?


    Plus sérieusement Alex, quel est mon avantage en temps que blogueur, à voir mon contenu malmené de la sorte par une tierce partie qui, elle, en tire des avantages ?

    Le 16 juin 2008 à 22 h 06 min

  • Forcément c’est une fois que j’ai bien galéré à taper mon long commentaire en dvorak que je vois qu’Aymeric a posté les mêmes arguments un mois plus tôt dans un article qui exprime déjà toute ma pensée.
    Où d’ailleurs Pierre Chappaz a vite parlé de placer un lien direct vers le site auteur du contenu, et fut loué pour sa réactivité à ce sujet. Quelle réactivité ? Une promesse, et un mois plus tard il n’y a toujours aucun lien direct, toujours des redirections.

    Agnès, Alex : méconnaissez-vous à ce point les usages en matière de RSS (un comble ?) pour pouvoir sortir des arguments en faveur du scrapping comme « C’est (à mon avis) assez rare d’avoir un média/blog qui diffuse ses articles en RSS tout en demandant à ce que ceux-ci ne soient pas indexés (je ne dis pas que ça n’existe pas, juste que c’est très peu fréquent). » ?
    Indexer est une chose, récupérer à partir du HTML et republier entièrement sans en demander l’autorisation à l’auteur en est une autre.

    Il se trouve que la vaste majorité des auteurs qui publient un flux tronqué ne le font pas par inabilité technique mais volontairement, pour éviter justement la repompe complète du contenu et sa republication telle quelle (ou pire, modifiée comme sur wikio) sur tout ce que le web 2.0 peut compter de vampires 2.0.

    Rejeter la faute sur l’auteur qui aurait du demandé à ce que ses contenus ne soient pas repris entièrement, ça confine à la malhonnêteté intellectuelle. J’ose espérer que ce n’est pas ce que vous vouliez affirmer.

    Le 16 juin 2008 à 22 h 25 min

  • Florent V.

    Pour m’amuser de temps à autre avec des questions de propriété intellectuelle, j’ai toujours été intrigué par le statut fragile des copies de contenu par les différents moteurs, indexeurs, agrégateurs, etc. À la base, si on s’en tient au droit français, c’est tout de même pas mal illégal. :)

    Bien sûr, personne n’attaque Google car tout le monde veut y apparaitre le plus haut possible et le plus souvent possible. On accepte que Google fasse son beurre en reprenant des contenus car la reprise est discrète (hors page en cache, mais les utilisateurs «normaux» en ignorent même l’existence), et le service rendu significatif. Deux paramètres que l’on peut résumer ainsi:

    1. ne pas concurrencer le contenu repris;
    2. rendre service aux éditeurs du contenu en question.

    Si ces deux critères ne sont pas bien remplis, on s’expose forcément à des critiques… voire à un petit procès pour contrefaçon. :D

    (Je dis ça, mais moi j’ai rien contre Wikio, hein. Disons que cette petite liberté 2.0 prise avec le droit m’amuse.)

    Le 17 juin 2008 à 1 h 42 min

  • gaby : au sujet de la différence entre Google et Wikio vis à vis de la reprise du contenu, cf un commentaire sur mon blog.

    Le 17 juin 2008 à 11 h 34 min

  • gaby

    « Indexer est une chose, récupérer à partir du HTML et republier entièrement sans en demander l’autorisation à l’auteur en est une autre. »

    c’est marrant, j’ai l’impression que « alex » disait justement que le contenu n’était jamais republié dans son intégralité.

    j’ai du mal à comprendre également pourquoi vous faites tout un foin sur l’indexation du contenu directement sur le site. c’est exactement ce que font les autres moteurs de recherche de blog, comme Google Blogsearch ou Technorati. pire, ils le mettent en avant: http://technorati.com/weblog/2006/10/146.html

    faut arrêter de crier au spam à la moindre occasion hein..

    Le 17 juin 2008 à 11 h 15 min

  • gaby

    je crois que vous insultez mon intelligence avec ces propos…
    relisez-vous :(
    ou est-ce que vous voyez des caches et une reprise intégrale des contenus sur Wikio ?

    Le 17 juin 2008 à 11 h 51 min

  • Hmpf, on se calme et on boit frais… ah non, ça c’est un mauvais film de Max Pecas.

    Je recentre la discussion avant que ça ne se transforme en bataille rangée des pros et antis Wikio.

    Comme je l’ai déjà dit, j’aime bien l’outil Wikio même si je ne suis pas utilisateur de leurs services « plus ».

    J’aime bien Wikio parce que technologiquement l’outil m’intéresse, le reste, les discussions sur la légitimité de tel ou tel classement ou de la présence du blog wikio dans le top of the blogs, ça m’en touche une sans faire bouger l’autre.

    J’ai fait le choix de proposer le flux de mon blog à Wikio, j’assume ce choix.

    Par contre, en tant que fournisseur de contenu, je me réserve le droit de critiquer publiquement ce que je considère comme des pratiques nuisibles ou du moins borderline. C’est pour cette raison que j’ai parlé du problème des flux diffusés et des redirections à la place des liens en dur (pour Michel V, les redirections utilisées par wikio sont des redirections de type 301 qui, bien que moins fortes qu’un lien en dur n’ont aucun incidence sur le référencement de nos billets contrairement aux redirections de type 302).

    C’est également pour cela que j’ai publié ce billet, car nulle part je n’ai vu à ce jour chez Wikio qu’en cas de problème de flux, le scrapping était utilisé.

    Là ou je suis d’accord avec Michel v, c’est que si je diffuse sciemment un flux tronqué, ce n’est pas à wikio de décider ce qu’ils doivent prendre chez moi. Si mon flux ne correspond pas aux normes demandées pour être indexé par wikio, soit mon flux n’est plus intégré, soit au mieux je reçois un message de la part de wikio (qui peut être automatisé) me prévenant du problème et me proposant les solutions :

    • autorisez-vous Wikio à scrapper votre contenu pour palier à la faiblesse de votre flux ?
    • Pouvez-vous proposer un flux alternatif conforme aux normes de Wikio ?
    • Etc…

    La base de la communication quoi.

    Concernant le parallèle avec Google, il ne faut pas oublier que la principale source de revenus de Google, c’est la pub, en autorisant google de facto à indexer notre contenu, nous l’autorisons à vendre de la pub avec notre contenu comme matière première, il ne faut pas croire que Google le fait par bonté, uniquement pour le business, car son index est quand même la plus grosse machine à pub au monde. ;)

    Si je ne veux pas que Google indexe mon contenu, j’ai les outils pour, nous avons tous les outils pour et si demain les millions de Webmasters dont les sites sont indexés par Google décidaient unilatéralement de supprimer leurs sites de l’index Google et n’autorisaient plus Google à indexer leurs contenus, croyez moi, l’action Google prendrait une bonne grosse claque.

    Après, sur la question que wikio fasse de l’argent avec mon contenu, je le savais déjà en inscrivant mon site, ainsi que pour tous les annuaires et autre agrégateurs ou mon site est inscrit, je l’ai fait en connaissance de cause, je ne vais pas maintenant crier au loup parce que Wikio vend des espaces pub.

    Tiens, tout ça me fait penser que ça fait des mois que je veux retirer mon site de technorati, parce que avec eux, je n’ai pas encore réussi à ouvrir le dialogue, contrairement à Wikio.

    Le 17 juin 2008 à 12 h 20 min

  • Olivier

    Alex, « on va le faire », donc vous ne le faite pas. Le jour où vous le faite, vous serez bien aises de prendre en compte également NOARCHIVE.

    Vous comptez également lire et respecter le robots.txt ?

    Et oui, pour votre information, il existe des personnes qui publient sur le net sans vouloir être présent sur les moteurs de recherche.

    En tout cas, merci pour cette discussion, je pense que je vais rapidement faire un plugin pour Dotclear permettant de bloquer Wikio et les autre sites du même genre. À mon avis, il va y avoir une demande de ce côté :)

    Le 17 juin 2008 à 15 h 25 min

  • Delphine Dumont

    Asterix, n’oubliez pas de m’envoyer votre salaire. Si vous pensez qu’il est normal qu’un autre que l’auteur fasse du bénéfice sur les contenus, j’aimerais être la première à bénéficier de vos revenus. :)

    La question des contenus se pose avec de plus en plus d’acuité chaque jour. Le plus joli site le mieux conçu du monde ne vaut rien sans un contenu pertinent et fréquemment actualisé. C’est le combustible d’Internet. Il est normal que les auteurs fassent valoir leurs droits. Que ce soit MichelV ou Aymeric Jacquet, je trouve qu’ils le font gentiment.

    Je ne vois nulle trace de procédure judiciaire, ni de cri d’alarme. Tout ceci se passe entre gens civilisés, pas de barde accroché à la plus haute branche d’un arbre. ;)

    Le 17 juin 2008 à 17 h 27 min

  • Asterix

    Il n’ y a qu’en France où une discussion du genre peut avoir lieu :) :
    où des bloggers ne veulent pas être repris par des moteurs de recherche et donc en fin de compte , ne pas être lus …

    Le monde va vers le Web 3.0 et ici il y en a encore qui pensent produire du « contenu original » qu’ils vont valoriser eux tous seuls dans leur coin.

    PS: si je suis arrivé ici sur ce blog, ce n’est pas parce que je le connaissais déjà mais en utilisant un moteur de recherche pour une fois non-USA…

    Le 17 juin 2008 à 16 h 01 min

  • Asterix : « il n’y a qu’en France », je vous prie d’ouvrir les yeux et de vous informer sur les problématiques de reprises de contenus qui sont toutes aussi développées outre-Atlantique.

    J’ajouterais en guise de proverbe : il n’y a qu’en France qu’on croit que nos problèmes n’existent qu’en France.

    Le 17 juin 2008 à 16 h 09 min

  • Delphine Dumont

    Asterix, pour reprendre votre exemple, si un site affiche « Les Bleus ont gagné » et qu’il n’y a rien de plus sur l’information, tandis qu’un autre site fournit une analyse du match, des interviews des joueurs et des photos, diriez-vous que les deux sites ont le même intérêt et que leurs auteurs ont fourni la même quantité de travail ? Non, évidemment.

    Si le premier site reprend le contenu du second, retire les liens originels, place les siens propres et entoure le tout de publicités, la question se situe-t-elle au niveau des joueurs de foot ou au niveau du web ?

    Bien, si vous trouvez normal que des auteurs soient spoliés parce qu’ils sont petits et humbles, ce n’est pas très joli. Si vous préférez qu’on attende, pour régler cette question, que cela concerne des milliers d’euros, ce n’est pas très malin.

    Si vous vouliez lier un contenu en rapport avec cette discussion, le lien vers le billet de Damien Van Achter est plus pertinent :
    http://www.bloggingthenews.info/

    Enfin, je trouve étrange que quelqu’un qui dit « nous les blogueurs » ne mette pas de lien vers son blog. Il est si honteux ?

    Le 17 juin 2008 à 18 h 38 min

  • Asterix@

    Mais je continue à ne pas comprendre…

    Voici un post de ce blog-ci : http://ajblog.fr/blague-web-du-jour
    Or, tout le post repose sur une citation reprise à l’intégrale d’un autre blog: http://ajblog.fr/wikio-scrap-le-contenu-html

    Ici, aussi par cohérence, il aurait fallu procéder par une citation du début de la blague et renvoyer son lecteur la terminer sur le blog-source… pour lui laisser son traffic… Non ?

    Le 17 juin 2008 à 17 h 25 min

  • Asterix

    erreur de mon copier/coller:

    la blague originale se trouve ici: http://s.billard.free.fr/referencement

    et en plus elle est pas mal :)

    Le 17 juin 2008 à 17 h 27 min

  • Asterix : votre exemple est mal choisi mais il peut être intéressant de le placer dans la discussion.

    Premièrement, Sébastien Billard est ce que l’on peut appeller un… Blogopote ? Donc, je sais qu’il est totalement d’accord sur le fait que je reprenne un de ses articles.

    Deuxièmement, en effet, pour une fois l’article est cité dans sa globalité, mais franchement, couper la blague aurait été ridicule, en général je me borne à faire une citation d’une partie.

    Troisièmement, mes sources sont toujours, non seulement citées mais de plus présentées de façon à ce qu’il n’y ait aucune ambigüité sur l’origine du contenu. L’auteur est présenté et le lien fait sur l’ancre correspondant au titre de l’article. Ainsi il y a peu de chances que je passe devant son article dans les SERP sur une requête proche du titre.

    Quatrièmement, en faisant des citation basée sur des bonnes pratiques, je fais profiter au site cité de mon lectorat qui n’est pas forcément le même que le sien en plus d’un backlink de qualité.

    Que demande le peuple ?

    Le 17 juin 2008 à 17 h 38 min

  • Asterix

    @Delphine Dumont: Je vous prie de lire mon dernier post sur les citations …

    Pour les revenus, pensez à l’Equipe de France. Si le blog qui nous héberge fait demain son titre avec Les Bleus ont gagné 4-0 et qu’ avec ça il recoive une rémunération, on trouverait ça normal … Non ?

    Pourtant:
    1)l’auteur n’était pas un des 22 joueurs…
    2) il n’étais pas sur place
    3) l’info qu’il a distribué provenait d’une source qu’il n’ a pas lui rémunéré…

    Et malgré tout, je trouverais normal que l’auteur soit rémunéré si quelqu’un a trouvé un quelconque intérêt à ce post et que pour celà il soit prêt a y mettre un prix.

    Donc, oui : je crois qu’il est acceptable que quel qu’un d’autre que l’auteur PUISSE AUSSI faire un bénéfice sur le contenu.

    PS: je ne suis pas salarié :)

    Le 17 juin 2008 à 17 h 42 min

  • Delphine Dumont : concernant Asterix, je dirais “obvious troll is obvious.”

    Le 17 juin 2008 à 17 h 49 min

  • Asterix

    @Aymeric: c’était juste pour faire un example :)

    Le peuple veut: du pain et des jeux

    Il y aura toujours des petits (nous , les bloggeurs) et des gros (eux, des moteurs). Il y aura toujour des petits producteurs et des grossistes et des gros distributeurs et les marges iront toujours aux … gros.

    Alors, si moi, petit producteur, je veux boicotter, les grandes surfaces, j’ai plus qu’ à pas leur vendre et faire les petits marchés du coin… sauf si mon petit produit est vraiment le meilleur de tous :) et là on viendra me chercher de très loin. Chiche ?

    Le 17 juin 2008 à 17 h 51 min

  • Asterix

    Marrant, la grosse insulte sur les blogs c’est … troll . LOL

    Dommage, car une discussion entre gens tous d’accord c’est … une messe.

    Asterix, Trollius

    Le 17 juin 2008 à 17 h 54 min

  • Moi j’aime bien les Trolls quand ils ne sont pas trop velus, même si je pense qu’Asterix restera sur ses positions, cela n’empêche pas l’échange.

    Le 17 juin 2008 à 17 h 59 min

  • Asterix

    @Aymeric: j’ai aussi l’impression que TA position ne changera pas :)

    Ce qui me gêne dans ce type de discussion c’est le montant en jeux. On parle de milliers d’euros ? Non, c’est juste pour le principe…

    C’est pour ça que je dis qu’en France c’est différent. Aux USA, avec une class action ça devient tout de suite sérieux.

    Alors, tous à nos calculettes et valorisons le manque à gagner!
    Google, Wikio, technorati, me coûtent autant et me rapportent autant…

    Mais les bla-bla …

    Le 17 juin 2008 à 18 h 24 min

  • Ma position face à wikio n’a jamais vraiment changé, elle est plutôt bienveillante, tout comme elle bienveillante avec tous les sites sur lesquels j’ai sciemment choisi d’inscrire mon site ou mon flux, dans le cas contraire, je le dis haut et fort.

    Mais cela ne m’empêche pas de pointer du doigt les choses qui me déplaisent.

    Et à ce jour, les blas blas postés sur ce blog m’ont toujours apporté satisfaction, que ce soit face à Wikio, netvibes ou autre, je suis donc assez convaincu de l’importance de l’expression et du dialogue.

    Le 17 juin 2008 à 18 h 30 min

  • « Tous à nos calculettes et valorisons le manque à gagner »… Pierre Chappaz, veux-tu sortir du corps d’Astérix ?

    Le 17 juin 2008 à 18 h 42 min

  • Tiens, le temps d’aiguiser ma souris et il y a déjà 20 commentaires de plus ! Pour ma part, ça fait longtemps que j’ai un brouillon intitulé « il a bon dos, le web 2.0 » qui traite de cette question du contenu que l’on retrouve éparpillé un peu partout sous le seul prétexte que l’auteur du blog fournit un service à ses lecteurs réguliers sous forme de flux RSS.

    Je retrouve souvent l’argument du style : « ouais, mais vous dites rien à Google, à machin, à truc et vous vous en prenez à bidule… etc. » Ce qu’il faut bien voir, c’est que par exemple, je n’ai pas mis mes articles sous une licence autorisant le pompage shadokien et donc je me réserve le droit d’accorder ou non la reprise de mon contenu.

    Dans certains cas, des aggrégateurs le reprenne sans mon consentement, mais je laisse couler au cas où ça me rapporterait quelque chose sur le long terme ; dans d’autres cas, je fais un petit mail parce qu’égoïstement, je sais que ça ne m’apportera que tu contenu dupliqué, etc.

    C’est surtout un principe, parce que financièrement, mon contenu ne me rapporte presque rien. Je dis ça, parce qu’un autre argument récurrent est de dire : « ouais, mais bon, vous râler, mais pour combien de brouzoufs ? »… Comme s’il fallait forcément être riche pour avoir le droit de vouloir garder sa propriété intellectuelle ;)

    Le 17 juin 2008 à 21 h 48 min

  • Asterix

    Ouf !
    Le titre du Post de demain ne sera pas « Les Bleus ont gagné 4-0 » mais « Les Bleus ont perdu 0-2 » :)

    Allez, c’est pas grave… Je comprends les discours de principes mais ce qui me fait sourire c’est de penser que Wikio ou Google fassent de l’argent même juste un peu avec « nos petits blogs »…

    A quand une fédé des bloggeurs par les bloggeurs pour les bloggeurs ?

    Je propose déjà Ayemric « le Tranquille » président.

    (non, ce n’est pas une blague)

    Le 17 juin 2008 à 23 h 54 min

  • Brama Bey

    tout le monde fais de l’argent avec tout le monde, il faut juste savoir si il gagne parce que il a effectivement rendu un service.
    exemple le pages jaunes qui mettente de la pub à coté de votre nom.
    reste donc comme choix soit de relativiser et d’etre content que une startup française essaye de metttre de l’ordre dans l’enorme bordel de internet en permettant à un nvigateur de trouver votre blog si celui parle d’un argument que nous interesse; ou de demander de se de-referencer simplement et arreter de jouer la princesse comme notre ami Michel V l’a demandé.

    nandrin

    Le 18 juin 2008 à 11 h 44 min

  • Brama Bey

    c’est pas un insulte comme bip ou tete de biiiip (auto moderation on) mais dans wikipedia: « personnage comique, dont la profession était de faire rire les gens…., seul personnage pouvant sans conséquence se moquer du souverain.. » link

    et si on doit rester courtois merci de pas insinuer que on bosse tous chez Wikio (mdr) ou je sais pas quoi.

    si on ouvre un blog, si on écrive un billet avec un opinion, nous (les lecteurs) on a le droit de commenter, critiquer poser de questions etc)
    sans être obligé de montrer patte blanche ;)
    et pour revenir au sujet vous devez faire un effort et déplacer votre regard de votre nombril de bloggeur.

    internet est encore à l’aube et il a besoin de instrument simple pour pouvoir faciliter l’accès à l’information à tous le monde.
    google est bon pour une recherche directe exemple: Paris
    ils nous donnerà paris.fr ou wikipedia mais il est pas capable de nous donner l’actualité de Paris du PSG ou de Paris Hilton sans être submergé par le spam.
    donc si dans ton billet il y a écrit paris hilton c’est bien ou pas bien que wikio le voit et montre au lecteur de wikio que il y a une catégorie Paris Hilton qui contient de post (d’autre blogs) ayant un rapport avec Paris Hilton.

    exemple Twitter dont vous avez publié un post il y a pas longtemp:

    en cherchant Twitter sur Google on tombe sur twitter.com bien sur, puis sur WIkipedia ok et sur twitter.fr!

    si on cherche sur Wikio on tombe sur une page qui contient tous le billet qui parlent de Twitter y compris le votre.

    et dans cette page il y a la pub!

    moi je trouve normal que il gagne de l’argent car c’est leur technologie d’analyse sémantique et le travail de documentalistes (CHappaz parle de 30 personnes?) qui m’ont permis de découvrir votre blog.

    puis sur votre blog il y aura votre pub ou aucune pub.(que d’ailleurs je ne verrais pas voir car j’ai un adblock;))

    voilà mes 2 cents.

    Hasta pronto

    Le 18 juin 2008 à 14 h 50 min

  • Incroyable qu’on ne puisse pas se plaindre d’être génés par une mauvaise pratique d’une startup française online, sans voir débarquer une cohorte de défenseurs anonymes qui nous qualifie de « princesses ».

    Quant au sujet du manque à gagner, imaginons qu’il soit pour chaque blog qui syndique un flux tronqué de 1 à 5 euros en pub par mois à cause de l’indexation par Google de leur contenu entier sur Wikio.
    C’est une somme négligeable certes, mais ce n’est plus négligeable quand on cumule le nombre de blogs qui ont choisi de syndiquer du tronqué pour garder le contrôle de leur contenu.

    Toutes ces réactions du style « y’a pas mort d’homme », c’est effrayant. Vous laissez-vous ainsi marcher sur les pieds aussi facilement au quotidien ?

    Le 18 juin 2008 à 12 h 54 min

  • Delphine Dumont

    Wikio est un bon outil, il est en perpétuelle amélioration. C’est parce qu’on en attend beaucoup qu’on ne veut pas le voir s’égarer sur de mauvais chemins.

    Ses concepteurs ont à l’esprit de le rendre très rentable, ce qui est bien naturel. Mais, du coup, ils oublient un peu l’intérêt des blogueurs. Qu’Aymeric Jacquet, avec ses compétences et sa capacité d’analyse, relève et signale un problème, c’est aussi bon pour Wikio que pour les blogueurs.

    Il n’y a pas de quoi s’enflammer pour ou contre Wikio, Aymeric, Pierre Chappaz ou MichelV. Ce n’est pas du foot quand même ! :D

    Le 18 juin 2008 à 15 h 25 min

  • Brama Bey

    pour laisser un commentaire içi il y a ecrit:
    Email (facultatif) :
    Site Web (facultatif) :
    @Michek V est ce que tu veut mon ADN, mon numéro de sécurité sociale, ma race, mes origines?

    faitess ce que vous voulez bien sur je pense seulement (IMHO)que Michel V est un « biip » contrairement au proprio de ce blog car sur le sien il m’a censuré mes commentaires en me traitant de Troll et de debiles à cote de la plaque seulement parce que j’ai lui demandé si il voulait se faire dereferencer de Wikio et que il veut pas répondre…..

    edit du modérateur : J’ai remplacé l' »insulte » par un Biip, merci de rester courtois sur ce blog.

    Le 18 juin 2008 à 13 h 41 min

  • Leonick

    En fait, le problème n’est pas tant l’affichage du contenu de la page d’un blog et l’indexation de ce contenu pour une meilleure catégorisation, mais surtout que ce contenu puisse bien se positionner, voire même mieux que certains blogs à l’origine du contenu.
    Comme il est fait référence à google en indiquant qu’on l’autorise, lui, à scruter notre contenu, conférant de fait un rôle de « moteur de recherches » à wikio, pourquoi ne pas placer ces pages en NOINDEX.
    Cela résoudrait les problèmes : plus de positionnement du contenu devant les sites d’origine et un rôle de « moteur de recherche » mis en avant.
    Google a-t-il besoin de faire indexer ses pages de résultats par yahoo!, live et exalead ?

    Le 18 juin 2008 à 16 h 35 min

  • Brama Bey : juste pour information, voici ce que je dis un peu plus haut :

    Après, sur la question que wikio fasse de l’argent avec mon contenu, je le savais déjà en inscrivant mon site, ainsi que pour tous les annuaires et autre agrégateurs ou mon site est inscrit, je l’ai fait en connaissance de cause, je ne vais pas maintenant crier au loup parce que Wikio vend des espaces pub.

    Wikio propose un service, wikio gagne de l’argent, je n’ai rien à y redire. Comme je le dis, quand j’ai inscris mon blog sur Wikio, ils vendaient déjà des espaces pub, ça franchement, je n’en ai rien à faire.

    La ou je rejoins michel v, c’est sur d’autres questions. Pour exemple, si je n’avais pas parlé (moi ou un autre) des problème engendrés par les flux rss de wikio en terme de nuisances pour les sites sources, rien n’aurait changé et le problème existerait toujours.

    A l’origine Wikio utilisait des redirections 302 dans ses liens vers les sites sources, ce qui est très mauvais en terme de référencement, certains webmasters ont haussé la voix, wikio a changé ses redirections pour des 301.

    Ce n’est parce qu’un service est innovant ou de qualité qu’il ne faut pas de temps en temps le « rappeler à l’ordre » concernant des pratiques qui peuvent être préjudiciables pour leurs sources de revenus : les sites sources d’information.

    Wikio à tout intérêt de suivre ces remarques, car si demain, quelque chose de vraiment nuisible était détecté chez eux et qu’ils ne faisaient rien pour le changer, le service serait mort, fini, kaput, les webmasters demanderaient en masse leur desindexation comme je l’ai déjà fait pour de nombreux autres services.

    Le 18 juin 2008 à 15 h 09 min

  • brama Bey

    quote=Le mercredi 18 juin 2008 à 15:09, par Aymeric Jacquet= »Comme je le dis, quand j’ai inscris mon blog sur Wikio, ils vendaient déjà des espaces pub, ça franchement, je n’en ai rien à faire. »
    voilà on est d’accord

    « La ou je rejoins michel v, c’est sur d’autres questions. Pour exemple, si je n’avais pas parlé (moi ou un autre) des problème engendrés par les flux rss de wikio en terme de nuisances pour les sites sources, rien n’aurait changé et le problème existerait toujours.
     »
    peut etre oui et peut etre non qui peut predire le futur?

    je suis d’accord sur une critique constructive comme la tienne, et chez Wikio quoique très réactif sur le web ils font le gros erreur de pas être présent au Barcamp, BlogBeer etc etc la ou tu peut rencontrer les bloggers et apprendre, expliquer, critiquer etc etc

    d’un coté je donnerait à Wikio un vrai esprit 2.0 en mettant en avance la qualité et le travail des ses utilisateur (crowd sourcing) mais aussi je doit avouer que en utilisant une seule logique d’indexation il y a tres peut de spam chez eu.

    moi j’irais plus loin en enlevant de leur index les blogs qui n’ont pas du contenu « original » mais juste trois phrases et un lien vers Gizmodo.

    et je donnerai aux bloggers la possibilité d’acceder aux stats de leurs blog chez Wikio (nombre de clic, etc etc) en version base gratuite et payante pour celui qui veut faire un analyse poussé du contenu en vu d’une veille pour exemple.

    comme vous voyez je suis tres critique envers Wikio qui à des tres grosse possibilité mais ne l’exploite pas et n’arrive pas a se distinguer d’un Digg-like basé seulement sur un algorithme.

    porqoui n’organisez vous un Barcamp/Blogbeer pour parler de tout cela? chez LaCantine ou chez Wikio pour exemple, moi je viendrais volentier comme ça Michel pourra m’offrir un petit noir :-p

    Le 18 juin 2008 à 17 h 28 min

  • « moi j’irais plus loin en enlevant de leur index les blogs qui n’ont pas du contenu « original » mais juste trois phrases et un lien vers Gizmodo. »

    Ça décimerait le top 100 wikio.
    (Et sinon, je n’ai pas reçu ma livraison de l’Arche de Zoé.)

    Le 18 juin 2008 à 17 h 49 min

  • Brama Bey

    tant mieux ça gagnerait en qualité, n’est pas?

    pas grave Michel un cappuccino peut faire l’affaire :-)

    Le 18 juin 2008 à 19 h 34 min

One Rétrolien pour Wikio scrap le contenu html ?

  1. Par Wikio et ses petites bidouilles le 9 juin 2009 à 14 h 54 min

    […] nous sommes très surpris, on parle bien ici de cloaking sur referer, une technique qui comme le scraping de contenu est plutôt utilisée du côté des chapeaux […]