On apprend des choses avec le cache Google


Bon, d’accord, apprendre est un bien grand mot, mais on peut au moins analyser quelques petites choses.

Feignasse comme pas deux et voulant retrouver l’url d’un de mes articles rapidement (Quels tarifs pratiquer pour un freelance ? pour ne pas le nommer), je fais une recherche rapide sur google en utilisant les termes « quel tarif independant » puisque je sais de mémoire que je suis premier sur toutes les variantes.

Et comme j’ai fait une petite modification sur l’article récemment, il me prend l’envie de vérifier la version en cache de la page et là, non seulement je constate que la modification effectuée n’est pas encore prise en compte par le cache de Google mais un petit message attire mon regard :

Les termes de recherche suivants sont mis en surbrillance : quel tarif Ces termes apparaissent uniquement dans les liens pointant sur cette page : independant

Et plus particulièrement cette partie :

Ces termes apparaissent uniquement dans les liens pointant sur cette page : independant

Effectivement, le terme independant est absent de la page, contrairement à indépendant, google dissocie bien les deux termes et avoue implicitement que nous avons là affaire à un pseudo cas de Google Bombing (ces termes apparaissent uniquement dans les liens pointant sur cette page).

Autre point intéressant : la surbrillance.

Quel se trouve exactement sous cette forme dans la page et est donc mis en surbrillance les deux fois où on le trouve. Par contre, on trouve « quel » dans d’autres chaînes de caractères (quels, quelles…) et là, point de surbrillance.

Mais là où c’est étonnant, c’est que google précise qu’on trouve bien le terme tarif dans la page (Les termes de recherche suivants sont mis en surbrillance) mais qu’aucune version du terme tarif n’est mise en surbrillance, car à chaque fois il ne se trouve pas sous cette forme mais sous la forme tarifs avec un s.

Google ne fait donc pas l’extraction du terme dans les chaînes de caractères pour spécifier sa présence dans une page (du moins pour ce qui est des pages en cache affichées).

Pour l’instant, je ne sais pas encore quels enseignement en tirer, voir même si il y a des enseignements à en tirer, mais il m’a semblé opportun de partager la chose.


21 réponses à “On apprend des choses avec le cache Google”

  1. Pour ma part je ne comprends même pas comment Google arrive à indexer et à retrouver ton contenu tellement il est bourré de fautes de français. :-D
    Ça n’a rien de méchant : c’est juste par réflexe professionnel. ;-)

  2. Ohhh pas de soucis, l’article « quels tarifs… » est une vraie cata et à chaque fois que je veux le corriger il me prend une flemme de tous les diables. Je sens que je vais refiler la patate chaude à mon associée préférée.

  3. Je serai prudent sur le sujet.
    L’algo qui gère la mise en évidence des MC recherchés dans la page peut être très différent de celui qui traite la page pour l’analyser.
    On a un peu le cas aussi avec la mise en gras des termes de la recherche dans le snipet.

  4. Si tu veux mon avis, il aborde d’abord la grammaire Française, puis ensuite les conjugaisons. Et Google Latin s’attache viollemment à l’étude des déclinaisons.
    Rosa Rosa Rosam

  5. Ce problème d’accent ne concerne pas trop les anglo-saxon, donc possible que vu le peu de gêne qu’il procure il laisse trainer ça… j’voterai pour un simple petit bug.
    Je pense pas qu’il y’ai un rapport avec la façon dont google analyse et calcul ses résultats.
     

  6. Non seulement on apprend des choses
    mais utilisez donc les commandes avancées de google
    inurl:
    intext:
    related:    qui trouve les pages similaires
    C’est tres intéressant
     
    :)
    Bonne journée

  7. Trouver un mot c’est facile et ne demande pas beaucoup de puissance de calcul.
    En revanche débusquer un mot à l’intérieur d’un autre démultiplie le travail (surtout si les mots sont longs).
    De plus ce n’est pas forcément une bonne chose.
    Dans « débusquer » j’ai le mot « bus » mais cela n’est pas une séquence pertinente.
    En revanche intégrer un dictionnaire complémentaire avec le pluriel de certains mots peut apporter du service sans multiplier de manière démesurée la demande de calcul.

  8. Je savais pas que Google donnait ce type d’indication dans les pages cachées (mots-clés présents ou pas, en surbrillance) … Je suis peut-etre trop débutant ;)  Néanmoins, belle trouvaille, je suis allé pioché dans mes propres pages cachées avec toutes sortes de requetes, j’ai pu faire des observations semblables …

  9. Je ne vois pas trop ce que l’on peut déduire de ces observations si ce n’est, mais ce n’est un secret pour personne, que google intègre de plus en plus les équivalences sémentiques. Du reste, si l’on se réfère à des recherches entre guillements sur google pour trouver des récurrences exactes, google affiche de plus en plus de page ne contenant pas les termes exactes.

  10. Plus on rend les robots intelligents, plus on s’approche du fonctionnement mental torturé de l’humain.
    Le doute est déjà intégré dans les messages d’erreurs des systèmes d’exploitations « Il est possible que… ».

  11. Alors très clairement, il faut vraiment dissocier ces résultats de l’analyse que fera réellement Google de votre page. Il est de notoriété que l’algo est suffisamment puissant maintenant pour analyser synonymes, pluriel ou genre. Pour avoir effectuer de multiples tests (notamment de synonymes) il est clair que les bots verront bien « tarif » dans « tarifs ».

  12. Je m’en sers encore assez souvent du cache de Google .
    ça aide quand les pages ont un gros contenu et qu’on cherche un mot précis dans ce contenu indigeste :) !

  13. En effet, les moteurs se rapprochent de plus en plus du comportement humain, pour les pluriels, singulier… On va arriver sur des robots de plus en plus intelligents. A suivre avec intérêt donc.

  14. Il est évident que les robots sont de plus en plus intelligents ! Cependant, un robot reste un robot, et au bout d’un moment il est possible de découvrir la manière dont il fonctionne.. La seule solution pour lui est d’évoluer chaque fois, un peu comme pour Google !

  15. Je pense aussi que les algo du moteur sont indépendant de ce système. On est surement pas au même endroit de l’architecture et c’est beaucoup moins critique.

  16. C’est aussi le cas dans les adwords, les pluriels ainsi que les accents sont pris en compte de manière différente, même si l’algo est différent… je pense quand même qu’il y des similitudes entres adwords et la recherche naturelle. Je constate aussi que les crawlers sont de plus en plus intelligent d’ailleurs ils suivent de plus en plus de langages différentes (JS ETC)

  17. Personnellement, je préfère nettement que Google Cache ne fasse pas l’extraction du terme dans les chaînes de caractères. Ça doit être fatiguant de chercher « inscription » et voir des « désincription » en couleur par exemple.

    Ensuite, pour « tarif » ou « tarifs », si l’internaute tient particulièrement à ce que ce soit écrit « tarifs », il peut effectuer une recherche via son navigateur, n’est-ce pas ?

  18. Plutôt d’accord avec Mehach. Que Google retrouve un page avec des variantes de mots, c’est très bien, mais cela peut être dur à suivre si le moteur met en surbrillance des mots qui ne sont pas ceux de la requête. Dans mon cas, ça ferait parasitage dans mes recherches.
    Bref, c’est souvent important qu’aucune variante du mot ne soit en couleur. Ce qui n’empêche pas le moteur  de prendre en compte tout cela. Ce serait une différence bien pratique entre le travail du moteur et la présentation à l’internaute.

  19. Intéressant, je n’avais jamais fait attention à ça, je ne pensais que l’indexation était différente pour le cache. Et c’est vrai que bien souvent, même si tous les mots de la recherche apparaissent dans les résultats de Google, on retrouve (trop ?) souvent ce fameux « Ces termes apparaissent uniquement dans les liens pointant sur cette page ».
    Mais c’est vrai que, comme ça a été dit plus haut, les accents ne concernent pas les anglophones, donc à savoir si Google s’y intéresse réellement ou pas…