Google commence à indexer les formulaires

le 14/04/2008 à 19:12
Google commence à indexer les formulaires
Alors que jusqu'à présent les pages accessibles uniquement via un formulaire font partie de ce qu'on appelle le web invisible (des moteurs de recherche), Google a commencé à expérimenter le crawl des formulaires. C'est à la fois une bonne et une mauvaise nouvelle... explications.

Jayant Madhavan et Alon Halevy, de l'équipe Crawl et Indexation chez Google, viennent d'expliquer sur leur blog que Google venait de commencer à tester le crawl (et l'indexation) des pages accessibles par formulaire. Rappelons que pour l'instant Google ne fait que suivre les liens classiques a href pour découvrir les pages à indexer (je mets de côté les pages soumises par un fichier Google Sitemap).

Précisons que cette expérimentation ne concerne que les sites de haute qualité. On se demande bien ce qui se cache derrière cette appellation, cela signifie en tout cas que tous les formulaires ne seront pas forcément testés par Googlebot. Concrètement, voici ce qu'il faut retenir :

- Google ne crawle que les formulaires de type GET (on met donc de côté la méthode POST), c'est-à-dire ceux qui font apparaître les paramètres dans l'URL de la page de soumission du formulaire.
- Les différentes valeurs des listes déroulantes ou des cases à cocher seront testées (ce qui fait parfois un paquet de combinaisons)
- Pour les champs texte, Google va tester de les remplir avec des mots-clés qui lui semblent pertinents par rapport au site ! Je serais curieux de savoir comment ils sont sélectionnés, en tout cas ça peut être intéressant d'en avoir la liste pour un site donné.
- Une fois la page (de résultats) crawlée, Google l'analyse pour vérifier si elle ne correspond pas déjà à une page qui serait déjà dans l'index (ce qui causerait donc des problèmes de contenus dupliqués). Une vérification de la validité et de l'intérêt est également effectuée avant d'indexer la page.

Google précise que ceci ne changera rien au PageRank et (quasiment rien) au positionnement des pages actuelles d'un site. En clair, Google ne considère toujours pas (et c'est logique) que les pages accessibles par formulaires reçoivent de la popularité comme c'est le cas quand il s'agit de liens.

L'indexation des formulaires peut être rangée dans la famille des améliorations des moteurs de recherche, tout comme celle des animations Flash ou des scripts JavaScript. Faut-il pour autant se réjouir ?

- certains formulaires mènent à des pages que le webmaster n'a pas prévu de faire indexer, car elles mènent à des contenus déjà accessibles sur d'autres pages indexées. Dans ce cas, il va falloir désormais indiquer aux robots que l'on ne souhaite pas qu'ils indexent ces pages (c'est ce que je fais pour mes outils qui reposent sur un formulaire en GET, bien pratique pour faire un lien vers une page de résultats). On peut aussi bloquer le crawl en utilisant le fichier robots.txt (ce qui bloquera forcément l'indexation).
- certains formulaires mènent à des pages ne présentant pas forcément un contenu en tant que résultat. C'est le cas des formulaires de connexion à une zone membre, ou des achats sur un site de ecommerce ! Là non plus on ne veut évidemment pas de robots... En théorie Google a prévu ces cas mais on ne sait jamais maintenant.

Comment vont réagir les webmasters ? Que va-t-il se passer avec toutes ces pages indexées à l'insu du plein gré des webmasters :-) ? Les champs hidden seront-ils exploités (avec un risque accru de spam) ? Les autres moteurs vont-ils suivre la voie de Google ?

Commentaires

Ecrire

Ecrire un message

Votre message vient d'être créé avec succès.
LoadingChargement en cours