Indexation intelligente

Les méthodes d’indexation de documents des robots des moteurs de recherche est à l’heure actuelle assez basique à mon goùt. On pourrait imaginer plusieurs méthodes relativement simples pour mieux cibler les parties d’une page qui devraient être indexées et celles qui ne devraient pas l’être.

ID du conteneur

Souvent quand on effectue une recherche dans les moteurs, nombreux sont les résultats qui nous amènent sur des documents assez long. On pourrait imaginer par exemple que les robots soient capable de récupérer la valeur de l’attribut id du n^e bloc parent (premier bloc parent affublé d’un tel attribut quoi). Les valeurs des attributs id étant utilisés comme identifiant de fragment (ou ancre interne au document) dans les URI, cela faciliterait beaucoup les choses pour l’internaute.

Fiche d’indexation

À l’instar du système P3P, on pourrait imaginer une déclaration de politique d’indexation. C’est à dire les parties de document qui peuvent être indexées et celles qui doivent être ignorées. Pratique pour éviter l’indexation de parties de document qui ne changent pas (typiquement le menu du site). Ce fichier au format XML pourrait être fourni à l’aide d’une balise meta par exemple :

<meta name="Robots-policies" content="http://mydomain.tld/robots.xml" />

Enfin… Ça reste pour l’instant du domaine du rève.

Mes impressions sur le web, les standards et autres…

Vendredi 12 décembre 2003