Indexation intelligente
Les méthodes d’indexation de documents des robots des moteurs de recherche est à l’heure actuelle assez basique à mon goùt. On pourrait imaginer plusieurs méthodes relativement simples pour mieux cibler les parties d’une page qui devraient être indexées et celles qui ne devraient pas l’être.
ID du conteneur
Souvent quand on effectue une recherche dans les moteurs, nombreux sont les
résultats qui nous amènent sur des documents assez long. On pourrait imaginer
par exemple que les robots soient capable de récupérer la valeur de l’attribut
id
du ne bloc parent (premier bloc parent affublé d’un
tel attribut quoi). Les valeurs des attributs id
étant utilisés
comme identifiant de fragment (ou ancre interne au document) dans les
URI,
cela faciliterait beaucoup les choses pour l’internaute.
Fiche d’indexation
À l’instar du
système P3P,
on pourrait imaginer une déclaration de politique d’indexation. C’est à dire les
parties de document qui peuvent être indexées et celles qui doivent être ignorées.
Pratique pour éviter l’indexation de parties de document qui ne changent pas (typiquement le menu du site).
Ce fichier au format XML
pourrait être fourni à l’aide d’une balise meta
par exemple :
<meta name="Robots-policies" content="http://mydomain.tld/robots.xml" />
Enfin… Ça reste pour l’instant du domaine du rève.