Mes impressions sur le web, les standards et autres…


Vendredi 12 décembre 2003

Indexation intelligente

Les méthodes d’indexation de documents des robots des moteurs de recherche est à l’heure actuelle assez basique à mon goùt. On pourrait imaginer plusieurs méthodes relativement simples pour mieux cibler les parties d’une page qui devraient être indexées et celles qui ne devraient pas l’être.

ID du conteneur

Souvent quand on effectue une recherche dans les moteurs, nombreux sont les résultats qui nous amènent sur des documents assez long. On pourrait imaginer par exemple que les robots soient capable de récupérer la valeur de l’attribut id du ne bloc parent (premier bloc parent affublé d’un tel attribut quoi). Les valeurs des attributs id étant utilisés comme identifiant de fragment (ou ancre interne au document) dans les URI, cela faciliterait beaucoup les choses pour l’internaute.

Fiche d’indexation

À l’instar du système P3P, on pourrait imaginer une déclaration de politique d’indexation. C’est à dire les parties de document qui peuvent être indexées et celles qui doivent être ignorées. Pratique pour éviter l’indexation de parties de document qui ne changent pas (typiquement le menu du site). Ce fichier au format XML pourrait être fourni à l’aide d’une balise meta par exemple :

<meta name="Robots-policies" content="http://mydomain.tld/robots.xml" />

Enfin… Ça reste pour l’instant du domaine du rève.

Publié à 15h31

Catégorie :

Vos réactions, opinions, insultes…

Rétroliens

Faire un rétrolien sur ce billet : [xxxxxxxx]

Commentaires

Pas de commentaire actuellement

Un ch’tit biscuit ?
  • Les champs email et site sont facultatifs
  • Les URLs commençant par [protocole]://[protocole] correspond à http, https, news, irc, ftp, … sont rendues activables automatiquement. Votre adresse email ainsi que d’éventuelles adresses email présentes dans le corps du commentaire sont également rendues activables et encodées pour tromper les aspirateurs d’adresse email.
  • Pour spécifier une URL locale au site, vous pouvez utiliser local comme protocole à mettre à la place de http et omettre le nom de domaine dans l’URL.
    Exemple : local://2005/08/22/Nom-de-billet/.
  • Usez et abusez de la possibilité de prévisualiser votre commentaire pour vérifier qu’il est correctement rédigé et contient le moins possible de fautes d’orthographe. Évitez en outre le style SMS, merci d’avance. Prévisualiser votre commentaire peut également vous permettre de voir si de nouveaux commentaires sont apparus entre temps.
  • Si vous spécifiez l’adresse de votre site dans le champs texte prévu à cet effet, le script se chargera automatiquement d’aller récupérer sur votre site la langue utilisée dans vos pages, soit via l’en-tête HTTP Content-Language, soit en récupérant le contenu de l’attribut xml:lang ou lang sur l’élément html. Vous n’avez indiqué d’aucune façon la langue utilisée dans vos pages ? Corrigez ça nom di diou !
  • Des options de mise en forme des commentaires feront peut-être un jour leur apparition.


Site créé et maintenu par Aurélien Maille aka Bobe. Toutes les heures sont au format CEST.
Revenir à l’accueil – Zone de développement – Informations et accessibilité – CC licensed CC Licensed