Comme indiqué dans mon précédent billet, j’ai implémenté un système de rétroliens sur mon blog,
suivant les informations données dans la spécification existante et regardant
le code source de Dotclear pour bien comprendre le fonctionnement de ce mécanisme.
Justement, il y a un petit problème avec Dotclear. Lorsqu’un blog dotclear réglé pour utiliser
l’UTF-8 pingue l’URL qui va bien,
il commence d’abord par envoyer une requète HTTP avec le paramètre __info
et s’attend à recevoir une réponse
sous forme d’XML et
précisant l’encodage acceptable par le blog récepteur.
Le problème est que si le blog récepteur ignore la requète avec le paramètre __info
(ou répond qu’il veut du latin1), Dotclear passe les données à envoyer dans la fonction
PHP utf8_decode()
,
or cette fonction est destructrice. Si un caractère présent dans les données n’a
pas de code assigné dans le jeu de caractère latin1, il est purement et simplement remplacé
par un point d’interrogation. Il y a donc perte de données.
Dotclear n’est pas vraiment en cause, c’est le mécanisme de rétroliens qui n’a pas été pensé à
la base pour tenir compte des problèmatiques d’encodage (latin1 ou pire, us-ascii, sinon rien).
Néanmoins, il y a ici une perte de données et ce n’est jamais une solution acceptable.
Une solution serait donc de transformer les caractères non présents dans le jeu latin1 en
en entités XML avant de passer les données dans la fonction utf8_decode()
.
Ce n’est pas très propre étant donné que c’est du texte brut urlencodé qui est envoyé et non
du XML, c’est néanmoins cette solution qui a été retenue par la plupart des navigateurs
pour gérer cette même problèmatique avec les formulaires HTML.
J’ai soumis cette suggestion sur le forum de Dotclear (sans réponse de
l’équipe de développement au moment où je rédige ce billet). Au début, j’étais assez réticent quant à
l’obligation pour moi d’implémenter le mécanisme du paramètre __info
, mais après mùre
réflexion, c’est probablement la moins mauvaise solution.
L’autre grief que j’ai à l’encontre de Dotclear est qu’il nécessite la présence du paramètre
utf8=1
à la réception d’un ping, sans quoi, les données sont considérées comme du
latin1 et, si le blog récepteur utilise l’UTF-8, passées dans la fonction utf8_encode()
(donc affichage dégueulasse sur le blog récepteur). Là, l’alternative existe clairement et se trouve dans
le protocole HTTP. Elle est d’ailleurs également indiquée dans la spécification sur les rétroliens :
POST http://www.example.com/trackback/5
Content-Type: application/x-www-form-urlencoded; charset=utf-8
title=Foo+Bar&url=http://www.bar.com/&excerpt=My+Excerpt&blog_name=Foo
Les prochaines versions semblent se tourner vers la détection de l’UTF-8 pour le traitement des
données reçues, mais toujours pas de prise en compte du paramètre charset
.
Pour ma part, je me restreindrai pour l’instant à ne pinguer que les blogs Dotclear en UTF-8.
Pour les blogs en latin1, il me faudrait passer mes données en latin1 avant envoi, ce qui
signifierait une perte de données (donc là, pareil, affichage dégueulasse sur le blog en face puisque
certains caractères seront remplacés par un point d’interrogation).