cocoon-users-fr mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From Sylvain Wallez <sylv...@apache.org>
Subject Re: UTF-8 dans les URL.
Date Thu, 07 Apr 2005 14:26:20 GMT
Sylvain Wallez wrote:

> Aurélien DEHAY wrote:
>
>> Le jeudi 07 avril 2005 à 15:12 +0200, Sylvain Wallez a écrit :
>>  
>>
>>> Aurélien DEHAY wrote:
>>>
>>>   
>>>
>>>> Bonjour.
>>>>
>>>> Personne ne s'amuse (enfin, c'est un bien grand mot) à ça sur son
>>>> serveur? Je viens de tester, avec Apache ça fonctionne très bien, mais
>>>> pa avec Cocoon. Je n'ose croire que Cocoon ne permets pas 
>>>> d'effectuer ce
>>>> genre de chose...
>>>>
>>>> Ou alors c'est un problème avec le map:match et l'encoding utilisé?
>>>>
>>>> Un map:match pattern="*.html" comprends bien le €.html, mais si
>>>> j'utilise le {1} dans le map:match, même erreur. Quelqu'un pour ne
>>>> serait-ce que m'aiguiller sur le problème?
>>>>
>>>>
>>>>     
>>>
>>> Il faudrait savoir comment l'URL arrive au niveau de Cocoon, c'est à 
>>> dire comment elle est décodée par le moteur de servlet (Tomcat, 
>>> Jetty?). Le problème peut très bien venir de là, puisque c'est lui 
>>> qui en assure le décodage de la requête.
>>>
>>> En activant le mode debug dans logkit.xconf, tu trouveras dans les 
>>> logs l'URL en entrée de Cocoon. Quelle tête a-t-elle ?
>>>   
>>
>>
>> Je viens d'essayer dans les 2, avec le map:match suivant:
>>
>> <map:match pattern="*.html">
>>     <map:generate src="{1}.xsp" type="serverpages"/>
>>     <map:serialize/>
>> </map:match>
>>
>> Pour la requête /€.html (j'ai bien un fichier €.xsp sur le disque)
>>
>> Dans les logs de Cocoon+jetty (webapp d'exemple légèrement modifié) ET
>> Dans les logs de Cocoon+tomcat (webapp maison) (et à une , près entre le
>> â et le ¬ en plus dans jetty):
>>  
>>
>
> une virgule en plus?
>
> Quand on regarde la table de l'iso-8859-1 [1], on trouve que
>
> E2 -> â (a circ)
> 82 -> unused (!)
> AC -> ¬ (not sign)
>
> Or Unicode nous dit [2] que le signe euro est 20AC...
>
> J'ai l'impression que c'est ce bon FireFox qui s'emmèle les pinceaux...


Nan, c'est moi qui m'emmêle les pinceaux. D'après la littérature 
passionnante expliquant l'encodage UTF-8 [3] et un peu de conversions 
binaires <-> hexa (je connais encore la table par coeur!!!), il s'avère 
que E282AC est le bon encodage UTF-8 du caractère Unicode 20AC.

Toutes mes excuses à Firefox, et retour à la case départ : qui c'est qui 
décode cette @&§!$ d'URL ??

Sylvain

> [1] http://www.dcc.unicamp.br/~stolfi/EXPORT/www/ISO-8859-1-Encoding.html
> [2] http://www.unicode.org/reports/tr8/index.html#Euro%20Sign

[3] http://www.unicode.org/versions/Unicode4.0.0/ch03.pdf#G7404


-- 
Sylvain Wallez                        Anyware Technologies
http://apache.org/~sylvain            http://anyware-tech.com
Apache Software Foundation Member     Research & Technology Director


---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
Autres commandes : mailto:users-fr-help@cocoon.apache.org


Mime
View raw message