Salut Malo,
> Et ceci : Jakarta POI - Java API To Access Microsoft Format Files
> (http://jakarta.apache.org/poi/). Hors sujet pour le(s) format(s) Word ?
TextMining fait ce qu'il dit, il sort le texte d'un word correctement,
avec des paragraphes formatés (mais rien de plus). On notera qu'il n'y a
pas de problème d'encodage, du moins pour le français (on le doit
certainement à POI).
En effet, le jar text textmining reprends "POI - HWPF - Java API to
Handle Microsoft Word Files".
On notera que le projet est orphelin << What we need is someone to stand
up, take this thing under his hood as his baby and push it forward. Ryan
Ackley, who put a lot of effort into HWPF, is no longer on board, so
HWPF is an orphan child waiting to be adopted. >>.
La dernière release POI date de février 2004, la liste a surtout des
bugs, des commits et des patchs, ce qui veut dire aussi que cela
travaille ; mais pas trop sur les traitements de textes.
Textmining fait un générateur Cocoon encore pauvre. Je suppose qu'il y a
mieux à faire avec POI
* baliser blocs et phrases
* récupérer les noms de styles (au moins les titres hiérarchiques)
* récupérer les URIs de lien
* et si possible les liens images
Les Poi y ont pensé ici,
<http://cvs.apache.org/viewcvs.cgi/jakarta-poi/src/scratchpad/examples/src/org/apache/poi/hwpf/>,
un Word to Forrest, pas en SAX mais avec déjà pas mal d'aide sur comment
se servir de POI.
Mais je ne suis pas le bon parent pour adopter cela, j'ai déjà une
famille à nourir.
--
Frédéric Glorieux ("AJLSM", <http://ajlsm.com>)
---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
Autres commandes : mailto:users-fr-help@cocoon.apache.org
|