lucene-java-user mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From <arnaudbuf...@free.fr>
Subject Word files
Date Thu, 09 Feb 2006 18:36:47 GMT
Hello,
 
I use the Poi Api to parse MSword files in order to index the content to
enable lucene search.
 
For that I download the last jars from Poi (including the scratchdpad
one) and use the parser from lucenebook called POIWordDocHandler. 
It works quiet good, but for some files the parser does not return the
all content but just a piece, for example just the 2 first lines. Does
anyone know the reason and can help me? 
 
- Here is the parser java code:
 
  public String getDocument(InputStream is) throws
DocumentHandlerException {
 
    String bodyText = null;
    try {
      WordDocument wd = new WordDocument(is);
      StringWriter docTextWriter = new StringWriter();      
      wd.writeAllText(new PrintWriter(docTextWriter));
      docTextWriter.close();
      bodyText = docTextWriter.toString();
       }
       .
  return bodyText;
 
- Here is an example of text from word doc file for witch the bodyText
variable return from the parser just return the first 14 words
'yılından' (the text is in Turkish):
 
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından
 
Thanks for your help, best regards
 
A.
 

Mime
  • Unnamed multipart/alternative (inline, None, 0 bytes)
View raw message