pdfbox-dev mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From "David KELLER (JIRA)" <j...@apache.org>
Subject [jira] [Updated] (PDFBOX-4284) LibreOffice6 PDF Conversion broke PDFTextStripper result
Date Thu, 02 Aug 2018 08:54:00 GMT

     [ https://issues.apache.org/jira/browse/PDFBOX-4284?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel
]

David KELLER updated PDFBOX-4284:
---------------------------------
    Attachment: original-document.docx

> LibreOffice6 PDF Conversion broke PDFTextStripper result  
> ----------------------------------------------------------
>
>                 Key: PDFBOX-4284
>                 URL: https://issues.apache.org/jira/browse/PDFBOX-4284
>             Project: PDFBox
>          Issue Type: Bug
>          Components: Parsing
>    Affects Versions: 3.0.0 PDFBox
>         Environment: Window 10 and CentOS7
>            Reporter: David KELLER
>            Priority: Major
>              Labels: features
>         Attachments: libreoffice_5.2.pdf, libreoffice_6.0.pdf, original-document.docx
>
>
> here the test program:
> {{public class ExtractTextPdfTest {}}
> {{    }}
> {{    public static void main(String[] args) throws Exception {}}
> {{        // #7272}}
> {{//        String documentIn = "c:\\data\\test\\libreoffice_5.2.pdf";}}
> {{        String documentIn = "c:\\data\\test\\libreoffice_6.0.pdf";}}
> {{        }}
> {{        try (PDDocument pdDocument = PDDocument.load(new File(documentIn))) {}}
> {{            PDFTextStripper stripper = new PDFTextStripper();}}
> {{            String content = stripper.getText(pdDocument);}}
> {{            System.out.println(content);}}
> {{        }}}
> {{        }}
> {{    }}}
> {{}}}
>  
> 1/  run PDFTextStripper on a Word document converted by LibreOffice 5.2 in PDF
>  result : 
> {quote}Réf : #chrono# Le #date#
> Affaire suivie par :
> #recipient.salutation#
> #recipient.name#
> #recipient.streetNumber#
> #recipient.streetName#
> #recipient.zipCode#
> #recipient.locality#
> #object#
> #recipient.salutation#,
> Nous  avons  bien  reçu  votre  candidature  pour  le  poste  de…………………………. 
et  nous  vous
> remercions de l’intérêt que vous portez à notre administration.
> Afin d'examiner votre candidature de manière plus complète, nous souhaiterions vous
rencontrer.
> Aussi, nous vous proposons un rendez-vous en nos locaux avec M ... , responsable du service
de ... , le
> ... à ... heures.
> Nous vous prions d’agréer, #recipient.salutation#, l’expression de nos salutations
distinguées.
> Le Maire,
> #signature#
> {quote}
>  
> 1/  run PDFTextStripper on the same Word document converted by LibreOffice 6.0  in
PDF
>  
>  result :
> {quote}Réf : Destinataire
> Affaire suiiiie aar : Adresse
> Code Postal
> Ville
> Paris, le 25/07/2018
> Madame, Moinsieuir
> Nous avons le plaisir de vous informer que suite à la Commission d’Attribution de
Logement 
> qui s’est tenue le xx/xx/xxxx, nous avons décidé de vous attribuer le logement situé
au xx 
> rue xxxxxxxxxxxxxxxxxxxx, 75 000 Paris.
> Les caractéristiuies de ce logemeint soint les suiiiaintes : 
>  Suirface habitable :
>  Tyae de logemeint :
>  Garage/Parkiing :
>  Mointaint dui loyer :
>  Mointaint des charges :
>  Mointaint dui déaôt de garainte :
>  Date d’eintrée dains  les lieuix :
> Les s mointaints arécisés soint à déduiire, le cas échéaint, de l'aide aui logemeint
(APL, AL) calcuilée et  
> commuiiniiuiée aar iotre Caisse d'allocatoins familiales.
> Vouis  aiez  juisiui’aui  xx/xx/xx  aouir  inouis  siginifer  l’acceatatoin 
de  ce  logemeint  aar  letre 
> recommaindée aiec accuisé de réceatoin.
> Vouis ariaint d’agréer, Madame, Moinsieuir, l’exaressioin de mes saluitatoins distinguiées.
> Le Maire,
> #siginatuire#
> {quote}
>  
>  



--
This message was sent by Atlassian JIRA
(v7.6.3#76005)

---------------------------------------------------------------------
To unsubscribe, e-mail: dev-unsubscribe@pdfbox.apache.org
For additional commands, e-mail: dev-help@pdfbox.apache.org


Mime
View raw message