lucene-java-user mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From Otis Gospodnetic <otis_gospodne...@yahoo.com>
Subject Re: Indexing XML document
Date Wed, 12 Dec 2007 06:30:43 GMT
Liaqat,

Out of curiosity - what are you using to analyze and index Urdu?  AraMorph or something else?

Thanks,
Otis
--
Sematext -- http://sematext.com/ -- Lucene - Solr - Nutch

----- Original Message ----
From: Liaqat Ali <liaqatalimian@gmail.com>
To: java-user@lucene.apache.org
Sent: Tuesday, December 4, 2007 1:04:45 PM
Subject: Indexing XML document

Hi all,

I want to index an XML file,containing 200 Urdu language (Varient of 
Arabic and Persian) documents. This corpus is in CES format,consisting 
of information about author and many more, I just want to extract 
textual data of each document and relative Doc number and title in each
 
document using SAX.

The problem I m facing that what should be the output of this whole 
processing, which is acceptable to Lucene Indexer. I just want to store
 
Document number, and Title with each document. The example given below 
is Doc 2 from that XML file. I want to make complete index of 200 
documents with Doc number and title... Kindly guide me......


<h.title>Doc 2</h.title>

<title>حکمت یار کو ایران بدر کرنے پر
 غور</title>
</p>
<p>اور خبریں ہیں کہ انھیں ایران بدر کرنے
 پر بھی غور کیا جا رہا ہے۔ حکمت 
یار جو سابق سوویت یونین کی مداخلت کے
 خلاف امریکی حمایت سے چلے والی 
مزاحمت میں سامنے آۓ تھے اب مخالف خیالات
 کے لۓ جانے جاتے ہیں اور اب وہ 
کرزئی انتظامیہ کی بھی مخالفت کررہے
 تھے۔ گذشتہ ہفتے ایران نے حکمت یار پر 
الزام لگایا تھا کہ وہ ایران کی سرزمین
 کو افغان انتظامیہ کے خلاف 
کاروائیاں کرنے کے لۓ استعمال کررہے ہیں
 جب کہ ایران کا کہنا ہے کہ وہ 
طالبان کے خلاف مزاحم دھڑوں کو جو حمایت
 فراحم کر رہا تھا وہ طالبان کا 
کنٹرول ختم ہونے کے بعد بند کر دی گئی ہے۔
 تاہم بعض ذرائع کا خیال ہے کہ 
ایران نے حکمت یار کے خلاف اقدام امریکہ
 کے اعتراضات کے بعد کیے ہیں۔</p>



Thanks ..... Liaqat

---------------------------------------------------------------------
To unsubscribe, e-mail: java-user-unsubscribe@lucene.apache.org
For additional commands, e-mail: java-user-help@lucene.apache.org





---------------------------------------------------------------------
To unsubscribe, e-mail: java-user-unsubscribe@lucene.apache.org
For additional commands, e-mail: java-user-help@lucene.apache.org


Mime
View raw message