Mailing-List: contact java-user-help@lucene.apache.org; run by ezmlm
Precedence: bulk
Reply-To: java-user@lucene.apache.org
Received-SPF: neutral (athena.apache.org: local policy)
MIME-Version: 1.0
In-Reply-To: 
 <CALL+OyCagJAQ8r--JQ7h21Q7k1r9aHH2ZbJA36SiTmrrk+6-tg@mail.gmail.com>
References: 
 <CA+iFDpxXBZjH+k=shCMT9=vAzCKu+T2sxBQPjojd=y=OWk2M9w@mail.gmail.com>
 <CAAHmpkjDgYmB7MX3-iUiHNVjJrxm=5vKaZRs9CK09DyhQoRYwg@mail.gmail.com>
 <CALL+OyCagJAQ8r--JQ7h21Q7k1r9aHH2ZbJA36SiTmrrk+6-tg@mail.gmail.com>
From: Michael McCandless <lucene@mikemccandless.com>
Date: Sat, 12 May 2012 16:12:31 -0400
Message-ID: 
 <CAL8PwkYYHfaizfuLHBQVrsEXqugKViMAmcHUzfM4TVQGpc4kGQ@mail.gmail.com>
Subject: Re: Lucene's internal doc ID space
To: java-user@lucene.apache.org
Content-Type: text/plain; charset=ISO-8859-1

On Sat, May 12, 2012 at 9:12 AM, Valeriy Felberg
<valeri.felberg@gmail.com> wrote:
>> the Document IDs in Lucene are per segment. ie. they are always
>> segment based.
>
> @Simon I'm just wondering: If the document IDs are per segment how
> does it work if I call Searcher.search(Query, int) and get TopDocs
> referencing ScoreDocs which contain document IDs? What happens if
> there are two matching documents in different segments? How does
> Lucene know which segment is meant if I call Searcher.doc(docId) with
> some docId from the search result?

The per-segment docIDs are "rebased" before Searcher.search returns,
ie turned into global docID against the top reader.

Also: when a merge runs, it removes any deleted docIDs (thus
renumbering all non-deleted docIDs)...

Mike McCandless

http://blog.mikemccandless.com

---------------------------------------------------------------------
To unsubscribe, e-mail: java-user-unsubscribe@lucene.apache.org
For additional commands, e-mail: java-user-help@lucene.apache.org