Mailing-List: contact java-dev-help@lucene.apache.org; run by ezmlm
Precedence: bulk
Reply-To: java-dev@lucene.apache.org
Received-SPF: neutral (nike.apache.org: local policy)
From: "Uwe Schindler" <uwe@thetaphi.de>
To: <java-dev@lucene.apache.org>
References: <74f928500911150819i5392abcfk7ce41c66ee52f84d@mail.gmail.com>
 <724C9B41972C46068B31FAF7FB039A99@VEGA>
 <74f928500911150850j274bee39l1d7996037a1c048c@mail.gmail.com>
 <C8A1975E8659415ABE048D3BC08A2C2C@VEGA>
 <2A2C477DCEA0467BA8E8727493324001@VEGA>
 <8f0ad1f30911150913x4f172e6ne7726fb354c2f03@mail.gmail.com>
 <3649013EBFB1494A8750C7D627A7E407@VEGA>
 <8f0ad1f30911150939t41e3e447n69efd78e1f5c4f47@mail.gmail.com>
Subject: RE: Bug in StandardAnalyzer + StopAnalyzer?
Date: Sun, 15 Nov 2009 18:45:50 +0100
Message-ID: <23497685C0B94A979DE1C9AD978FF9AE@VEGA>
MIME-Version: 1.0
Content-Type: multipart/alternative;
	boundary="----=_NextPart_000_0031_01CA6623.DAB4C910"
In-Reply-To: <8f0ad1f30911150939t41e3e447n69efd78e1f5c4f47@mail.gmail.com>
Thread-Index: AcpmGsL8/Z/DH6QXSk6pKqgIWuLmsAAAGXEA

------=_NextPart_000_0031_01CA6623.DAB4C910
Content-Type: text/plain;
	charset="us-ascii"
Content-Transfer-Encoding: 7bit

Yes, but on the other hand it does not hurt to automaticall reset in the
analyzer.... *krr* I do not know how to proceed. I think we should keep it
as it was since the beginning of Lucene (call to reset inside analyzer, QP)
and document it correctly. 

 
You are right, at the beginning, BaseTokenStreamTestCase and many other
hardcoded tests did not call reset. Now, the test also calls end() and
close().

 
-----
Uwe Schindler
H.-H.-Meier-Allee 63, D-28213 Bremen
http://www.thetaphi.de
eMail: uwe@thetaphi.de

  _____  

From: Robert Muir [mailto:rcmuir@gmail.com] 
Sent: Sunday, November 15, 2009 6:40 PM
To: java-dev@lucene.apache.org
Subject: Re: Bug in StandardAnalyzer + StopAnalyzer?

 
ok, at one point i do not think BaseTokenStreamTestCase did.

if this is the case, then its the consumer's responsibility to call reset,
and we should remove extra resets() inside reusableTokenStream() from
analyzers that have it... and probably improve the docs of this contract.

On Sun, Nov 15, 2009 at 12:17 PM, Uwe Schindler <uwe@thetaphi.de> wrote:

Even QueryParser calls reset() as first call. Also BaseTokenStreamTestCase
does it.

 
-----
Uwe Schindler
H.-H.-Meier-Allee 63, D-28213 Bremen
http://www.thetaphi.de
eMail: uwe@thetaphi.de

  _____  

From: Robert Muir [mailto:rcmuir@gmail.com] 
Sent: Sunday, November 15, 2009 6:14 PM


To: java-dev@lucene.apache.org
Subject: Re: Bug in StandardAnalyzer + StopAnalyzer?

 
Uwe, not so sure it doesn't need to be there, what about other consumers
such as QueryParser?

On Sun, Nov 15, 2009 at 12:02 PM, Uwe Schindler <uwe@thetaphi.de> wrote:

I checked again, reset() on the top filter does not need to be there, as the
indexer calls it automatically as the first call after reusableTokenStream.
For reusing only reset(Reader) must be called. It's a little bit strange
that both methods have the same name, the reset(Reader) one has a completely
different meaning.

 
-----
Uwe Schindler
H.-H.-Meier-Allee 63, D-28213 Bremen
http://www.thetaphi.de
eMail: uwe@thetaphi.de

  _____  

From: Uwe Schindler [mailto:uwe@thetaphi.de] 
Sent: Sunday, November 15, 2009 5:56 PM


To: java-dev@lucene.apache.org

Subject: RE: Bug in StandardAnalyzer + StopAnalyzer?

 
It should be there... But ist unimplemented in the TokenFilters used by
Standard/Stop Analyzer. Buf for consistency it should be there. I'll talk
with Robert Muir about it.

 
Uwe

 
-----
Uwe Schindler
H.-H.-Meier-Allee 63, D-28213 Bremen
 <http://www.thetaphi.de> http://www.thetaphi.de
eMail: uwe@thetaphi.de

  _____  

From: Eran Sevi [mailto:eransevi@gmail.com] 
Sent: Sunday, November 15, 2009 5:51 PM
To: java-dev@lucene.apache.org
Subject: Re: Bug in StandardAnalyzer + StopAnalyzer?

 
Good point. I missed that part :) since only the tokenizer uses the reader,
we must call it directly.

So the reset() on the filteredTokenStream was omitted on purpose because
there's not underlying implementation? or is it really missing?

On Sun, Nov 15, 2009 at 6:30 PM, Uwe Schindler <uwe@thetaphi.de> wrote:

It must call both reset on the top-level TokenStream and reset(Reader) on
the Tokenizer-. If the latter is not done, how should the TokenStream get
his new Reader?

 
-----
Uwe Schindler
H.-H.-Meier-Allee 63, D-28213 Bremen
http://www.thetaphi.de
eMail: uwe@thetaphi.de

  _____  

From: Eran Sevi [mailto:eransevi@gmail.com] 
Sent: Sunday, November 15, 2009 5:19 PM
To: java-dev@lucene.apache.org
Subject: Bug in StandardAnalyzer + StopAnalyzer?

 
Hi,
when changing my code to support the not-so-new reusableTokenStream I
noticed that in the cases when a SavedStream class was used in an analyzer
(Standard,Stop and maybe others as well) the reset() method is called on the
tokenizer instead of on the filter. 

The filter implementation of reset() calls the inner filters+input reset()
methods, but the tokenizer reset() method can't do that.
I think this bug hasn't caused any errors so far since none of the filters
used in the analyzers overrides the reset() method, but it might cause
problems if the implementation changes in the future.

the fix is very simple. for example (in StandardAnalyzer):

if (streams == null) {
      streams = new SavedStreams();
      setPreviousTokenStream(streams);
      streams.tokenStream = new StandardTokenizer(matchVersion, reader);
      streams.filteredTokenStream = new StandardFilter(streams.tokenStream);
      streams.filteredTokenStream = new
LowerCaseFilter(streams.filteredTokenStream);
      streams.filteredTokenStream = new
StopFilter(StopFilter.getEnablePositionIncrementsVersionDefault(matchVersion
),
 
streams.filteredTokenStream, stopSet);
    } else {
      streams.tokenStream.reset(reader);
    }

should become:

if (streams == null) {
      streams = new SavedStreams();
      setPreviousTokenStream(streams);
      streams.tokenStream = new StandardTokenizer(matchVersion, reader);
      streams.filteredTokenStream = new StandardFilter(streams.tokenStream);
      streams.filteredTokenStream = new
LowerCaseFilter(streams.filteredTokenStream);
      streams.filteredTokenStream = new
StopFilter(StopFilter.getEnablePositionIncrementsVersionDefault(matchVersion
),
 
streams.filteredTokenStream, stopSet);
    } else {
      streams.filteredTokenStream.reset(); // changed line.
    }


What do you think?

Eran.

 
-- 
Robert Muir
rcmuir@gmail.com


-- 
Robert Muir
rcmuir@gmail.com


------=_NextPart_000_0031_01CA6623.DAB4C910
Content-Type: text/html;
	charset="us-ascii"
Content-Transfer-Encoding: quoted-printable

<html xmlns:v=3D"urn:schemas-microsoft-com:vml" =
xmlns:o=3D"urn:schemas-microsoft-com:office:office" =
xmlns:w=3D"urn:schemas-microsoft-com:office:word" =
xmlns:st1=3D"urn:schemas-microsoft-com:office:smarttags" =
xmlns=3D"http://www.w3.org/TR/REC-html40">

<head>
<META HTTP-EQUIV=3D"Content-Type" CONTENT=3D"text/html; =
charset=3Dus-ascii">
<meta name=3DGenerator content=3D"Microsoft Word 11 (filtered medium)">
<!--[if !mso]>
<style>
v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style>
<![endif]--><o:SmartTagType
 namespaceuri=3D"urn:schemas-microsoft-com:office:smarttags" =
name=3D"State"/>
<o:SmartTagType =
namespaceuri=3D"urn:schemas-microsoft-com:office:smarttags"
 name=3D"place"/>
<o:SmartTagType =
namespaceuri=3D"urn:schemas-microsoft-com:office:smarttags"
 name=3D"PersonName"/>
<!--[if !mso]>
<style>
st1\:*{behavior:url(#default#ieooui) }
</style>
<![endif]-->
<style>
<!--
 /* Font Definitions */
 @font-face
	{font-family:Tahoma;
	panose-1:2 11 6 4 3 5 4 4 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
	{margin:0cm;
	margin-bottom:.0001pt;
	font-size:12.0pt;
	font-family:"Times New Roman";}
a:link, span.MsoHyperlink
	{color:blue;
	text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
	{color:blue;
	text-decoration:underline;}
p
	{mso-margin-top-alt:auto;
	margin-right:0cm;
	mso-margin-bottom-alt:auto;
	margin-left:0cm;
	font-size:12.0pt;
	font-family:"Times New Roman";}
span.E-MailFormatvorlage18
	{mso-style-type:personal-reply;
	font-family:Arial;
	color:navy;}
@page Section1
	{size:595.3pt 841.9pt;
	margin:70.85pt 70.85pt 2.0cm 70.85pt;}
div.Section1
	{page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext=3D"edit" spidmax=3D"1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext=3D"edit">
  <o:idmap v:ext=3D"edit" data=3D"1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=3DDE link=3Dblue vlink=3Dblue>

<div class=3DSection1>

<p class=3DMsoNormal><font size=3D2 color=3Dnavy face=3DArial><span =
lang=3DEN-GB
style=3D'font-size:10.0pt;font-family:Arial;color:navy'>Yes, but on the =
other
hand it does not hurt to automaticall reset in the analyzer.... =
*<b><span
style=3D'font-weight:bold'>krr</span></b>* I do not know how to proceed. =
I think
we should keep it as it was since the beginning of Lucene (call to reset =
inside
analyzer, QP) and document it correctly. <o:p></o:p></span></font></p>

<p class=3DMsoNormal><font size=3D2 color=3Dnavy face=3DArial><span =
lang=3DEN-GB
style=3D'font-size:10.0pt;font-family:Arial;color:navy'><o:p>&nbsp;</o:p>=
</span></font></p>

<p class=3DMsoNormal><font size=3D2 color=3Dnavy face=3DArial><span =
lang=3DEN-GB
style=3D'font-size:10.0pt;font-family:Arial;color:navy'>You are right, =
at the
beginning, BaseTokenStreamTestCase and many other hardcoded tests did =
not call
reset. Now, the test also calls end() and =
close().<o:p></o:p></span></font></p>

<p class=3DMsoNormal><font size=3D2 color=3Dnavy face=3DArial><span =
lang=3DEN-GB
style=3D'font-size:10.0pt;font-family:Arial;color:navy'><o:p>&nbsp;</o:p>=
</span></font></p>

<div>

<p style=3D'margin-bottom:12.0pt'><font size=3D2 color=3Dnavy =
face=3D"Times New Roman"><span
lang=3DEN-GB style=3D'font-size:10.0pt;color:navy'>-----<br>
Uwe Schindler<br>
H.-H.-Meier-Allee 63, D-28213 <st1:State w:st=3D"on"><st1:place =
w:st=3D"on">Bremen</st1:place></st1:State><br>
</span></font><font size=3D2 color=3Dnavy><span =
style=3D'font-size:10.0pt;color:navy'><a
href=3D"http://www.thetaphi.de">http://www.thetaphi.de</a><br>
eMail: uwe@thetaphi.de</span></font><o:p></o:p></p>

</div>

<div style=3D'border:none;border-left:solid blue 1.5pt;padding:0cm 0cm =
0cm 4.0pt'>

<div>

<div class=3DMsoNormal align=3Dcenter style=3D'text-align:center'><font =
size=3D3
face=3D"Times New Roman"><span style=3D'font-size:12.0pt'>

<hr size=3D2 width=3D"100%" align=3Dcenter tabindex=3D-1>

</span></font></div>

<p class=3DMsoNormal><b><font size=3D2 face=3DTahoma><span =
style=3D'font-size:10.0pt;
font-family:Tahoma;font-weight:bold'>From:</span></font></b><font =
size=3D2
face=3DTahoma><span style=3D'font-size:10.0pt;font-family:Tahoma'> =
Robert Muir
[mailto:rcmuir@gmail.com] <br>
<b><span style=3D'font-weight:bold'>Sent:</span></b> Sunday, November =
15, 2009
6:40 PM<br>
<b><span style=3D'font-weight:bold'>To:</span></b> <st1:PersonName =
w:st=3D"on">java-dev@lucene.apache.org</st1:PersonName><br>
<b><span style=3D'font-weight:bold'>Subject:</span></b> Re: Bug in
StandardAnalyzer + StopAnalyzer?</span></font><o:p></o:p></p>

</div>

<p class=3DMsoNormal><font size=3D3 face=3D"Times New Roman"><span =
style=3D'font-size:
12.0pt'><o:p>&nbsp;</o:p></span></font></p>

<p class=3DMsoNormal style=3D'margin-bottom:12.0pt'><font size=3D3
face=3D"Times New Roman"><span style=3D'font-size:12.0pt'>ok, at one =
point i do not
think BaseTokenStreamTestCase did.<br>
<br>
if this is the case, then its the consumer's responsibility to call =
reset, and
we should remove extra resets() inside reusableTokenStream() from =
analyzers
that have it... and probably improve the docs of this =
contract.<o:p></o:p></span></font></p>

<div>

<p class=3DMsoNormal><font size=3D3 face=3D"Times New Roman"><span =
style=3D'font-size:
12.0pt'>On Sun, Nov 15, 2009 at 12:17 PM, Uwe Schindler &lt;<a
href=3D"mailto:uwe@thetaphi.de">uwe@thetaphi.de</a>&gt; =
wrote:<o:p></o:p></span></font></p>

<div link=3Dblue vlink=3Dblue>

<div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D2 color=3Dnavy face=3DArial><span lang=3DEN-GB =
style=3D'font-size:10.0pt;
font-family:Arial;color:navy'>Even QueryParser calls reset() as first =
call.
Also BaseTokenStreamTestCase does it.</span></font><o:p></o:p></p>

<div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D2 color=3Dnavy face=3DArial><span lang=3DEN-GB =
style=3D'font-size:10.0pt;
font-family:Arial;color:navy'>&nbsp;</span></font><o:p></o:p></p>

<div>

<p style=3D'margin-bottom:12.0pt'><font size=3D2 color=3Dnavy =
face=3D"Times New Roman"><span
style=3D'font-size:10.0pt;color:navy'>-----<br>
Uwe Schindler<br>
H.-H.-Meier-Allee 63, D-28213 Bremen<br>
<a href=3D"http://www.thetaphi.de" =
target=3D"_blank">http://www.thetaphi.de</a><br>
eMail: <a href=3D"mailto:uwe@thetaphi.de" =
target=3D"_blank">uwe@thetaphi.de</a></span></font><o:p></o:p></p>

</div>

</div>

<div style=3D'border:none;border-left:solid windowtext 1.5pt;padding:0cm =
0cm 0cm 4.0pt;
border-color:-moz-use-text-color -moz-use-text-color -moz-use-text-color =
blue'>

<div>

<div class=3DMsoNormal align=3Dcenter style=3D'text-align:center'><font =
size=3D3
face=3D"Times New Roman"><span style=3D'font-size:12.0pt'>

<hr size=3D2 width=3D"100%" align=3Dcenter>

</span></font></div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><b><font
size=3D2 face=3DTahoma><span =
style=3D'font-size:10.0pt;font-family:Tahoma;font-weight:
bold'>From:</span></font></b><font size=3D2 face=3DTahoma><span =
style=3D'font-size:
10.0pt;font-family:Tahoma'> Robert Muir [mailto:<a
href=3D"mailto:rcmuir@gmail.com" target=3D"_blank">rcmuir@gmail.com</a>] =
<br>
<b><span style=3D'font-weight:bold'>Sent:</span></b> Sunday, November =
15, 2009
6:14 PM<o:p></o:p></span></font></p>

<div>

<div>

<p class=3DMsoNormal><font size=3D2 face=3DTahoma><span =
style=3D'font-size:10.0pt;
font-family:Tahoma'><br>
<b><span style=3D'font-weight:bold'>To:</span></b> <a
href=3D"mailto:java-dev@lucene.apache.org" =
target=3D"_blank">java-dev@lucene.apache.org</a><br>
<b><span style=3D'font-weight:bold'>Subject:</span></b> Re: Bug in
StandardAnalyzer + StopAnalyzer?<o:p></o:p></span></font></p>

</div>

</div>

</div>

<div>

<div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D3 face=3D"Times New Roman"><span =
style=3D'font-size:12.0pt'>&nbsp;<o:p></o:p></span></font></p>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;margin-bottom:12.0pt'><font
size=3D3 face=3D"Times New Roman"><span style=3D'font-size:12.0pt'>Uwe, =
not so sure
it doesn't need to be there, what about other consumers such as =
QueryParser?<o:p></o:p></span></font></p>

<div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D3 face=3D"Times New Roman"><span style=3D'font-size:12.0pt'>On =
Sun, Nov 15,
2009 at 12:02 PM, Uwe Schindler &lt;<a href=3D"mailto:uwe@thetaphi.de"
target=3D"_blank">uwe@thetaphi.de</a>&gt; =
wrote:<o:p></o:p></span></font></p>

<div link=3Dblue vlink=3Dblue>

<div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D2 color=3Dnavy face=3DArial><span lang=3DEN-GB =
style=3D'font-size:10.0pt;
font-family:Arial;color:navy'>I checked again, reset() on the top filter =
does not
need to be there, as the indexer calls it automatically as the first =
call after
reusableTokenStream. For reusing only reset(Reader) must be called. =
It&#8217;s a
little bit strange that both methods have the same name, the =
reset(Reader) one
has a completely different meaning.</span></font><o:p></o:p></p>

<div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D2 color=3Dnavy face=3DArial><span lang=3DEN-GB =
style=3D'font-size:10.0pt;
font-family:Arial;color:navy'>&nbsp;</span></font><o:p></o:p></p>

<div>

<p style=3D'margin-bottom:12.0pt'><font size=3D2 color=3Dnavy =
face=3D"Times New Roman"><span
style=3D'font-size:10.0pt;color:navy'>-----<br>
Uwe Schindler<br>
H.-H.-Meier-Allee 63, D-28213 Bremen<br>
<a href=3D"http://www.thetaphi.de" =
target=3D"_blank">http://www.thetaphi.de</a><br>
eMail: <a href=3D"mailto:uwe@thetaphi.de" =
target=3D"_blank">uwe@thetaphi.de</a></span></font><o:p></o:p></p>

</div>

</div>

<div style=3D'border:none;border-left:solid windowtext 1.5pt;padding:0cm =
0cm 0cm 4.0pt;
border-color:-moz-use-text-color -moz-use-text-color -moz-use-text-color =
blue'>

<div>

<div class=3DMsoNormal align=3Dcenter style=3D'text-align:center'><font =
size=3D3
face=3D"Times New Roman"><span style=3D'font-size:12.0pt'>

<hr size=3D2 width=3D"100%" align=3Dcenter>

</span></font></div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><b><font
size=3D2 face=3DTahoma><span =
style=3D'font-size:10.0pt;font-family:Tahoma;font-weight:
bold'>From:</span></font></b><font size=3D2 face=3DTahoma><span =
style=3D'font-size:
10.0pt;font-family:Tahoma'> Uwe Schindler [mailto:<a
href=3D"mailto:uwe@thetaphi.de" target=3D"_blank">uwe@thetaphi.de</a>] =
<br>
<b><span style=3D'font-weight:bold'>Sent:</span></b> Sunday, November =
15, 2009
5:56 PM</span></font><o:p></o:p></p>

<div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D2 face=3DTahoma><span =
style=3D'font-size:10.0pt;font-family:Tahoma'><br>
<b><span style=3D'font-weight:bold'>To:</span></b> <a
href=3D"mailto:java-dev@lucene.apache.org" =
target=3D"_blank">java-dev@lucene.apache.org</a></span></font><o:p></o:p>=
</p>

</div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><b><font
size=3D2 face=3DTahoma><span =
style=3D'font-size:10.0pt;font-family:Tahoma;font-weight:
bold'>Subject:</span></font></b><font size=3D2 face=3DTahoma><span
style=3D'font-size:10.0pt;font-family:Tahoma'> RE: Bug in =
StandardAnalyzer +
StopAnalyzer?</span></font><o:p></o:p></p>

</div>

<div>

<div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D3 face=3D"Times New Roman"><span =
style=3D'font-size:12.0pt'>&nbsp;<o:p></o:p></span></font></p>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D2 color=3Dnavy face=3DArial><span lang=3DEN-GB =
style=3D'font-size:10.0pt;
font-family:Arial;color:navy'>It should be there... But ist =
unimplemented in
the TokenFilters used by Standard/Stop Analyzer. Buf for consistency it =
should
be there. I&#8217;ll talk with Robert Muir about =
it.</span></font><o:p></o:p></p>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D2 color=3Dnavy face=3DArial><span lang=3DEN-GB =
style=3D'font-size:10.0pt;
font-family:Arial;color:navy'>&nbsp;</span></font><o:p></o:p></p>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D2 color=3Dnavy face=3DArial><span lang=3DEN-GB =
style=3D'font-size:10.0pt;
font-family:Arial;color:navy'>Uwe</span></font><o:p></o:p></p>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D2 color=3Dnavy face=3DArial><span lang=3DEN-GB =
style=3D'font-size:10.0pt;
font-family:Arial;color:navy'>&nbsp;</span></font><o:p></o:p></p>

<div>

<p style=3D'margin-bottom:12.0pt'><font size=3D2 color=3Dnavy =
face=3D"Times New Roman"><span
lang=3DEN-GB style=3D'font-size:10.0pt;color:navy'>-----<br>
Uwe Schindler<br>
H.-H.-Meier-Allee 63, D-28213 <st1:State w:st=3D"on"><st1:place =
w:st=3D"on">Bremen</st1:place></st1:State><br>
</span></font><font size=3D2 color=3Dnavy><span =
style=3D'font-size:10.0pt;color:navy'><a
href=3D"http://www.thetaphi.de" target=3D"_blank"><span =
lang=3DEN-GB>http://www.thetaphi.de</span></a></span></font><font
size=3D2 color=3Dnavy><span lang=3DEN-GB =
style=3D'font-size:10.0pt;color:navy'><br>
eMail: <a href=3D"mailto:uwe@thetaphi.de" =
target=3D"_blank">uwe@thetaphi.de</a></span></font><o:p></o:p></p>

</div>

<div style=3D'border:none;border-left:solid windowtext 1.5pt;padding:0cm =
0cm 0cm 4.0pt;
border-color:-moz-use-text-color -moz-use-text-color -moz-use-text-color =
blue'>

<div>

<div class=3DMsoNormal align=3Dcenter style=3D'text-align:center'><font =
size=3D3
face=3D"Times New Roman"><span style=3D'font-size:12.0pt'>

<hr size=3D2 width=3D"100%" align=3Dcenter>

</span></font></div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><b><font
size=3D2 face=3DTahoma><span =
style=3D'font-size:10.0pt;font-family:Tahoma;font-weight:
bold'>From:</span></font></b><font size=3D2 face=3DTahoma><span =
style=3D'font-size:
10.0pt;font-family:Tahoma'> Eran Sevi [mailto:<a
href=3D"mailto:eransevi@gmail.com" =
target=3D"_blank">eransevi@gmail.com</a>] <br>
<b><span style=3D'font-weight:bold'>Sent:</span></b> Sunday, November =
15, 2009
5:51 PM<br>
<b><span style=3D'font-weight:bold'>To:</span></b> <a
href=3D"mailto:java-dev@lucene.apache.org" =
target=3D"_blank">java-dev@lucene.apache.org</a><br>
<b><span style=3D'font-weight:bold'>Subject:</span></b> Re: Bug in
StandardAnalyzer + StopAnalyzer?</span></font><o:p></o:p></p>

</div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D3 face=3D"Times New Roman"><span =
style=3D'font-size:12.0pt'>&nbsp;<o:p></o:p></span></font></p>

<div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;margin-bottom:12.0pt'><font
size=3D3 face=3D"Times New Roman"><span style=3D'font-size:12.0pt'>Good =
point. I
missed that part :) since only the tokenizer uses the reader, we must =
call it
directly.<br>
<br>
So the reset() on the filteredTokenStream was omitted on purpose because
there's not underlying implementation? or is it really =
missing?<o:p></o:p></span></font></p>

<div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D3 face=3D"Times New Roman"><span style=3D'font-size:12.0pt'>On =
Sun, Nov 15,
2009 at 6:30 PM, Uwe Schindler &lt;<a href=3D"mailto:uwe@thetaphi.de"
target=3D"_blank">uwe@thetaphi.de</a>&gt; =
wrote:<o:p></o:p></span></font></p>

<div link=3Dblue vlink=3Dpurple>

<div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D2 color=3Dnavy face=3DArial><span lang=3DEN-GB =
style=3D'font-size:10.0pt;
font-family:Arial;color:navy'>It must call both reset on the top-level
TokenStream and reset(Reader) on the Tokenizer-. If the latter is not =
done, how
should the TokenStream get his new Reader?</span></font><o:p></o:p></p>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D2 color=3Dnavy face=3DArial><span lang=3DEN-GB =
style=3D'font-size:10.0pt;
font-family:Arial;color:navy'>&nbsp;</span></font><o:p></o:p></p>

<div>

<p style=3D'margin-bottom:12.0pt'><font size=3D2 color=3Dnavy =
face=3D"Times New Roman"><span
style=3D'font-size:10.0pt;color:navy'>-----<br>
Uwe Schindler<br>
H.-H.-Meier-Allee 63, D-28213 Bremen<br>
<a href=3D"http://www.thetaphi.de" =
target=3D"_blank">http://www.thetaphi.de</a><br>
eMail: <a href=3D"mailto:uwe@thetaphi.de" =
target=3D"_blank">uwe@thetaphi.de</a></span></font><o:p></o:p></p>

</div>

<div style=3D'border:none;border-left:solid windowtext 1.5pt;padding:0cm =
0cm 0cm 4.0pt;
border-color:-moz-use-text-color -moz-use-text-color -moz-use-text-color =
blue'>

<div>

<div class=3DMsoNormal align=3Dcenter style=3D'text-align:center'><font =
size=3D3
face=3D"Times New Roman"><span style=3D'font-size:12.0pt'>

<hr size=3D2 width=3D"100%" align=3Dcenter>

</span></font></div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><b><font
size=3D2 face=3DTahoma><span =
style=3D'font-size:10.0pt;font-family:Tahoma;font-weight:
bold'>From:</span></font></b><font size=3D2 face=3DTahoma><span =
style=3D'font-size:
10.0pt;font-family:Tahoma'> Eran Sevi [mailto:<a
href=3D"mailto:eransevi@gmail.com" =
target=3D"_blank">eransevi@gmail.com</a>] <br>
<b><span style=3D'font-weight:bold'>Sent:</span></b> Sunday, November =
15, 2009
5:19 PM<br>
<b><span style=3D'font-weight:bold'>To:</span></b> <a
href=3D"mailto:java-dev@lucene.apache.org" =
target=3D"_blank">java-dev@lucene.apache.org</a><br>
<b><span style=3D'font-weight:bold'>Subject:</span></b> Bug in =
StandardAnalyzer +
StopAnalyzer?</span></font><o:p></o:p></p>

</div>

<div>

<div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D3 face=3D"Times New Roman"><span =
style=3D'font-size:12.0pt'>&nbsp;<o:p></o:p></span></font></p>

<div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D3 face=3D"Times New Roman"><span =
style=3D'font-size:12.0pt'>Hi,<br>
when changing my code to support the not-so-new reusableTokenStream I =
noticed
that in the cases when a SavedStream class was used in an analyzer
(Standard,Stop and maybe others as well) the reset() method is called on =
the
tokenizer instead of on the filter. <br>
<br>
The filter implementation of reset() calls the inner filters+input =
reset()
methods, but the tokenizer reset() method can't do that.<br>
I think this bug hasn't caused any errors so far since none of the =
filters used
in the analyzers overrides the reset() method, but it might cause =
problems if
the implementation changes in the future.<br>
<br>
the fix is very simple. for example (in StandardAnalyzer):<br>
<br>
if (streams =3D=3D null) {<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; streams =3D new SavedStreams();<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; setPreviousTokenStream(streams);<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; streams.tokenStream =3D new
StandardTokenizer(matchVersion, reader);<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; streams.filteredTokenStream =3D new
StandardFilter(streams.tokenStream);<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; streams.filteredTokenStream =3D new
LowerCaseFilter(streams.filteredTokenStream);<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; streams.filteredTokenStream =3D new
StopFilter(StopFilter.getEnablePositionIncrementsVersionDefault(matchVers=
ion),<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&=
nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&n=
bsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nb=
sp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p;&nbsp;
streams.filteredTokenStream, stopSet);<br>
&nbsp;&nbsp;&nbsp; } else {<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; streams.tokenStream.reset(reader);<br>
&nbsp;&nbsp;&nbsp; }<br>
<br>
should become:<br>
<br>
if (streams =3D=3D null) {<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; streams =3D new SavedStreams();<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; setPreviousTokenStream(streams);<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; streams.tokenStream =3D new
StandardTokenizer(matchVersion, reader);<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; streams.filteredTokenStream =3D new
StandardFilter(streams.tokenStream);<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; streams.filteredTokenStream =3D new
LowerCaseFilter(streams.filteredTokenStream);<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; streams.filteredTokenStream =3D new
StopFilter(StopFilter.getEnablePositionIncrementsVersionDefault(matchVers=
ion),<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&=
nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&n=
bsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nb=
sp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p;&nbsp;
streams.filteredTokenStream, stopSet);<br>
&nbsp;&nbsp;&nbsp; } else {<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; streams.filteredTokenStream.reset(); // =
changed
line.<br>
&nbsp;&nbsp;&nbsp; }<br>
<br>
<br>
What do you think?<br>
<br>
Eran.<o:p></o:p></span></font></p>

</div>

</div>

</div>

</div>

</div>

</div>

</div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D3 face=3D"Times New Roman"><span =
style=3D'font-size:12.0pt'>&nbsp;<o:p></o:p></span></font></p>

</div>

</div>

</div>

</div>

</div>

</div>

</div>

</div>

<p class=3DMsoNormal =
style=3D'mso-margin-top-alt:auto;mso-margin-bottom-alt:auto'><font
size=3D3 face=3D"Times New Roman"><span style=3D'font-size:12.0pt'><br>
<br clear=3Dall>
<br>
-- <br>
Robert Muir<br>
<a href=3D"mailto:rcmuir@gmail.com" =
target=3D"_blank">rcmuir@gmail.com</a><o:p></o:p></span></font></p>

</div>

</div>

</div>

</div>

</div>

</div>

<p class=3DMsoNormal><font size=3D3 face=3D"Times New Roman"><span =
style=3D'font-size:
12.0pt'><br>
<br clear=3Dall>
<br>
-- <br>
Robert Muir<br>
<a =
href=3D"mailto:rcmuir@gmail.com">rcmuir@gmail.com</a><o:p></o:p></span></=
font></p>

</div>

</div>

</body>

</html>

------=_NextPart_000_0031_01CA6623.DAB4C910--