Mailing-List: contact user-help@cassandra.apache.org; run by ezmlm
Precedence: bulk
Reply-To: user@cassandra.apache.org
Received-SPF: pass (athena.apache.org: domain of sylvain@datastax.com
 designates 209.85.160.172 as permitted sender)
MIME-Version: 1.0
In-Reply-To: <4D7659FD.8030806@hiramoto.org>
References: <4D761457.8030003@hiramoto.org>
	<AANLkTi=dacEfOO71DwK5kYPJLRMk26ufbvYVmSzh8mMF@mail.gmail.com>
	<4D7659FD.8030806@hiramoto.org>
Date: Tue, 8 Mar 2011 21:45:43 +0100
Message-ID: <AANLkTinmKtekYc0Bx1guDCzcksZx50J7KcTqm5_cMpJj@mail.gmail.com>
Subject: Re: 0.7.3 nodetool scrub exceptions
From: Sylvain Lebresne <sylvain@datastax.com>
To: user@cassandra.apache.org
Cc: Karl Hiramoto <karl@hiramoto.org>
Content-Type: multipart/alternative; boundary=000e0cd5734a33c354049dfeb2a4

--000e0cd5734a33c354049dfeb2a4
Content-Type: text/plain; charset=ISO-8859-1

Did you run scrub as soon as you updated to 0.7.3 ?

And did you had problems/exceptions before running scrub ?
If yes, did you had problems with only 0.7.3 or also with 0.7.2 ?

If the problems started with running scrub, since it takes a snapshot
before running, can you try restarting a test cluster with this snapshot
and see if a simple compaction work for instance.

--
Sylvain


On Tue, Mar 8, 2011 at 5:31 PM, Karl Hiramoto <karl@hiramoto.org> wrote:

> On 08/03/2011 17:09, Jonathan Ellis wrote:
>
>> No.
>>
>> What is the history of your cluster?
>>
> It started out as 0.7.0 - RC3     And I've upgraded 0.7.0, 0.7.1, 0.7.2,
> 0.7.3  within a few days after each was released.
>
> I have 6 nodes about 10GB of data each RF=2.   Only one CF every
> row/column has a TTL of 24 hours.
> I do a staggered  repair/compact/cleanup across every node in a cronjob.
>
>
> After upgrading to 0.7.3  I had a lot of nodes crashing due to OOM.     I
> reduced the key cache from the default 200000 to 1000 and increased the heap
> size from 8GB to 12GB and the OOM crashes went away.
>
>
> Anyway to fix this without throwing away all the data?
>
> Since i only keep data 24 hours,  I could insert into two CF for the next
> 24 hours than after only valid data in new CF remove the old CF.
>
>
>
>
>  On Tue, Mar 8, 2011 at 5:34 AM, Karl Hiramoto<karl@hiramoto.org>  wrote:
>>
>>> I have 1000's of these in the log  is this normal?
>>>
>>> java.io.IOError: java.io.EOFException: bloom filter claims to be longer
>>> than
>>> entire row size
>>>        at
>>>
>>> org.apache.cassandra.io.sstable.SSTableIdentityIterator.<init>(SSTableIdentityIterator.java:117)
>>>        at
>>>
>>> org.apache.cassandra.db.CompactionManager.doScrub(CompactionManager.java:590)
>>>        at
>>>
>>> org.apache.cassandra.db.CompactionManager.access$600(CompactionManager.java:56)
>>>        at
>>>
>>> org.apache.cassandra.db.CompactionManager$3.call(CompactionManager.java:195)
>>>        at
>>> java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:334)
>>>        at java.util.concurrent.FutureTask.run(FutureTask.java:166)
>>>        at
>>>
>>> java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)
>>>        at
>>>
>>> java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)
>>>        at java.lang.Thread.run(Thread.java:636)
>>> Caused by: java.io.EOFException: bloom filter claims to be longer than
>>> entire row size
>>>        at
>>>
>>> org.apache.cassandra.io.sstable.IndexHelper.defreezeBloomFilter(IndexHelper.java:113)
>>>        at
>>>
>>> org.apache.cassandra.io.sstable.SSTableIdentityIterator.<init>(SSTableIdentityIterator.java:87)
>>>        ... 8 more
>>>  WARN [CompactionExecutor:1] 2011-03-08 11:32:35,615
>>> CompactionManager.java
>>> (line 625) Row is unreadable; skipping to next
>>>  WARN [CompactionExecutor:1] 2011-03-08 11:32:35,615
>>> CompactionManager.java
>>> (line 599) Non-fatal error reading row (stacktrace follows)
>>> java.io.IOError: java.io.EOFException: bloom filter claims to be longer
>>> than
>>> entire row size
>>>        at
>>>
>>> org.apache.cassandra.io.sstable.SSTableIdentityIterator.<init>(SSTableIdentityIterator.java:117)
>>>        at
>>>
>>> org.apache.cassandra.db.CompactionManager.doScrub(CompactionManager.java:590)
>>>        at
>>>
>>> org.apache.cassandra.db.CompactionManager.access$600(CompactionManager.java:56)
>>>        at
>>>
>>> org.apache.cassandra.db.CompactionManager$3.call(CompactionManager.java:195)
>>>        at
>>> java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:334)
>>>        at java.util.concurrent.FutureTask.run(FutureTask.java:166)
>>>        at
>>>
>>> java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)
>>>        at
>>>
>>> java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)
>>>        at java.lang.Thread.run(Thread.java:636)
>>> Caused by: java.io.EOFException: bloom filter claims to be longer than
>>> entire row size
>>>        at
>>>
>>> org.apache.cassandra.io.sstable.IndexHelper.defreezeBloomFilter(IndexHelper.java:113)
>>>        at
>>>
>>> org.apache.cassandra.io.sstable.SSTableIdentityIterator.<init>(SSTableIdentityIterator.java:87)
>>>        ... 8 more
>>>  WARN [CompactionExecutor:1] 2011-03-08 11:32:35,615
>>> CompactionManager.java
>>> (line 625) Row is unreadable; skipping to next
>>>  WARN [CompactionExecutor:1] 2011-03-08 11:32:35,615
>>> CompactionManager.java
>>> (line 599) Non-fatal error reading row (stacktrace follows)
>>> java.io.IOError: java.io.EOFException: bloom filter claims to be longer
>>> than
>>> entire row size
>>>        at
>>>
>>> org.apache.cassandra.io.sstable.SSTableIdentityIterator.<init>(SSTableIdentityIterator.java:117)
>>>        at
>>>
>>> org.apache.cassandra.db.CompactionManager.doScrub(CompactionManager.java:590)
>>>        at
>>>
>>> org.apache.cassandra.db.CompactionManager.access$600(CompactionManager.java:56)
>>>        at
>>>
>>> org.apache.cassandra.db.CompactionManager$3.call(CompactionManager.java:195)
>>>        at
>>> java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:334)
>>>        at java.util.concurrent.FutureTask.run(FutureTask.java:166)
>>>        at
>>>
>>> java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)
>>>        at
>>>
>>> java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)
>>>        at java.lang.Thread.run(Thread.java:636)
>>> Caused by: java.io.EOFException: bloom filter claims to be longer than
>>> entire row size
>>>        at
>>>
>>> org.apache.cassandra.io.sstable.IndexHelper.defreezeBloomFilter(IndexHelper.java:113)
>>>        at org.apa
>>>
>>>
>>
>>
>

--000e0cd5734a33c354049dfeb2a4
Content-Type: text/html; charset=ISO-8859-1
Content-Transfer-Encoding: quoted-printable

Did you run scrub as soon as you updated to 0.7.3 ?<div><br></div><div>And =
did you had problems/exceptions before running scrub ?</div><div><div>If ye=
s, did you had problems with only 0.7.3 or also with 0.7.2 ?</div><div><br>
</div><div>If the problems started with running scrub, since it takes a sna=
pshot</div><div>before running, can you try restarting a test cluster with =
this snapshot</div><div>and see if a simple compaction work for instance.</=
div>
<div><br></div><div>--</div><div>Sylvain</div><div><br></div><div><div><br>=
<div><div class=3D"gmail_quote">On Tue, Mar 8, 2011 at 5:31 PM, Karl Hiramo=
to <span dir=3D"ltr">&lt;<a href=3D"mailto:karl@hiramoto.org">karl@hiramoto=
.org</a>&gt;</span> wrote:<br>
<blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1p=
x #ccc solid;padding-left:1ex;"><div class=3D"im">On 08/03/2011 17:09, Jona=
than Ellis wrote:<br>
<blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1p=
x #ccc solid;padding-left:1ex">
No.<br>
<br>
What is the history of your cluster?<br>
</blockquote></div>
It started out as 0.7.0 - RC3 =A0 =A0 And I&#39;ve upgraded 0.7.0, 0.7.1, 0=
.7.2, 0.7.3 =A0within a few days after each was released.<br>
<br>
I have 6 nodes about 10GB of data each RF=3D2. =A0 Only one CF every =A0 ro=
w/column has a TTL of 24 hours.<br>
I do a staggered =A0repair/compact/cleanup across every node in a cronjob.<=
br>
<br>
<br>
After upgrading to 0.7.3 =A0I had a lot of nodes crashing due to OOM. =A0 =
=A0 I reduced the key cache from the default 200000 to 1000 and increased t=
he heap size from 8GB to 12GB and the OOM crashes went away.<br>
<br>
<br>
Anyway to fix this without throwing away all the data?<br>
<br>
Since i only keep data 24 hours, =A0I could insert into two CF for the next=
 24 hours than after only valid data in new CF remove the old CF.<div><div>=
</div><div class=3D"h5"><br>
<br>
<br>
<br>
<blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1p=
x #ccc solid;padding-left:1ex">
On Tue, Mar 8, 2011 at 5:34 AM, Karl Hiramoto&lt;<a href=3D"mailto:karl@hir=
amoto.org" target=3D"_blank">karl@hiramoto.org</a>&gt; =A0wrote:<br>
<blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1p=
x #ccc solid;padding-left:1ex">
I have 1000&#39;s of these in the log =A0is this normal?<br>
<br>
java.io.IOError: java.io.EOFException: bloom filter claims to be longer tha=
n<br>
entire row size<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.io.sstable.SSTableIdentityIterator.&lt;init&gt;(SSTabl=
eIdentityIterator.java:117)<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.db.CompactionManager.doScrub(CompactionManager.java:59=
0)<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.db.CompactionManager.access$600(CompactionManager.java=
:56)<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.db.CompactionManager$3.call(CompactionManager.java:195=
)<br>
 =A0 =A0 =A0 =A0at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask=
.java:334)<br>
 =A0 =A0 =A0 =A0at java.util.concurrent.FutureTask.run(FutureTask.java:166)=
<br>
 =A0 =A0 =A0 =A0at<br>
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1=
110)<br>
 =A0 =A0 =A0 =A0at<br>
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:=
603)<br>
 =A0 =A0 =A0 =A0at java.lang.Thread.run(Thread.java:636)<br>
Caused by: java.io.EOFException: bloom filter claims to be longer than<br>
entire row size<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.io.sstable.IndexHelper.defreezeBloomFilter(IndexHelper=
.java:113)<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.io.sstable.SSTableIdentityIterator.&lt;init&gt;(SSTabl=
eIdentityIterator.java:87)<br>
 =A0 =A0 =A0 =A0... 8 more<br>
 =A0WARN [CompactionExecutor:1] 2011-03-08 11:32:35,615 CompactionManager.j=
ava<br>
(line 625) Row is unreadable; skipping to next<br>
 =A0WARN [CompactionExecutor:1] 2011-03-08 11:32:35,615 CompactionManager.j=
ava<br>
(line 599) Non-fatal error reading row (stacktrace follows)<br>
java.io.IOError: java.io.EOFException: bloom filter claims to be longer tha=
n<br>
entire row size<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.io.sstable.SSTableIdentityIterator.&lt;init&gt;(SSTabl=
eIdentityIterator.java:117)<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.db.CompactionManager.doScrub(CompactionManager.java:59=
0)<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.db.CompactionManager.access$600(CompactionManager.java=
:56)<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.db.CompactionManager$3.call(CompactionManager.java:195=
)<br>
 =A0 =A0 =A0 =A0at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask=
.java:334)<br>
 =A0 =A0 =A0 =A0at java.util.concurrent.FutureTask.run(FutureTask.java:166)=
<br>
 =A0 =A0 =A0 =A0at<br>
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1=
110)<br>
 =A0 =A0 =A0 =A0at<br>
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:=
603)<br>
 =A0 =A0 =A0 =A0at java.lang.Thread.run(Thread.java:636)<br>
Caused by: java.io.EOFException: bloom filter claims to be longer than<br>
entire row size<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.io.sstable.IndexHelper.defreezeBloomFilter(IndexHelper=
.java:113)<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.io.sstable.SSTableIdentityIterator.&lt;init&gt;(SSTabl=
eIdentityIterator.java:87)<br>
 =A0 =A0 =A0 =A0... 8 more<br>
 =A0WARN [CompactionExecutor:1] 2011-03-08 11:32:35,615 CompactionManager.j=
ava<br>
(line 625) Row is unreadable; skipping to next<br>
 =A0WARN [CompactionExecutor:1] 2011-03-08 11:32:35,615 CompactionManager.j=
ava<br>
(line 599) Non-fatal error reading row (stacktrace follows)<br>
java.io.IOError: java.io.EOFException: bloom filter claims to be longer tha=
n<br>
entire row size<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.io.sstable.SSTableIdentityIterator.&lt;init&gt;(SSTabl=
eIdentityIterator.java:117)<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.db.CompactionManager.doScrub(CompactionManager.java:59=
0)<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.db.CompactionManager.access$600(CompactionManager.java=
:56)<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.db.CompactionManager$3.call(CompactionManager.java:195=
)<br>
 =A0 =A0 =A0 =A0at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask=
.java:334)<br>
 =A0 =A0 =A0 =A0at java.util.concurrent.FutureTask.run(FutureTask.java:166)=
<br>
 =A0 =A0 =A0 =A0at<br>
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1=
110)<br>
 =A0 =A0 =A0 =A0at<br>
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:=
603)<br>
 =A0 =A0 =A0 =A0at java.lang.Thread.run(Thread.java:636)<br>
Caused by: java.io.EOFException: bloom filter claims to be longer than<br>
entire row size<br>
 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.io.sstable.IndexHelper.defreezeBloomFilter(IndexHelper=
.java:113)<br>
 =A0 =A0 =A0 =A0at org.apa<br>
<br>
</blockquote>
<br>
<br>
</blockquote>
<br>
</div></div></blockquote></div><br></div></div></div></div>

--000e0cd5734a33c354049dfeb2a4--