Mailing-List: contact user-help@cassandra.apache.org; run by ezmlm
Precedence: bulk
Reply-To: user@cassandra.apache.org
Received-SPF: neutral (nike.apache.org: local policy)
MIME-Version: 1.0
In-Reply-To: <2ef6ae54-043b-e3e8-9c39-805f409c101f@me.com>
References: <AANLkTi=QiFjWqNd8C=gA5W9_aZY1cRdpinhmsNmX+vhZ@mail.gmail.com>
	<2ef6ae54-043b-e3e8-9c39-805f409c101f@me.com>
Date: Wed, 20 Oct 2010 23:53:48 -0600
Message-ID: <AANLkTimFNt7X1FtDnwHkWQ=-xCN4naa7Zygs=OpvdU78@mail.gmail.com>
Subject: Re: Cassandra crashed - possible JMX threads leak
From: Frank LoVecchio <frank@isidorey.com>
To: user@cassandra.apache.org
Content-Type: multipart/alternative; boundary=0016363108ed51d02304931a2667

--0016363108ed51d02304931a2667
Content-Type: text/plain; charset=ISO-8859-1

Ah, missed that.

Thanks Aaron.

On Wed, Oct 20, 2010 at 11:49 PM, Aaron Morton <aaron@thelastpickle.com>wrote:

> Sounds like the problem discussed here
> http://wiki.apache.org/cassandra/Operations?highlight=(allocate)|(memory)<http://wiki.apache.org/cassandra/Operations?highlight=(allocate)%7C(memory)>
>
>
> <http://wiki.apache.org/cassandra/Operations?highlight=(allocate)%7C(memory)>If
> you have the JNA jar it should work
> http://www.mail-archive.com/user@cassandra.apache.org/msg06284.html
> <http://www.mail-archive.com/user@cassandra.apache.org/msg06284.html>
> http://www.riptano.com/blog/whats-new-cassandra-065
>
> <http://www.riptano.com/blog/whats-new-cassandra-065>Aaron
>
>
> On 21 Oct, 2010,at 06:29 PM, Frank LoVecchio <frank@isidorey.com> wrote:
>
> I have a cluster of 3 0.7 beta 2 nodes (built today from the latest trunk)
> running on Large, EBS-backed, x64 EC2 instances; RF=3.  I attempted to write
> somewhere near 500,000 records every 15 minutes from a total of 5 different
> computers (using Pelops and multi-threading).   Though my network blew up
> and I'm not quite sure how many records were inserted, I lost a node a
> couple hours later, and the other 2 were at severely high memory useage.  Is
> this a memory leak of some kind, or something I can configure / watch for in
> the future?
>
> A nodetool does this:
>
> [ec2-user@XXX bin]$ ./nodetool -h localhost ring
> Address  Status State   Load         Token
>
>                                                     XXX
> ipXXX   Down   Normal  564.76 MB       XXX
> ipXXX   Up       Normal  564.83 MB       XXX
> ipXXX   Up       Normal  563.06 MB       XXX
>
> A top on the box that is down shows this: (dual core x64)
>
> Cpu(s): 19.9%us,  5.9%sy,  0.0%ni,  8.8%id, 57.3%wa,  0.0%hi,  0.0%si,
>  8.1%st
> Mem:   7651528k total,  7611112k used,    40416k free,    66056k buffers
> Swap:        0k total,        0k used,        0k free,  3294076k cached
>
> PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
>
> 22514 root      20   0 5790m 4.0g 167m S    91.9        54.8 152:45.08 java
>
>
> I see this error in the log file:
>
> ERROR [CompactionExecutor:1] 2010-10-21 01:35:05,318
> AbstractCassandraDaemon.java (line 88) Fatal exception in thread
> Thread[CompactionExecutor:1,1,main]
> java.io.IOError: java.io.IOException: Cannot run program "ln":
> java.io.IOException: error=12, Cannot allocate memory
> at
> org.apache.cassandra.db.ColumnFamilyStore.snapshot(ColumnFamilyStore.java:1368)
>  at org.apache.cassandra.db.Table.snapshot(Table.java:163)
> at
> org.apache.cassandra.db.CompactionManager.doCompaction(CompactionManager.java:232)
>  at
> org.apache.cassandra.db.CompactionManager$1.call(CompactionManager.java:106)
> at
> org.apache.cassandra.db.CompactionManager$1.call(CompactionManager.java:84)
>  at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:334)
> at java.util.concurrent.FutureTask.run(FutureTask.java:166)
>  at
> java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)
> at
> java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)
>  at java.lang.Thread.run(Thread.java:636)
> Caused by: java.io.IOException: Cannot run program "ln":
> java.io.IOException: error=12, Cannot allocate memory
>  at java.lang.ProcessBuilder.start(ProcessBuilder.java:475)
> at
> org.apache.cassandra.io.util.FileUtils.createHardLinkWithExec(FileUtils.java:263)
>  at
> org.apache.cassandra.io.util.FileUtils.createHardLink(FileUtils.java:229)
> at
> org.apache.cassandra.db.ColumnFamilyStore.snapshot(ColumnFamilyStore.java:1360)
>  ... 9 more
> Caused by: java.io.IOException: java.io.IOException: error=12, Cannot
> allocate memory
> at java.lang.UNIXProcess.<init>(UNIXProcess.java:164)
>  at java.lang.ProcessImpl.start(ProcessImpl.java:81)
> at java.lang.ProcessBuilder.start(ProcessBuilder.java:468)
>  ... 12 more
>
>
> On Wed, Oct 20, 2010 at 3:16 PM, Jonathan Ellis <jbellis@gmail.com> wrote:
>
>> can you reproduce this by, say, running nodeprobe ring in a bash while
>> loop?
>>
>>
>> On Wed, Oct 20, 2010 at 3:09 PM, Bill Au <bill.w.au@gmail.com> wrote:
>> > One of my Cassandra server crashed with the following:
>> >
>> > ERROR [ACCEPT-xxx.xxx.xxx/nnn.nnnnnn.nnn] 2010-10-19 00:25:10,419
>>
>> > CassandraDaemon.java (line 82) Uncaught exception in thread
>> > Thread[ACCEPT-xxx.xxx.xxx/nnn.nnn.nnn.nnn,5,main]
>> > java.lang.OutOfMemoryError: unable to create new native thread
>> >         at java.lang.Thread.start0(Native Method)
>> >         at java.lang.Thread.start(Thread.java:597)
>> >         at
>> >
>> org.apache.cassandra.net.MessagingService$SocketThread.run(MessagingService.java:533)
>> >
>> >
>> > I took threads dump in the JVM on all the other Cassandra severs in my
>> > cluster.  They all have thousand of threads looking like this:
>> >
>> > "JMX server connection timeout 183373" daemon prio=10
>> tid=0x00002aad230db800
>> > nid=0x5cf6 in Object.wait() [0x00002aad7a316000]
>> >    java.lang.Thread.State: TIMED_WAITING (on object monitor)
>> >         at java.lang.Object.wait(Native Method)
>> >         at
>> >
>> com.sunjmx.remote.internal.ServerCommunicatorAdmin$Timeout.run(ServerCommunicatorAdmin.java:150)
>>
>> >         - locked <0x00002aab056ccee0> (a [I)
>> >         at java.lang.Thread.run(Thread.java:619)
>> >
>> > It seems to me that there is a JMX threads leak in Cassandra.  NodeProbe
>> > creates a JMXConnector but never calls its close() method.  I tried
>> setting
>> > jmx.remote.x.server.connection.timeout to 0 hoping that would disable
>> the
>> > JMX server connection timeout threads.  But that did not make any
>> > difference.
>> >
>> > Has anyone else seen this?
>> >
>> > Bill
>> >
>>
>>
>>
>> --
>> Jonathan Ellis
>> Project Chair, Apache Cassandra
>> co-founder of Riptano, the source for professional Cassandra support
>> http://riptano.com
>>
>
>

--0016363108ed51d02304931a2667
Content-Type: text/html; charset=ISO-8859-1
Content-Transfer-Encoding: quoted-printable

Ah, missed that.<div><br></div><div>Thanks Aaron.<br><br><div class=3D"gmai=
l_quote">On Wed, Oct 20, 2010 at 11:49 PM, Aaron Morton <span dir=3D"ltr">&=
lt;<a href=3D"mailto:aaron@thelastpickle.com">aaron@thelastpickle.com</a>&g=
t;</span> wrote:<br>
<blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1p=
x #ccc solid;padding-left:1ex;"><div><div>Sounds like the problem discussed=
 here=A0<a href=3D"http://wiki.apache.org/cassandra/Operations?highlight=3D=
(allocate)%7C(memory)" target=3D"_blank">http://wiki.apache.org/cassandra/O=
perations?highlight=3D(allocate)|(memory)</a></div>
<div><br></div><div><a href=3D"http://wiki.apache.org/cassandra/Operations?=
highlight=3D(allocate)%7C(memory)" target=3D"_blank"></a>If you have the JN=
A jar it should work=A0</div><div><a href=3D"http://www.mail-archive.com/us=
er@cassandra.apache.org/msg06284.html" target=3D"_blank">http://www.mail-ar=
chive.com/user@cassandra.apache.org/msg06284.html</a></div>
<div><a href=3D"http://www.mail-archive.com/user@cassandra.apache.org/msg06=
284.html" target=3D"_blank"></a><a href=3D"http://www.riptano.com/blog/what=
s-new-cassandra-065" target=3D"_blank">http://www.riptano.com/blog/whats-ne=
w-cassandra-065</a></div>
<div><br></div><div><a href=3D"http://www.riptano.com/blog/whats-new-cassan=
dra-065" target=3D"_blank"></a>Aaron</div><div><div></div><div class=3D"h5"=
><div><br><br>On 21 Oct, 2010,at 06:29 PM, Frank LoVecchio &lt;<a href=3D"m=
ailto:frank@isidorey.com" target=3D"_blank">frank@isidorey.com</a>&gt; wrot=
e:<br>
<br></div></div></div><div><blockquote type=3D"cite"><div><div><div></div><=
div class=3D"h5">I have a cluster of 3 0.7 beta 2 nodes (built today from t=
he latest trunk) running on Large, EBS-backed, x64 EC2 instances; RF=3D3. =
=A0I attempted to write somewhere near 500,000 records every 15 minutes fro=
m a total of 5 different computers (using Pelops and multi-threading). =A0 =
Though my network blew up and I&#39;m not quite sure how many records were =
inserted, I lost a node a couple hours later, and the other 2 were at sever=
ely high memory useage. =A0Is this a memory leak of some kind, or something=
 I can configure / watch for in the future?<div>

<br></div><div>A nodetool does this:</div><div><br></div><div><div style=3D=
"font-family:arial, sans-serif;border-collapse:collapse">[ec2-user@XXX bin]=
$ ./nodetool -h localhost ring</div><span style=3D"font-family:arial, sans-=
serif;border-collapse:collapse">
</span><div style=3D"font-family:arial, sans-serif;border-collapse:collapse=
">Address =A0Status State =A0 Load =A0 =A0 =A0 =A0 Token =A0 =A0 =A0 =A0 =
=A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0=A0</div><div st=
yle=3D"font-family:arial, sans-serif;border-collapse:collapse">
=A0=A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =
=A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0XXX=A0=A0</div><div style=3D"font-family:ari=
al, sans-serif;border-collapse:collapse">ipXXX =A0 Down =A0 Normal =A0564.7=
6 MB =A0 =A0 =A0 XXX=A0=A0 =A0 =A0</div><div style=3D"font-family:arial, sa=
ns-serif;border-collapse:collapse">

ipXXX =A0 Up =A0 =A0 =A0 Normal =A0564.83 MB =A0 =A0 =A0 XXX=A0=A0 =A0=A0</=
div><div style=3D"font-family:arial, sans-serif;border-collapse:collapse">i=
pXXX =A0 Up =A0 =A0 =A0 Normal =A0563.06 MB =A0 =A0 =A0 XXX=A0=A0 =A0=A0</d=
iv><div style=3D"font-family:arial, sans-serif;border-collapse:collapse">
<br></div><div style=3D"font-family:arial, sans-serif;border-collapse:colla=
pse"><span style=3D"border-collapse:separate;font-family:arial;font-size:sm=
all">A top on the box that is down shows this: (dual core x64)</span></div>
<span style=3D"font-family:arial, sans-serif;border-collapse:collapse">
</span><div style=3D"font-family:arial, sans-serif;border-collapse:collapse=
"><span style=3D"border-collapse:separate;font-family:arial;font-size:small=
"><br></span></div><div style=3D"font-family:arial, sans-serif;border-colla=
pse:collapse">
<div>Cpu(s): 19.9%us, =A05.9%sy, =A00.0%ni, =A08.8%id, 57.3%wa, =A00.0%hi, =
=A00.0%si, =A08.1%st</div>
<div>Mem: =A0 7651528k total, =A07611112k used, =A0 =A040416k free, =A0 =A0=
66056k buffers</div><div>Swap: =A0 =A0 =A0 =A00k total, =A0 =A0 =A0 =A00k u=
sed, =A0 =A0 =A0 =A00k free, =A03294076k cached</div><div><br></div><div>PI=
D USER =A0 =A0 =A0PR =A0NI =A0VIRT =A0RES =A0SHR S %CPU %MEM =A0 =A0TIME+ =
=A0COMMAND =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =
=A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0 =A0=
 =A0</div>

<div>22514 root =A0 =A0 =A020 =A0 0 5790m 4.0g 167m S =A0 =A091.9 =A0 =A0 =
=A0 =A054.8 152:45.08 java =A0 =A0 =A0 =A0 =A0=A0</div></div></div><div><br=
></div></div></div><div><div><div></div><div class=3D"h5">I see this error =
in the log file:<div><br></div>
<div>ERROR [CompactionExecutor:1] 2010-10-21 01:35:05,318 AbstractCassandra=
Daemon.java (line 88) Fatal exception in thread Thread[CompactionExecutor:1=
,1,main]</div>
<div>java.io.IOError: java.io.IOException: Cannot run program &quot;ln&quot=
;: java.io.IOException: error=3D12, Cannot allocate memory</div><div><span =
style=3D"white-space:pre-wrap">	</span>at org.apache.cassandra.db.ColumnFam=
ilyStore.snapshot(ColumnFamilyStore.java:1368)</div>

<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.cassandra.d=
b.Table.snapshot(Table.java:163)</div><div><span style=3D"white-space:pre-w=
rap">	</span>at org.apache.cassandra.db.CompactionManager.doCompaction(Comp=
actionManager.java:232)</div>

<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.cassandra.d=
b.CompactionManager$1.call(CompactionManager.java:106)</div><div><span styl=
e=3D"white-space:pre-wrap">	</span>at org.apache.cassandra.db.CompactionMan=
ager$1.call(CompactionManager.java:84)</div>

<div><span style=3D"white-space:pre-wrap">	</span>at java.util.concurrent.F=
utureTask$Sync.innerRun(FutureTask.java:334)</div><div><span style=3D"white=
-space:pre-wrap">	</span>at java.util.concurrent.FutureTask.run(FutureTask.=
java:166)</div>

<div><span style=3D"white-space:pre-wrap">	</span>at java.util.concurrent.T=
hreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)</div><div><span s=
tyle=3D"white-space:pre-wrap">	</span>at java.util.concurrent.ThreadPoolExe=
cutor$Worker.run(ThreadPoolExecutor.java:603)</div>

<div><span style=3D"white-space:pre-wrap">	</span>at java.lang.Thread.run(T=
hread.java:636)</div><div>Caused by: java.io.IOException: Cannot run progra=
m &quot;ln&quot;: java.io.IOException: error=3D12, Cannot allocate memory</=
div>

<div><span style=3D"white-space:pre-wrap">	</span>at java.lang.ProcessBuild=
er.start(ProcessBuilder.java:475)</div><div><span style=3D"white-space:pre-=
wrap">	</span>at org.apache.cassandra.io.util.FileUtils.createHardLinkWithE=
xec(FileUtils.java:263)</div>

<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.cassandra.i=
o.util.FileUtils.createHardLink(FileUtils.java:229)</div><div><span style=
=3D"white-space:pre-wrap">	</span>at org.apache.cassandra.db.ColumnFamilySt=
ore.snapshot(ColumnFamilyStore.java:1360)</div>

<div><span style=3D"white-space:pre-wrap">	</span>... 9 more</div><div>Caus=
ed by: java.io.IOException: java.io.IOException: error=3D12, Cannot allocat=
e memory</div><div><span style=3D"white-space:pre-wrap">	</span>at java.lan=
g.UNIXProcess.&lt;init&gt;(UNIXProcess.java:164)</div>

<div><span style=3D"white-space:pre-wrap">	</span>at java.lang.ProcessImpl.=
start(ProcessImpl.java:81)</div><div><span style=3D"white-space:pre-wrap">	=
</span>at java.lang.ProcessBuilder.start(ProcessBuilder.java:468)</div>
<div><span style=3D"white-space:pre-wrap">	</span>... 12 more</div></div></=
div><div>=A0<br><br><div class=3D"gmail_quote"><div><div></div><div class=
=3D"h5">On Wed, Oct 20, 2010 at 3:16 PM, Jonathan Ellis <span dir=3D"ltr">&=
lt;<a href=3D"mailto:jbellis@gmail.com" target=3D"_blank">jbellis@gmail.com=
</a>&gt;</span> wrote:<br>

</div></div><blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;bo=
rder-left:1px #ccc solid;padding-left:1ex"><div><div></div><div class=3D"h5=
">can you reproduce this by, say, running nodeprobe ring in a bash while lo=
op?<br>

</div></div><div><div><br></div><div><div><div></div><div class=3D"h5"><br>
On Wed, Oct 20, 2010 at 3:09 PM, Bill Au &lt;<a href=3D"http://bill.w.au" t=
arget=3D"_blank">bill.w.au</a>@<a href=3D"http://gmail.com" target=3D"_blan=
k">gmail.com</a>&gt; wrote:<br>
&gt; One of my Cassandra server crashed with the following:<br>
&gt;<br></div></div>
&gt; ERROR [ACCEPT-xxx.xxx.xxx/nnn.nnnnnn.nnn] 2010-10-19 00:25:10,419<div =
class=3D"im"><br>
&gt; CassandraDaemon.java (line 82) Uncaught exception in thread<br>
&gt; Thread[ACCEPT-xxx.xxx.xxx/nnn.nnn.nnn.nnn,5,main]<br>
&gt; java.lang.OutOfMemoryError: unable to create new native thread<br>
&gt; =A0=A0=A0=A0=A0=A0=A0 at java.lang.Thread.start0(Native Method)<br>
&gt; =A0=A0=A0=A0=A0=A0=A0 at java.lang.Thread.start(Thread.java:597)<br>
&gt; =A0=A0=A0=A0=A0=A0=A0 at<br>
&gt; org.apache.cassandra.net.MessagingService$SocketThread.run(MessagingSe=
rvice.java:533)<br>
&gt;<br>
&gt;<br>
&gt; I took threads dump in the JVM on all the other Cassandra severs in my=
<br>
&gt; cluster.=A0 They all have thousand of threads looking like this:<br>
&gt;<br>
&gt; &quot;JMX server connection timeout 183373&quot; daemon prio=3D10 tid=
=3D0x00002aad230db800<br>
&gt; nid=3D0x5cf6 in Object.wait() [0x00002aad7a316000]<br>
&gt; =A0=A0 java.lang.Thread.State: TIMED_WAITING (on object monitor)<br>
&gt; =A0=A0=A0=A0=A0=A0=A0 at java.lang.Object.wait(Native Method)<br>
&gt; =A0=A0=A0=A0=A0=A0=A0 at<br></div>
&gt; com.sunjmx.remote.internal.ServerCommunicatorAdmin$Timeout.run(ServerC=
ommunicatorAdmin.java:150)<div class=3D"im"><br>
&gt; =A0=A0=A0=A0=A0=A0=A0 - locked &lt;0x00002aab056ccee0&gt; (a [I)<br>
&gt; =A0=A0=A0=A0=A0=A0=A0 at java.lang.Thread.run(Thread.java:619)<br>
&gt;<br>
&gt; It seems to me that there is a JMX threads leak in Cassandra.=A0 NodeP=
robe<br>
&gt; creates a JMXConnector but never calls its close() method.=A0 I tried =
setting<br>
&gt; jmx.remote.x.server.connection.timeout to 0 hoping that would disable =
the<br>
&gt; JMX server connection timeout threads.=A0 But that did not make any<br=
>
&gt; difference.<br>
&gt;<br>
&gt; Has anyone else seen this?<br>
&gt;<br>
&gt; Bill<br>
&gt;<br>
<br>
<br>
<br>
</div></div></div><div class=3D"im"><font color=3D"#888888">--<br>
Jonathan Ellis<br>
Project Chair, Apache Cassandra<br>
co-founder of Riptano, the source for professional Cassandra support<br>
<a href=3D"http://riptano.com" target=3D"_blank">http://riptano.com</a><br>
</font></div></blockquote></div><br></div></div>
</div></blockquote></div></div></blockquote></div><br></div>

--0016363108ed51d02304931a2667--