Mailing-List: contact user-help@cassandra.apache.org; run by ezmlm
Precedence: bulk
Reply-To: user@cassandra.apache.org
Received-SPF: pass (nike.apache.org: domain of blueflycn@gmail.com designates
 209.85.214.171 as permitted sender)
MIME-Version: 1.0
In-Reply-To: 
 <CAD_Xd-K7KyCS7ofp5M_RAfC=htqpuQOx=tq6GZsOK_vty5o+GQ@mail.gmail.com>
References: 
 <CAD_Xd-K7KyCS7ofp5M_RAfC=htqpuQOx=tq6GZsOK_vty5o+GQ@mail.gmail.com>
Date: Sun, 4 May 2014 07:51:11 +0800
Message-ID: 
 <CAD_Xd-K8_3J33bts_At0kAYTZY-3480as0LOb-R9He93gi3Pjw@mail.gmail.com>
Subject: Re: Cassandra 2.0.7 keeps reporting errors due to no space left on
 device
From: Yatong Zhang <blueflycn@gmail.com>
To: user@cassandra.apache.org
Content-Type: multipart/alternative; boundary=047d7b3a9cacac9fe604f88792b6

--047d7b3a9cacac9fe604f88792b6
Content-Type: text/plain; charset=UTF-8

My Cassandra cluster has plenty of free space, for now only about 30% of
space are used


On Sun, May 4, 2014 at 6:36 AM, Yatong Zhang <blueflycn@gmail.com> wrote:

> Hi there,
>
> It was strange that the 'xxx-tmp-xxx.db' file kept increasing until
> Cassandra throw exceptions with 'No space left on device'. I am using CQL 3
> to create a table to store data about 200K ~ 500K per record. I have 6
> harddisks per node and cassandra was configured with 6 data
> directories(ext4 file systems, Centos 6.5):
>
> data_file_directories:
>>     - /data1/cass
>>     - /data2/cass
>>     - /data3/cass
>>     - /data4/cass
>>     - /data5/cass
>>     - /data6/cass
>>
>
> And every directory is on a standalone disk. But I just found when the
> error occurred:
>
> [root@node5 images]# ll -hl
>> total 3.6T
>> drwxr-xr-x 4 root root 4.0K Jan 20 09:44 snapshots
>> -rw-r--r-- 1 root root 456M Apr 30 13:42
>> mydb-images-tmp-jb-91068-CompressionInfo.db
>> -rw-r--r-- 1 root root 3.5T Apr 30 13:42 mydb-images-tmp-jb-91068-Data.db
>> -rw-r--r-- 1 root root    0 Apr 30 13:42
>> mydb-images-tmp-jb-91068-Filter.db
>> -rw-r--r-- 1 root root 2.0G Apr 30 13:42 mydb-images-tmp-jb-91068-Index.db
>>
>
> [root@node5 images]# df -hl
> Filesystem      Size  Used Avail Use% Mounted on
> /dev/sda1        49G  7.5G   39G  17% /
> tmpfs           7.8G     0  7.8G   0% /dev/shm
> /dev/sda3       3.6T  1.3T  2.1T  38% /data1
> /dev/sdb1       3.6T  1.4T  2.1T  39% /data2
> /dev/sdc1       3.6T  466G  3.0T  14% /data3
> /dev/sdd1       3.6T  1.3T  2.2T  38% /data4
> /dev/sde1       3.6T  1.3T  2.2T  38% /data5
> /dev/sdf1       3.6T  3.6T     0 100% /data6
>
> *mydb-images-tmp-jb-91068-Data.db *almost occupied all the disk space (4T
> harddisk with 3.6T actual usable size) and the error looks like:
>
> INFO [FlushWriter:4174] 2014-05-04 05:15:15,744 Memtable.java (line 403)
>> Completed flushing
>> /data3/cass/system/compactions_in_progress/system-compactions_in_progress-jb-16942-Data.db
>> (42 bytes) for commitlog position ReplayPosition(segmentId=1398900356204,
>> position=25024609)
>>  INFO [CompactionExecutor:3689] 2014-05-04 05:15:15,745
>> CompactionTask.java (line 115) Compacting
>> [SSTableReader(path='/data3/cass/system/compactions_in_progress/system-compactions_in_progress-jb-16940-Data.db'),
>> SSTableReader(path='/data3/cass/system/compactions_in_progress/system-compactions_in_progress-jb-16942-Data.db'),
>> SSTableReader(path='/data3/cass/system/compactions_in_progress/system-compactions_in_progress-jb-16941-Data.db'),
>> SSTableReader(path='/data3/cass/system/compactions_in_progress/system-compactions_in_progress-jb-16939-Data.db')]
>> ERROR [CompactionExecutor:1245] 2014-05-04 05:15:15,745
>> CassandraDaemon.java (line 198) Exception in thread
>> Thread[CompactionExecutor:1245,1,main]
>> FSWriteError in /data2/cass/mydb/images/mydb-images-tmp-jb-92181-Filter.db
>>         at
>> org.apache.cassandra.io.sstable.SSTableWriter$IndexWriter.close(SSTableWriter.java:475)
>>         at
>> org.apache.cassandra.io.util.FileUtils.closeQuietly(FileUtils.java:212)
>>         at
>> org.apache.cassandra.io.sstable.SSTableWriter.abort(SSTableWriter.java:301)
>>         at
>> org.apache.cassandra.db.compaction.CompactionTask.runWith(CompactionTask.java:209)
>>         at
>> org.apache.cassandra.io.util.DiskAwareRunnable.runMayThrow(DiskAwareRunnable.java:48)
>>         at
>> org.apache.cassandra.utils.WrappedRunnable.run(WrappedRunnable.java:28)
>>         at
>> org.apache.cassandra.db.compaction.CompactionTask.executeInternal(CompactionTask.java:60)
>>         at
>> org.apache.cassandra.db.compaction.AbstractCompactionTask.execute(AbstractCompactionTask.java:59)
>>         at
>> org.apache.cassandra.db.compaction.CompactionManager$BackgroundCompactionTask.run(CompactionManager.java:197)
>>         at
>> java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
>>         at java.util.concurrent.FutureTask.run(FutureTask.java:262)
>>         at
>> java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
>>         at
>> java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
>>         at java.lang.Thread.run(Thread.java:744)
>> Caused by: java.io.IOException: No space left on device
>>         at java.io.FileOutputStream.write(Native Method)
>>         at java.io.FileOutputStream.write(FileOutputStream.java:295)
>>         at java.io.DataOutputStream.writeInt(DataOutputStream.java:197)
>>         at
>> org.apache.cassandra.utils.BloomFilterSerializer.serialize(BloomFilterSerializer.java:34)
>>         at
>> org.apache.cassandra.utils.Murmur3BloomFilter$Murmur3BloomFilterSerializer.serialize(Murmur3BloomFilter.java:44)
>>         at
>> org.apache.cassandra.utils.FilterFactory.serialize(FilterFactory.java:41)
>>         at
>> org.apache.cassandra.io.sstable.SSTableWriter$IndexWriter.close(SSTableWriter.java:468)
>>         ... 13 more
>> ERROR [CompactionExecutor:1245] 2014-05-04 05:15:15,800
>> StorageService.java (line 367) Stopping gossiper
>>  WARN [CompactionExecutor:1245] 2014-05-04 05:15:15,800
>> StorageService.java (line 281) Stopping gossip by operator request
>>  INFO [CompactionExecutor:1245] 2014-05-04 05:15:15,800 Gossiper.java
>> (line 1271) Announcing shutdown
>>
>
>
> I have changed my table to "LeveledCompactionStrategy" to reduce the disk
> size needed when compaction, with:
>
> ALTER TABLE images WITH compaction = { 'class' :
>> 'LeveledCompactionStrategy', 'sstable_size_in_mb' : '192' };
>>
>
> But the problem still exists: the file keep increasing, and after about 2
> or 3 days cassandra will fail due to 'No space left on device' error.  If I
> restart the node or using 'cleanup', it will resume to normal.
>
> I don't know is it because my configuration or it's just a bug, so would
> any one please help to solve this issue?
>
> Thanks
>

--047d7b3a9cacac9fe604f88792b6
Content-Type: text/html; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

<div dir=3D"ltr">My Cassandra cluster has plenty of free space, for now onl=
y about 30% of space are used<br></div><div class=3D"gmail_extra"><br><br><=
div class=3D"gmail_quote">On Sun, May 4, 2014 at 6:36 AM, Yatong Zhang <spa=
n dir=3D"ltr">&lt;<a href=3D"mailto:blueflycn@gmail.com" target=3D"_blank">=
blueflycn@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1p=
x #ccc solid;padding-left:1ex"><div dir=3D"ltr"><div>Hi there,<br><br>It wa=
s strange that the &#39;xxx-tmp-xxx.db&#39; file kept increasing until Cass=
andra throw exceptions with &#39;No space left on device&#39;. I am using C=
QL 3 to create a table to store data about 200K ~ 500K per record. I have 6=
 harddisks per node and cassandra was=20
configured with 6 data directories(ext4 file systems, Centos 6.5):<br><br><=
blockquote style=3D"margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,=
204,204);padding-left:1ex" class=3D"gmail_quote">data_file_directories:<br>

=C2=A0=C2=A0=C2=A0 - /data1/cass<br>=C2=A0=C2=A0=C2=A0 - /data2/cass<br>=C2=
=A0=C2=A0=C2=A0 - /data3/cass<br>=C2=A0=C2=A0=C2=A0 - /data4/cass<br>
=C2=A0=C2=A0=C2=A0 - /data5/cass<br>=C2=A0=C2=A0=C2=A0 - /data6/cass<br></b=
lockquote><br>And every directory is on a standalone disk. But I just found=
 when the error occurred: <br><br><blockquote style=3D"margin:0px 0px 0px 0=
.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class=3D"gmai=
l_quote">


[root@node5 images]# ll -hl<br>total 3.6T<br>drwxr-xr-x 4 root root 4.0K Ja=
n 20 09:44 snapshots<br>-rw-r--r-- 1 root root 456M Apr 30 13:42 mydb-image=
s-tmp-jb-91068-CompressionInfo.db<br><span style=3D"color:rgb(255,0,0)">-rw=
-r--r-- 1 root root 3.5T Apr 30 13:42 mydb-images-tmp-jb-91068-Data.db</spa=
n><br>


-rw-r--r-- 1 root root=C2=A0=C2=A0=C2=A0 0 Apr 30 13:42 mydb-images-tmp-jb-=
91068-Filter.db<br>-rw-r--r-- 1 root root 2.0G Apr 30 13:42 mydb-images-tmp=
-jb-91068-Index.db<br></blockquote><div><br>[root@node5 images]# df -hl<br>=
Filesystem=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 Size=C2=A0 Used Avail Use% Mounted=
 on<br>


/dev/sda1=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 49G=C2=A0 7.5G=C2=A0=C2=
=A0 39G=C2=A0 17% /<br>tmpfs=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=
=A0=C2=A0=C2=A0 7.8G=C2=A0=C2=A0=C2=A0=C2=A0 0=C2=A0 7.8G=C2=A0=C2=A0 0% /d=
ev/shm<br>/dev/sda3=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 3.6T=C2=A0 1.3T=C2=
=A0 2.1T=C2=A0 38% /data1<br>/dev/sdb1=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 =
3.6T=C2=A0 1.4T=C2=A0 2.1T=C2=A0 39% /data2<br>/dev/sdc1=C2=A0=C2=A0=C2=A0=
=C2=A0=C2=A0=C2=A0 3.6T=C2=A0 466G=C2=A0 3.0T=C2=A0 14% /data3<br>


/dev/sdd1=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 3.6T=C2=A0 1.3T=C2=A0 2.2T=C2=
=A0 38% /data4<br>/dev/sde1=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 3.6T=C2=A0 =
1.3T=C2=A0 2.2T=C2=A0 38% /data5<br><span style=3D"color:rgb(255,0,0)">/dev=
/sdf1=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 3.6T=C2=A0 3.6T=C2=A0=C2=A0=C2=A0=
=C2=A0 0 100% /data6 </span><br></div><br><b>mydb-images-tmp-jb-91068-Data.=
db </b>almost<b> </b>occupied all the disk space (4T harddisk with 3.6T act=
ual usable size) and the error looks like:<br>

<br><blockquote style=3D"margin:0px 0px 0px 0.8ex;border-left:1px solid rgb=
(204,204,204);padding-left:1ex" class=3D"gmail_quote">INFO [FlushWriter:417=
4] 2014-05-04 05:15:15,744 Memtable.java (line 403) Completed flushing /dat=
a3/cass/system/compactions_in_progress/system-compactions_in_progress-jb-16=
942-Data.db (42 bytes) for commitlog position ReplayPosition(segmentId=3D13=
98900356204, position=3D25024609)<br>

=C2=A0INFO [CompactionExecutor:3689] 2014-05-04 05:15:15,745 CompactionTask=
.java (line 115) Compacting [SSTableReader(path=3D&#39;/data3/cass/system/c=
ompactions_in_progress/system-compactions_in_progress-jb-16940-Data.db&#39;=
), SSTableReader(path=3D&#39;/data3/cass/system/compactions_in_progress/sys=
tem-compactions_in_progress-jb-16942-Data.db&#39;), SSTableReader(path=3D&#=
39;/data3/cass/system/compactions_in_progress/system-compactions_in_progres=
s-jb-16941-Data.db&#39;), SSTableReader(path=3D&#39;/data3/cass/system/comp=
actions_in_progress/system-compactions_in_progress-jb-16939-Data.db&#39;)]<=
br>

ERROR [CompactionExecutor:1245] 2014-05-04 05:15:15,745 CassandraDaemon.jav=
a (line 198) Exception in thread Thread[CompactionExecutor:1245,1,main]<br>=
FSWriteError in /data2/cass/mydb/images/mydb-images-tmp-jb-92181-Filter.db<=
br>

=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 at org.apache.cassandra.io.sstab=
le.SSTableWriter$IndexWriter.close(SSTableWriter.java:475)<br>=C2=A0=C2=A0=
=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 at org.apache.cassandra.io.util.FileUtils.cl=
oseQuietly(FileUtils.java:212)<br>=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=
=A0 at org.apache.cassandra.io.sstable.SSTableWriter.abort(SSTableWriter.ja=
va:301)<br>

=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 at org.apache.cassandra.db.compa=
ction.CompactionTask.runWith(CompactionTask.java:209)<br>=C2=A0=C2=A0=C2=A0=
=C2=A0=C2=A0=C2=A0=C2=A0 at org.apache.cassandra.io.util.DiskAwareRunnable.=
runMayThrow(DiskAwareRunnable.java:48)<br>=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=
=A0=C2=A0 at org.apache.cassandra.utils.WrappedRunnable.run(WrappedRunnable=
.java:28)<br>

=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 at org.apache.cassandra.db.compa=
ction.CompactionTask.executeInternal(CompactionTask.java:60)<br>=C2=A0=C2=
=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 at org.apache.cassandra.db.compaction.Abs=
tractCompactionTask.execute(AbstractCompactionTask.java:59)<br>=C2=A0=C2=A0=
=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 at org.apache.cassandra.db.compaction.Compac=
tionManager$BackgroundCompactionTask.run(CompactionManager.java:197)<br>

=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 at java.util.concurrent.Executor=
s$RunnableAdapter.call(Executors.java:471)<br>=C2=A0=C2=A0=C2=A0=C2=A0=C2=
=A0=C2=A0=C2=A0 at java.util.concurrent.FutureTask.run(FutureTask.java:262)=
<br>=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 at java.util.concurrent.Thre=
adPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)<br>

=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 at java.util.concurrent.ThreadPo=
olExecutor$Worker.run(ThreadPoolExecutor.java:615)<br>=C2=A0=C2=A0=C2=A0=C2=
=A0=C2=A0=C2=A0=C2=A0 at java.lang.Thread.run(Thread.java:744)<br>Caused by=
: java.io.IOException: No space left on device<br>=C2=A0=C2=A0=C2=A0=C2=A0=
=C2=A0=C2=A0=C2=A0 at java.io.FileOutputStream.write(Native Method)<br>

=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 at java.io.FileOutputStream.writ=
e(FileOutputStream.java:295)<br>=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 =
at java.io.DataOutputStream.writeInt(DataOutputStream.java:197)<br>=C2=A0=
=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 at org.apache.cassandra.utils.BloomFil=
terSerializer.serialize(BloomFilterSerializer.java:34)<br>

=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 at org.apache.cassandra.utils.Mu=
rmur3BloomFilter$Murmur3BloomFilterSerializer.serialize(Murmur3BloomFilter.=
java:44)<br>=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 at org.apache.cassan=
dra.utils.FilterFactory.serialize(FilterFactory.java:41)<br>=C2=A0=C2=A0=C2=
=A0=C2=A0=C2=A0=C2=A0=C2=A0 at org.apache.cassandra.io.sstable.SSTableWrite=
r$IndexWriter.close(SSTableWriter.java:468)<br>

=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 ... 13 more<br>ERROR [Compaction=
Executor:1245] 2014-05-04 05:15:15,800 StorageService.java (line 367) Stopp=
ing gossiper<br>=C2=A0WARN [CompactionExecutor:1245] 2014-05-04 05:15:15,80=
0 StorageService.java (line 281) Stopping gossip by operator request<br>

=C2=A0INFO [CompactionExecutor:1245] 2014-05-04 05:15:15,800 Gossiper.java =
(line 1271) Announcing shutdown<br></blockquote><br><br></div>I have change=
d my table to &quot;LeveledCompactionStrategy&quot; to reduce the disk size=
 needed when compaction, with:<br>

<br><blockquote style=3D"margin:0px 0px 0px 0.8ex;border-left:1px solid rgb=
(204,204,204);padding-left:1ex" class=3D"gmail_quote">ALTER TABLE images WI=
TH compaction =3D { &#39;class&#39; : &#39;LeveledCompactionStrategy&#39;, =
&#39;sstable_size_in_mb&#39; : &#39;192&#39; };<br>

</blockquote><div><br></div><div>But the problem still exists: the file kee=
p increasing, and after about 2 or 3 days cassandra will fail due to &#39;N=
o space left on device&#39; error.=C2=A0 If I restart the node or using =
9;cleanup&#39;, it will resume to normal.<br>

<br></div><div>I don&#39;t know is it because my configuration or it&#39;s =
just a bug, so would any one please help to solve this issue?<br><br>Thanks=
<br></div></div>
</blockquote></div><br></div>

--047d7b3a9cacac9fe604f88792b6--