cassandra-user mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From "qihuang.zheng"<qihuang.zh...@fraudmetrix.cn>
Subject 回复:Data.db too large and after sstableloader still large
Date Thu, 12 Nov 2015 14:44:17 GMT
Original snapshot files:
[qihuang.zheng@spark047219 226_1105]$ ll 2/forseti/velocity/ -h | grep Data -rw-r--r--. 1
qihuang.zheng users 158M 10月 28 15:03 forseti-velocity-jb-102486-Data.db -rw-r--r--. 1 qihuang.zheng
users 161M 10月 28 16:28 forseti-velocity-jb-103911-Data.db -rw-r--r--. 1 qihuang.zheng users
161M 10月 28 14:23 forseti-velocity-jb-103920-Data.db -rw-r--r--. 1 qihuang.zheng users 370M
10月 28 14:10 forseti-velocity-jb-105829-Data.db ⬅️ A Big File ① -rw-r--r--. 1 qihuang.zheng
users 161M 10月 28 14:07 forseti-velocity-jb-107113-Data.db -rw-r--r--. 1 qihuang.zheng users
160M 10月 28 15:53 forseti-velocity-jb-73122-Data.db -rw-r--r--. 1 qihuang.zheng users 161M
10月 28 14:46 forseti-velocity-jb-85829-Data.db -rw-r--r--. 1 qihuang.zheng users 161M 10月
28 15:29 forseti-velocity-jb-87661-Data.db -rw-r--r--. 1 qihuang.zheng users 161M 10月 28
15:05 forseti-velocity-jb-93091-Data.db
sstable to new cluster
[qihuang.zheng@cass047202 ~]$ ./psshA.sh ip_spark.txt 'ls /home/admin/cassandra/data/forseti/velocity
-hl |grep Data' Warning: do not enter your password if anyone else has superuser privileges
or access to your account. Password: [1] 22:29:43 [SUCCESS] 192.168.47.208 -rw-r--r--. 1 admin
admin 365K 11月 12 22:10 forseti-velocity-jb-20-Data.db -rw-r--r--. 1 admin admin 370M 11月
12 22:10 forseti-velocity-jb-21-Data.db ⬅️ File Still Large! and same size as ① -rw-r--r--.
1 admin admin 11M 11月 12 22:10 forseti-velocity-jb-22-Data.db [2] 22:29:43 [SUCCESS] 192.168.47.212
-rw-r--r--. 1 admin admin 146M 11月 12 22:09 forseti-velocity-jb-22-Data.db -rw-r--r--. 1
admin admin 3.7M 11月 12 22:09 forseti-velocity-jb-23-Data.db [3] 22:29:43 [SUCCESS] 192.168.47.215
-rw-r--r--. 1 admin admin 916K 11月 12 22:09 forseti-velocity-jb-14-Data.db [4] 22:29:43
[SUCCESS] 192.168.47.242 ⬅️ Almost Go To This Node! -rw-r--r--. 1 admin admin 106M 11月
12 22:10 forseti-velocity-jb-24-Data.db -rw-r--r--. 1 admin admin 160M 11月 12 22:10 forseti-velocity-jb-25-Data.db
-rw-r--r--. 1 admin admin 158M 11月 12 22:10 forseti-velocity-jb-26-Data.db -rw-r--r--. 1
admin admin 160M 11月 12 22:10 forseti-velocity-jb-27-Data.db [5] 22:29:43 [FAILURE] 192.168.47.223
Exited with error code 1 ⬅️ This Node has None Files! [6] 22:29:43 [SUCCESS] 192.168.47.244
-rw-r--r--. 1 admin admin 111M 11月 12 22:09 forseti-velocity-jb-18-Data.db [7] 22:29:43
[SUCCESS] 192.168.47.245 -rw-r--r--. 1 admin admin 50M 11月 12 22:09 forseti-velocity-jb-22-Data.db
-rw-r--r--. 1 admin admin 170K 11月 12 22:09 forseti-velocity-jb-23-Data.db [8] 22:29:43
[SUCCESS] 192.168.47.241 -rw-r--r--. 1 admin admin 7.5M 11月 12 22:09 forseti-velocity-jb-30-Data.db
[9] 22:29:43 [FAILURE] 192.168.47.218 Exited with error code 1 ⬅️ No Files [10] 22:29:43
[SUCCESS] 192.168.47.243 -rw-r--r--. 1 admin admin 15M 11月 12 22:09 forseti-velocity-jb-29-Data.db
[11] 22:29:43 [SUCCESS] 192.168.47.219 -rw-r--r--. 1 admin admin 160M 11月 12 22:09 forseti-velocity-jb-23-Data.db
[12] 22:29:43 [SUCCESS] 192.168.47.217 -rw-r--r--. 1 admin admin 30M 11月 12 22:09 forseti-velocity-jb-22-Data.db
[13] 22:29:44 [SUCCESS] 192.168.47.216 -rw-r--r--. 1 admin admin 3.5M 11月 12 22:09 forseti-velocity-jb-20-Data.db
-rw-r--r--. 1 admin admin 161M 11月 12 22:09 forseti-velocity-jb-21-Data.db
We use spark-case-connecot to read table and repartition. Spark repartition job below indicate:
If nodes has none data.db like first two nodes, InputSize is 0.0B,and nodes with large files
like the last one running too long!
My question is : why sstableloader can’t balance data file size?




Tks,qihuang.zheng


原始邮件
发件人:qihuang.zhengqihuang.zheng@fraudmetrix.cn
收件人:useruser@cassandra.apache.org
发送时间:2015年11月12日(周四) 21:20
主题:Data.db too large and after sstableloader still large


We do snapshot, and found some Data.db too large:
[qihuang.zheng@spark047219 5]$ find . -type f -size +800M -print0 | xargs -0 ls -lh
-rw-r--r--. 2 qihuang.zheng users 1.5G 10月 28 14:49 ./forseti/velocity/forseti-velocity-jb-103631-Data.db


And sstableloader to new cluster, one node has this large file:
[qihuang.zheng@spark047243 velocity]$ ll -rth | grep Data
-rw-r--r--. 1 admin admin 46M 11月 12 18:22 forseti-velocity-jb-21-Data.db
-rw-r--r--. 1 admin admin 156M 11月 12 18:22 forseti-velocity-jb-22-Data.db
-rw-r--r--. 1 admin admin 2.6M 11月 12 18:22 forseti-velocity-jb-23-Data.db
-rw-r--r--. 1 admin admin 162M 11月 12 18:22 forseti-velocity-jb-24-Data.db
-rw-r--r--. 1 admin admin 1.5G 11月 12 18:22 forseti-velocity-jb-25-Data.db  -BigFile Still
here


Seems sstableloader don’t split file very well. Why sstableloader can’t split to small
filter to new cluster?
I tried usesstablesplit at snapshot before sstableloader, but this progress is too slow.



Tks,qihuang.zheng
Mime
View raw message