Mailing-List: contact user-help@hadoop.apache.org; run by ezmlm
Precedence: bulk
Reply-To: user@hadoop.apache.org
Received-SPF: pass (athena.apache.org: message received from 54.164.171.186
 which is an MX secondary for user@hadoop.apache.org)
MIME-Version: 1.0
In-Reply-To: <f68259496e4522e11376362bfe848d77@cweb12.nm.nhnsystem.com>
References: <5df31857ed01f8ba169af1555939dc@cweb09.nm.nhnsystem.com>
	<d5e57a5033eb81901ede8181e87078d5@cvweb10.wmail.nhnsystem.com>
	<562b94464b725071e6e51fded2fdc6e4@cweb04.nm.nhnsystem.com>
	<CAE422GBPS-gPbsxSxUcrEZcVXGTUxb8eO5CP4uV=yGzxaF4awA@mail.gmail.com>
	<f68259496e4522e11376362bfe848d77@cweb12.nm.nhnsystem.com>
Date: Fri, 24 Apr 2015 17:41:59 +0900
Message-ID: 
 <CAE422GCaLQnS=WUTER9hz=_VPCNFjmrUL-RQdHF1gdjn1Q6iyQ@mail.gmail.com>
Subject: Re: rolling upgrade(2.4.1 to 2.6.0) problem
From: =?UTF-8?B?RHJha2Xrr7zsmIHqt7w=?= <drake.min@nexr.com>
To: user <user@hadoop.apache.org>,
 =?UTF-8?B?7KGw7KO87J28?= <tjstory@kgrid.co.kr>
Content-Type: multipart/alternative; boundary=047d7b674400a2c3720514745ec5

--047d7b674400a2c3720514745ec5
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

Hi,

I think limited by "max user processes". see this:
https://plumbr.eu/outofmemoryerror/unable-to-create-new-native-thread In
your case, user cannot create more than 10240 processes. In our env, the
limit is more like "65000".

I think it's worth a try. And, if hdfs datanode daemon's user is not root,
set the limit file into /etc/security/limits.d

Thanks.

Drake =EB=AF=BC=EC=98=81=EA=B7=BC Ph.D
kt NexR

On Fri, Apr 24, 2015 at 5:15 PM, =EC=A1=B0=EC=A3=BC=EC=9D=BC <tjstory@kgrid=
.co.kr> wrote:

> ulimit -a
>
> core file size          (blocks, -c) 0
>
> data seg size           (kbytes, -d) unlimited
>
> scheduling priority             (-e) 0
>
> file size               (blocks, -f) unlimited
>
> pending signals                 (-i) 62580
>
> max locked memory       (kbytes, -l) 64
>
> max memory size         (kbytes, -m) unlimited
>
> open files                      (-n) 102400
>
> pipe size            (512 bytes, -p) 8
>
> POSIX message queues     (bytes, -q) 819200
>
> real-time priority              (-r) 0
>
> stack size              (kbytes, -s) 10240
>
> cpu time               (seconds, -t) unlimited
>
> max user processes              (-u) 10240
>
> virtual memory          (kbytes, -v) unlimited
>
> file locks                      (-x) unlimited
>
>
>
> ------------------------------------------------------
>
> Hadoop cluster was operating normally in the 2.4.1 version.
>
> Hadoop cluster is a problem in version 2.6.
>
>
>
> E.g
>
>
>
> Slow BlockReceiver logs are often seen
>
> "org.apache.hadoop.hdfs.server.datanode.DataNode: Slow BlockReceiver writ=
e
> data to disk cost"
>
>
>
> If the data node failure and under-block occurs,
>
> another many nodes heartbeat check is fails.
>
> So, I stop all nodes and I start all nodes.
>
> The cluster is then normalized.
>
>
>
> In this regard, Hadoop Is there a difference between version 2.4 and 2.6?
>
>
>
>
>
> ulimit -a
>
> core file size          (blocks, -c) 0
>
> data seg size           (kbytes, -d) unlimited
>
> scheduling priority             (-e) 0
>
> file size               (blocks, -f) unlimited
>
> pending signals                 (-i) 62580
>
> max locked memory       (kbytes, -l) 64
>
> max memory size         (kbytes, -m) unlimited
>
> open files                      (-n) 102400
>
> pipe size            (512 bytes, -p) 8
>
> POSIX message queues     (bytes, -q) 819200
>
> real-time priority              (-r) 0
>
> stack size              (kbytes, -s) 10240
>
> cpu time               (seconds, -t) unlimited
>
> max user processes              (-u) 10240
>
> virtual memory          (kbytes, -v) unlimited
>
> file locks                      (-x) unlimited
>
>
>
>
>
> -----Original Message-----
> *From:* "Drake=EB=AF=BC=EC=98=81=EA=B7=BC"<drake.min@nexr.com>
> *To:* "user"<user@hadoop.apache.org>; "=EC=A1=B0=EC=A3=BC=EC=9D=BC"<tjsto=
ry@kgrid.co.kr>;
> *Cc:*
> *Sent:* 2015-04-24 (=EA=B8=88) 16:58:46
> *Subject:* Re: rolling upgrade(2.4.1 to 2.6.0) problem
>
> HI,
>
> How about the ulimit setting of the user for hdfs datanode ?
>
> Drake =EB=AF=BC=EC=98=81=EA=B7=BC Ph.D
> kt NexR
>
> On Wed, Apr 22, 2015 at 6:25 PM, =EC=A1=B0=EC=A3=BC=EC=9D=BC <tjstory@kgr=
id.co.kr> wrote:
>
>
>
> I allocated 5G.
>
> I think OOM is not the cause of essentially
>
>
>
> -----Original Message-----
> *From:* "Han-Cheol Cho"<hancheol.cho@nhn-playart.com>
> *To:* <user@hadoop.apache.org>;
> *Cc:*
> *Sent:* 2015-04-22 (=EC=88=98) 15:32:35
> *Subject:* RE: rolling upgrade(2.4.1 to 2.6.0) problem
>
>
> Hi,
>
>
>
> The first warning shows out-of-memory error of JVM.
>
> Did you give enough max heap memory for DataNode daemons?
>
> DN daemons, by default, uses max heap size 1GB. So if your DN requires
> more
>
> than that, it will be in a trouble.
>
>
> You can check the memory consumption of you DN dameons (e.g., top
> command)
>
> and the memory allocated to them by -Xmx option (e.g., jps -lmv).
>
> If the max heap size is too small, you can use HADOOP_DATANODE_OPTS
> variable
>
> (e.g., HADOOP_DATANODE_OPTS=3D"-Xmx4g") to override it.
>
>
>
> Best wishes,
>
> Han-Cheol
>
>
>
>
>
>
>
>
>
>
>
> -----Original Message-----
> *From:* "=EC=A1=B0=EC=A3=BC=EC=9D=BC"<tjstory@kgrid.co.kr>
> *To:* <user@hadoop.apache.org>;
> *Cc:*
> *Sent:* 2015-04-22 (=EC=88=98) 14:54:16
> *Subject:* rolling upgrade(2.4.1 to 2.6.0) problem
>
>
>
>
> My Cluster is..
>
> hadoop 2.4.1
>
> Capacity : 1.24PB
>
> Used 1.1PB
>
> 16 Datanodes
>
> Each node is a capacity of 65TB, 96TB, 80TB, Etc..
>
>
>
> I had to proceed with the rolling upgrade 2.4.1 to 2.6.0.
>
> A data node upgraded takes about 40 minutes.
>
> Occurs during the upgrade is in progress under-block.
>
>
>
> 10 nodes completed upgrade 2.6.0.
>
> Had a problem at some point during a rolling upgrade of the remaining
> nodes.
>
>
>
> Heartbeat of the many nodes(2.6.0 only) has failed.
>
>
>
> I did changes the following attributes but I did not fix the problem,
>
> dfs.datanode.handler.count =3D 100 ---> 300, 400, 500
>
> dfs.datanode.max.transfer.threads =3D 4096 ---> 8000, 10000
>
>
>
> I think,
>
> 1. Something that causes a delay in processing threads. I think it may be
> because the block replication between different versions.
>
> 2. Whereby the many handlers and xceiver became necessary.
>
> 3. Whereby the out of memory, an error occurs. Or the problem arises on a
> datanode.
>
> 4. Heartbeat fails, and datanode dies.
>
>
> I found a datanode error log for the following:
>
> However, it is impossible to determine the cause.
>
>
>
> I think, therefore I am. Called because it blocks the replication between
> different versions
>
>
>
> Give me someone help me !!
>
>
>
> DATANODE LOG
>
> -------------------------------------------------------------------------=
-
>
> ### I had to check a few thousand close_wait connection from the datanode=
.
>
>
>
> org.apache.hadoop.hdfs.server.datanode.DataNode: Slow BlockReceiver write
> packet to mirror took 1207ms (threshold=3D300ms)
>
>
>
> 2015-04-21 22:46:01,772 WARN
> org.apache.hadoop.hdfs.server.datanode.DataNode: DataNode is out of memor=
y.
> Will retry in 30 seconds.
>
> java.lang.OutOfMemoryError: unable to create new native thread
>
>         at java.lang.Thread.start0(Native Method)
>
>         at java.lang.Thread.start(Thread.java:640)
>
>         at
> org.apache.hadoop.hdfs.server.datanode.DataXceiverServer.run(DataXceiverS=
erver.java:145)
>
>         at java.lang.Thread.run(Thread.java:662)
>
> 2015-04-21 22:49:45,378 WARN
> org.apache.hadoop.hdfs.server.datanode.DataNode:
> datanode-192.168.1.207:40010:DataXceiverServer:java.io.IOException: Xceiv=
er
> count 8193 exceeds the limit of concurrent xcievers: 8192
>
>         at
> org.apache.hadoop.hdfs.server.datanode.DataXceiverServer.run(DataXceiverS=
erver.java:140)
>
>         at java.lang.Thread.run(Thread.java:662)
>
> 2015-04-22 01:01:25,632 WARN
> org.apache.hadoop.hdfs.server.datanode.DataNode:
> datanode-192.168.1.207:40010:DataXceiverServer:java.io.IOException: Xceiv=
er
> count 8193 exceeds the limit of concurrent xcievers: 8192
>
>         at
> org.apache.hadoop.hdfs.server.datanode.DataXceiverServer.run(DataXceiverS=
erver.java:140)
>
>         at java.lang.Thread.run(Thread.java:662)
>
> 2015-04-22 03:49:44,125 ERROR
> org.apache.hadoop.hdfs.server.datanode.DataNode:
> datanode-192.168.1.204:40010:DataXceiver error processing READ_BLOCK
> operation  src: /192.168.2.174:45606 dst: /192.168.1.204:40010
>
> java.io.IOException: cannot find BPOfferService for
> bpid=3DBP-1770955034-0.0.0.0-1401163460236
>
>         at
> org.apache.hadoop.hdfs.server.datanode.DataNode.getDNRegistrationForBP(Da=
taNode.java:1387)
>
>         at
> org.apache.hadoop.hdfs.server.datanode.DataXceiver.readBlock(DataXceiver.=
java:470)
>
>         at
> org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.opReadBlock(Receive=
r.java:116)
>
>         at
> org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.processOp(Receiver.=
java:71)
>
>         at
> org.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:2=
35)
>
>         at java.lang.Thread.run(Thread.java:662)
>
> 2015-04-22 05:30:28,947 WARN
> org.apache.hadoop.hdfs.server.datanode.DataNode:
> DatanodeRegistration(192.168.1.203,
> datanodeUuid=3D654f22ef-84b3-4ecb-a959-2ea46d817c19, infoPort=3D40075,
> ipcPort=3D40020,
> storageInfo=3Dlv=3D-56;cid=3DCID-CLUSTER;nsid=3D239138164;c=3D14048838389=
82):Failed
> to transfer BP-1770955034-0.0.0.0-1401163460236:blk_1075354042_1613403 to
> 192.168.2.156:40010 got
>
> java.net.SocketException: Original Exception : java.io.IOException:
> Connection reset by peer
>
>         at sun.nio.ch.FileChannelImpl.transferTo0(Native Method)
>
>         at
> sun.nio.ch.FileChannelImpl.transferToDirectly(FileChannelImpl.java:405)
>
>         at sun.nio.ch.FileChannelImpl.transferTo(FileChannelImpl.java:506=
)
>
>         at
> org.apache.hadoop.net.SocketOutputStream.transferToFully(SocketOutputStre=
am.java:223)
>
>         at
> org.apache.hadoop.hdfs.server.datanode.BlockSender.sendPacket(BlockSender=
.java:559)
>
>         at
> org.apache.hadoop.hdfs.server.datanode.BlockSender.sendBlock(BlockSender.=
java:728)
>
>         at
> org.apache.hadoop.hdfs.server.datanode.DataNode$DataTransfer.run(DataNode=
.java:2017)
>
>         at java.lang.Thread.run(Thread.java:662)
>
> Caused by: java.io.IOException: Connection reset by peer
>
>         ... 8 more
>
>
>
>
>
>
>

--047d7b674400a2c3720514745ec5
Content-Type: text/html; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

<div dir=3D"ltr">Hi,<div><br></div><div>I think limited by &quot;max user p=
rocesses&quot;. see this:=C2=A0<a href=3D"https://plumbr.eu/outofmemoryerro=
r/unable-to-create-new-native-thread">https://plumbr.eu/outofmemoryerror/un=
able-to-create-new-native-thread</a> In your case, user cannot create more =
than 10240 processes. In our env, the limit is more like &quot;65000&quot;.=
<br></div><div><br></div><div>I think it&#39;s worth a try. And, if hdfs da=
tanode daemon&#39;s user is not root, set the limit file into /etc/security=
/limits.d</div><div><br></div><div>Thanks.</div></div><div class=3D"gmail_e=
xtra"><br clear=3D"all"><div><div class=3D"gmail_signature"><div dir=3D"ltr=
"><div><div dir=3D"ltr">Drake =EB=AF=BC=EC=98=81=EA=B7=BC Ph.D</div><div>kt=
 NexR</div></div></div></div></div>
<br><div class=3D"gmail_quote">On Fri, Apr 24, 2015 at 5:15 PM, =EC=A1=B0=
=EC=A3=BC=EC=9D=BC <span dir=3D"ltr">&lt;<a href=3D"mailto:tjstory@kgrid.co=
.kr" target=3D"_blank">tjstory@kgrid.co.kr</a>&gt;</span> wrote:<br><blockq=
uote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1px #ccc =
solid;padding-left:1ex"><div style=3D"font-size:9pt;font-family:Gulim"><p>u=
limit -a</p><p>core file size =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0(blocks, -c=
) 0</p><p>data seg size =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 (kbytes, -d) unl=
imited</p><p>scheduling priority =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =
(-e) 0</p><p>file size =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 (bl=
ocks, -f) unlimited</p><p>pending signals =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=
=A0 =C2=A0 =C2=A0 =C2=A0 (-i) 62580</p><p>max locked memory =C2=A0 =C2=A0 =
=C2=A0 (kbytes, -l) 64</p><p>max memory size =C2=A0 =C2=A0 =C2=A0 =C2=A0 (k=
bytes, -m) unlimited</p><p>open files =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =
=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0(-n) 102400</p><p>pipe size =C2=A0=
 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0(512 bytes, -p) 8</p><p>POSIX message qu=
eues =C2=A0 =C2=A0 (bytes, -q) 819200</p><p>real-time priority =C2=A0 =C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0(-r) 0</p><p>stack size =C2=A0 =C2=A0=
 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0(kbytes, -s) 10240</p><p>cpu time =C2=A0=
 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 (seconds, -t) unlimited</p><p>ma=
x user processes =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0(-u) 10240=
</p><p>virtual memory =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0(kbytes, -v) unlimi=
ted</p><p>file locks =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=
=A0 =C2=A0 =C2=A0 =C2=A0(-x) unlimited</p><p>=C2=A0</p><p>---------<span st=
yle=3D"font-size:9pt;line-height:1.5">---------</span><span style=3D"font-s=
ize:9pt;line-height:1.5">---------</span><span style=3D"font-size:9pt;line-=
height:1.5">---------</span><span style=3D"font-size:9pt;line-height:1.5">-=
--------</span><span style=3D"font-size:9pt;line-height:1.5">---------</spa=
n></p><p>Hadoop cluster was operating normally in the 2.4.1 version.=C2=A0<=
/p><p>Hadoop cluster is a problem in version 2.6.=C2=A0</p><p>=C2=A0</p><p>=
E.g</p><p>=C2=A0</p><p>Slow BlockReceiver logs are often seen=C2=A0</p><p>&=
quot;org.apache.hadoop.hdfs.server.datanode.DataNode: Slow BlockReceiver wr=
ite data to disk cost&quot;=C2=A0</p><p>=C2=A0</p><p>If the data node failu=
re and under-block=C2=A0occurs,=C2=A0=C2=A0</p><p>another many nodes heartb=
eat check is fails.=C2=A0</p><p>So, I stop all nodes and I start all nodes.=
=C2=A0</p><p>The cluster is then normalized.=C2=A0</p><p>=C2=A0</p><p>In th=
is regard, Hadoop Is there a difference between version 2.4 and 2.6?=C2=A0<=
/p><p>=C2=A0</p><p>=C2=A0</p><p>ulimit -a</p><p>core file size =C2=A0 =C2=
=A0 =C2=A0 =C2=A0 =C2=A0(blocks, -c) 0</p><p>data seg size =C2=A0 =C2=A0 =
=C2=A0 =C2=A0 =C2=A0 (kbytes, -d) unlimited</p><p>scheduling priority =C2=
=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 (-e) 0</p><p>file size =C2=A0 =C2=A0=
 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 (blocks, -f) unlimited</p><p>pending si=
gnals =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 (-i) 62580</p=
><p>max locked memory =C2=A0 =C2=A0 =C2=A0 (kbytes, -l) 64</p><p>max memory=
 size =C2=A0 =C2=A0 =C2=A0 =C2=A0 (kbytes, -m) unlimited</p><p>open files =
=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=
=A0(-n) 102400</p><p>pipe size =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0(51=
2 bytes, -p) 8</p><p>POSIX message queues =C2=A0 =C2=A0 (bytes, -q) 819200<=
/p><p>real-time priority =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0(-=
r) 0</p><p>stack size =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0(kbyt=
es, -s) 10240</p><p>cpu time =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=
=A0 (seconds, -t) unlimited</p><p>max user processes =C2=A0 =C2=A0 =C2=A0 =
=C2=A0 =C2=A0 =C2=A0 =C2=A0(-u) 10240</p><p>virtual memory =C2=A0 =C2=A0 =
=C2=A0 =C2=A0 =C2=A0(kbytes, -v) unlimited</p><p>file locks =C2=A0 =C2=A0 =
=C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0 =C2=A0(-x) unlimite=
d</p><div><div class=3D"h5"><p>=C2=A0</p><p>=C2=A0</p><p style=3D"font-size=
:10pt;FONT-FAMILY:Gulim,AppleGothic,sans-serif;padding:0 0 0 10pt"><span>--=
---Original Message-----</span><br><b>From:</b> &quot;Drake=EB=AF=BC=EC=98=
=81=EA=B7=BC&quot;&lt;<a href=3D"mailto:drake.min@nexr.com" target=3D"_blan=
k">drake.min@nexr.com</a>&gt; <br><b>To:</b> &quot;user&quot;&lt;<a href=3D=
"mailto:user@hadoop.apache.org" target=3D"_blank">user@hadoop.apache.org</a=
>&gt;; &quot;=EC=A1=B0=EC=A3=BC=EC=9D=BC&quot;&lt;<a href=3D"mailto:tjstory=
@kgrid.co.kr" target=3D"_blank">tjstory@kgrid.co.kr</a>&gt;; <br><b>Cc:</b>=
 <br><b>Sent:</b> 2015-04-24 (=EA=B8=88) 16:58:46<br><b>Subject:</b> Re: ro=
lling upgrade(2.4.1 to 2.6.0) problem<br>=C2=A0</p><div dir=3D"ltr">HI,=C2=
=A0<div>=C2=A0</div><div>How about the ulimit setting of the user for hdfs =
datanode ?</div></div><div><br clear=3D"all"><div><div><div dir=3D"ltr"><di=
v><div dir=3D"ltr">Drake =EB=AF=BC=EC=98=81=EA=B7=BC Ph.D</div><div>kt NexR=
</div></div></div></div></div>
<br><div>On Wed, Apr 22, 2015 at 6:25 PM, =EC=A1=B0=EC=A3=BC=EC=9D=BC <span=
 dir=3D"ltr">&lt;<a href=3D"mailto:tjstory@kgrid.co.kr" target=3D"_blank">t=
jstory@kgrid.co.kr</a>&gt;</span> wrote:<br><blockquote style=3D"margin:0 0=
 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style=3D"font-siz=
e:9pt;font-family:Gulim"><p>=C2=A0</p><p>I allocated 5G.=C2=A0</p><p>I thin=
k OOM is not the cause of essentially=C2=A0</p><p>=C2=A0</p><p style=3D"fon=
t-size:10pt;FONT-FAMILY:Gulim,AppleGothic,sans-serif;padding:0 0 0 10pt"><s=
pan><span>-----Original Message-----</span><br><b>From:</b> &quot;Han-Cheol=
 Cho&quot;&lt;<a href=3D"mailto:hancheol.cho@nhn-playart.com" target=3D"_bl=
ank">hancheol.cho@nhn-playart.com</a>&gt; <br><b>To:</b> &lt;<a href=3D"mai=
lto:user@hadoop.apache.org" target=3D"_blank">user@hadoop.apache.org</a>&gt=
;; <br><b>Cc:</b> =C2=A0</span></p><div><div><b>Sent:</b> 2015-04-22 (=EC=
=88=98) 15:32:35<br><b>Subject:</b> RE: rolling upgrade(2.4.1 to 2.6.0) pro=
blem<br>=C2=A0</div></div><div><div><div style=3D"font-size:10pt;font-famil=
y:=EB=82=98=EB=88=94=EA=B3=A0=EB=94=95,NanumGothic,sans-serif"><p>Hi,</p><p=
>=C2=A0</p><p>The first warning shows out-of-memory error of JVM.</p><p>Did=
 you give enough max heap memory for DataNode daemons?</p><p style=3D"font-=
size:13.3333330154419px">DN daemons, by default, uses max heap size 1GB. So=
 if your DN requires more=C2=A0</p><p style=3D"font-size:13.3333330154419px=
">than that, it will be in a trouble.</p><div>=C2=A0</div><p><span style=3D=
"font-size:10pt;line-height:1.5">You can check the memory consumption of=C2=
=A0</span><span style=3D"font-size:10pt;line-height:1.5">you DN dameons </s=
pan><span style=3D"font-size:10pt;line-height:1.5">(e.g., top command)=C2=
=A0</span></p><p><span style=3D"font-size:10pt;line-height:1.5">and the mem=
ory allocated to them by -Xmx option (e.g., jps -lmv).</span></p><p><span s=
tyle=3D"font-size:10pt;line-height:1.5">If the max heap size is too small, =
you can use HADOOP_DATANODE_OPTS variable</span></p><p><span style=3D"font-=
size:10pt;line-height:1.5">(e.g., HADOOP_DATANODE_OPTS</span><span style=3D=
"font-size:13.3333330154419px;line-height:1.5">=3D&quot;-Xmx4g&quot;)=C2=A0=
</span><span style=3D"font-size:10pt;line-height:1.5">to override it.</span=
></p><p>=C2=A0</p><p>Best wishes,</p><p>Han-Cheol</p><p>=C2=A0</p><p>=C2=A0=
</p><p><span style=3D"font-size:10pt;line-height:1.5">=C2=A0</span></p><p>=
=C2=A0</p><p>=C2=A0</p><p style=3D"font-size:10pt;FONT-FAMILY:Gulim,AppleGo=
thic,sans-serif;padding:0 0 0 10pt"><span>-----Original Message-----</span>=
<br><b>From:</b> &quot;=EC=A1=B0=EC=A3=BC=EC=9D=BC&quot;&lt;<a href=3D"mail=
to:tjstory@kgrid.co.kr" target=3D"_blank">tjstory@kgrid.co.kr</a>&gt; <br><=
b>To:</b> &lt;<a href=3D"mailto:user@hadoop.apache.org" target=3D"_blank">u=
ser@hadoop.apache.org</a>&gt;; <br><b>Cc:</b> <br><b>Sent:</b> 2015-04-22 (=
=EC=88=98) 14:54:16<br><b>Subject:</b> rolling upgrade(2.4.1 to 2.6.0) prob=
lem<br>=C2=A0</p><div style=3D"font-size:9pt;font-family:Gulim"><p>=C2=A0</=
p><p>My Cluster is..</p><p>hadoop 2.4.1</p><p>Capacity : 1.24PB</p><p>Used =
1.1PB</p><p>16 Datanodes=C2=A0</p><p>Each node is a capacity of 65TB, 96TB,=
 80TB, Etc..</p><p>=C2=A0</p><p>I had to proceed with the rolling upgrade 2=
.4.1 to 2.6.0.=C2=A0</p><p>A data node upgraded takes about 40 minutes.=C2=
=A0</p><p>Occurs during the upgrade is in progress under-block.=C2=A0</p><p=
>=C2=A0</p><p>10 nodes completed upgrade 2.6.0.=C2=A0=C2=A0</p><p>Had a pro=
blem at some point during a rolling upgrade of the remaining nodes.</p><p>=
=C2=A0</p><p>Heartbeat of the many nodes(2.6.0 only) has failed.=C2=A0</p><=
p>=C2=A0</p><p>I did changes the following attributes but I did not fix the=
 problem,=C2=A0=C2=A0</p><p style=3D"margin-left:40px">dfs.datanode.handler=
.count =3D 100 ---&gt; 300, 400, 500=C2=A0=C2=A0</p><p style=3D"margin-left=
:40px">dfs.datanode.max.transfer.threads =3D 4096 ---&gt; 8000, 10000=C2=A0=
</p><p>=C2=A0</p><p>I think,=C2=A0</p><p>1. Something that causes a delay i=
n processing threads.=C2=A0<span style=3D"font-size:9pt;line-height:1.5">I =
think it may be because the block replication between different versions.</=
span></p><p>2. Whereby the many handlers and xceiver became necessary.=C2=
=A0</p><p>3.=C2=A0<span style=3D"font-size:9pt;line-height:1.5">Whereby the=
=C2=A0</span>out of memory<span style=3D"font-size:9pt;line-height:1.5">, a=
n error occurs. Or t</span>he problem arises on a datanode.</p><p>4. Heartb=
eat fails, and datanode dies.</p><div>=C2=A0</div><p>I found a datanode err=
or log for the following:=C2=A0</p><p>However, it is impossible to determin=
e the cause.=C2=A0</p><p>=C2=A0</p><p>I think, therefore I am. Called becau=
se it blocks the replication between different versions=C2=A0</p><p>=C2=A0<=
/p><p>Give me someone help me !!=C2=A0</p><p>=C2=A0</p><p>DATANODE LOG</p><=
p>-------------------------------------------------------------------------=
-</p><p>### I had to check a few thousand close_wait connection from the da=
tanode.</p><p><span style=3D"font-size:9pt;line-height:1.5">=C2=A0</span></=
p><p><span style=3D"font-size:9pt;line-height:1.5">org.apache.hadoop.hdfs.s=
erver.datanode.DataNode: Slow BlockReceiver write packet to mirror took 120=
7ms (threshold=3D300ms)</span></p><p>=C2=A0</p><p>2015-04-21 22:46:01,772 W=
ARN org.apache.hadoop.hdfs.server.datanode.DataNode: DataNode is out of mem=
ory. Will retry in 30 seconds.</p><p>java.lang.OutOfMemoryError: unable to =
create new native thread</p><p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at java.lang.Thr=
ead.start0(Native Method)</p><p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at java.lang.Th=
read.start(Thread.java:640)</p><p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.apache=
.hadoop.hdfs.server.datanode.DataXceiverServer.run(DataXceiverServer.java:1=
45)</p><p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at java.lang.Thread.run(Thread.java:6=
62)</p><p>2015-04-21 22:49:45,378 WARN org.apache.hadoop.hdfs.server.datano=
de.DataNode: datanode-192.168.1.207:40010:DataXceiverServer:java.io.IOExcep=
tion: Xceiver count 8193 exceeds the limit of concurrent xcievers: 8192</p>=
<p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.apache.hadoop.hdfs.server.datanode.Da=
taXceiverServer.run(DataXceiverServer.java:140)</p><p>=C2=A0 =C2=A0 =C2=A0 =
=C2=A0 at java.lang.Thread.run(Thread.java:662)<span style=3D"white-space:p=
re-wrap">		</span></p><p>2015-04-22 01:01:25,632 WARN org.apache.hadoop.hdf=
s.server.datanode.DataNode: datanode-192.168.1.207:40010:DataXceiverServer:=
java.io.IOException: Xceiver count 8193 exceeds the limit of concurrent xci=
evers: 8192</p><p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.apache.hadoop.hdfs.ser=
ver.datanode.DataXceiverServer.run(DataXceiverServer.java:140)</p><p>=C2=A0=
 =C2=A0 =C2=A0 =C2=A0 at java.lang.Thread.run(Thread.java:662)</p><p>2015-0=
4-22 03:49:44,125 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: da=
tanode-192.168.1.204:40010:DataXceiver error processing READ_BLOCK operatio=
n =C2=A0src: /<a href=3D"http://192.168.2.174:45606" target=3D"_blank">192.=
168.2.174:45606</a> dst: /<a href=3D"http://192.168.1.204:40010" target=3D"=
_blank">192.168.1.204:40010</a></p><p>java.io.IOException: cannot find BPOf=
ferService for bpid=3DBP-1770955034-0.0.0.0-1401163460236</p><p>=C2=A0 =C2=
=A0 =C2=A0 =C2=A0 at org.apache.hadoop.hdfs.server.datanode.DataNode.getDNR=
egistrationForBP(DataNode.java:1387)</p><p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at o=
rg.apache.hadoop.hdfs.server.datanode.DataXceiver.readBlock(DataXceiver.jav=
a:470)</p><p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.apache.hadoop.hdfs.protocol=
.datatransfer.Receiver.opReadBlock(Receiver.java:116)</p><p>=C2=A0 =C2=A0 =
=C2=A0 =C2=A0 at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.proc=
essOp(Receiver.java:71)</p><p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.apache.had=
oop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:235)</p><p>=C2=A0=
 =C2=A0 =C2=A0 =C2=A0 at java.lang.Thread.run(Thread.java:662)</p><p>2015-0=
4-22 05:30:28,947 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Dat=
anodeRegistration(192.168.1.203, datanodeUuid=3D654f22ef-84b3-4ecb-a959-2ea=
46d817c19, infoPort=3D40075, ipcPort=3D40020, storageInfo=3Dlv=3D-56;cid=3D=
CID-CLUSTER;nsid=3D239138164;c=3D1404883838982):Failed to transfer BP-17709=
55034-0.0.0.0-1401163460236:blk_1075354042_1613403 to <a href=3D"http://192=
.168.2.156:40010" target=3D"_blank">192.168.2.156:40010</a> got</p><p>java.=
net.SocketException: Original Exception : java.io.IOException: Connection r=
eset by peer</p><p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at sun.nio.ch.FileChannelImp=
l.transferTo0(Native Method)</p><p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at sun.nio.c=
h.FileChannelImpl.transferToDirectly(FileChannelImpl.java:405)</p><p>=C2=A0=
 =C2=A0 =C2=A0 =C2=A0 at sun.nio.ch.FileChannelImpl.transferTo(FileChannelI=
mpl.java:506)</p><p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.apache.hadoop.net.So=
cketOutputStream.transferToFully(SocketOutputStream.java:223)</p><p>=C2=A0 =
=C2=A0 =C2=A0 =C2=A0 at org.apache.hadoop.hdfs.server.datanode.BlockSender.=
sendPacket(BlockSender.java:559)</p><p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.a=
pache.hadoop.hdfs.server.datanode.BlockSender.sendBlock(BlockSender.java:72=
8)</p><p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.apache.hadoop.hdfs.server.datan=
ode.DataNode$DataTransfer.run(DataNode.java:2017)</p><p>=C2=A0 =C2=A0 =C2=
=A0 =C2=A0 at java.lang.Thread.run(Thread.java:662)</p><p>Caused by: java.i=
o.IOException: Connection reset by peer</p><p>=C2=A0 =C2=A0 =C2=A0 =C2=A0 .=
.. 8 more</p><p>=C2=A0</p><p>=C2=A0</p></div>
<table><tbody><tr><td></td></tr></tbody></table>

</div>
<table><tbody><tr><td></td></tr></tbody></table>
<table><tbody><tr><td></td></tr></tbody></table>

<div style=3D"display:none!important;min-height:auto!important;width:auto!i=
mportant;vertical-align:middle!important;padding:1px!important;margin:0px!i=
mportant;font-size:9pt!important;line-height:normal!important;font-family:&=
#39;\00b9d1\00c740  \00ace0\00b515&#39;;font-weight:bold;color:rgb(0,0,0);b=
order:1px solid rgb(112,112,112);overflow:hidden;white-space:nowrap;border-=
radius:0.2em;background:-webkit-gradient(linear,0% 0%,0% 100%,from(rgb(240,=
240,240)),to(rgb(220,220,220)))"></div></div></div></div>
<table><tbody><tr><td></td></tr></tbody></table></blockquote></div>=C2=A0</=
div>


</div></div></div>
<table><tbody><tr><td><img src=3D"http://mail.naver.com/readReceipt/notify/=
?img=3DAmFZ1zFdMrYsbrJR%2BHFGhzMraAU9axtlF4EdFxUZpxuwKqbrKqMZM4p0aAt%2FpAbX=
tzFXp6UwKSl5WLl51zlqDBFdp6d5MreRhoR9brkZtzCCpzeTbVlCbzJo1zE5WXiN.gif" borde=
r=3D"0"></td></tr></tbody></table></blockquote></div><br></div>

--047d7b674400a2c3720514745ec5--