Mailing-List: contact user-help@hadoop.apache.org; run by ezmlm
Precedence: bulk
Reply-To: user@hadoop.apache.org
Received-SPF: pass (nike.apache.org: domain of ana.gillan@gmail.com designates
 209.85.212.171 as permitted sender)
User-Agent: Microsoft-MacOutlook/14.4.3.140616
Date: Mon, 04 Aug 2014 12:52:14 +0100
Subject: Re:
 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException)
From: Ana Gillan <ana.gillan@gmail.com>
To: <user@hadoop.apache.org>
Message-ID: <D005327E.3DC2%ana.gillan@gmail.com>
Thread-Topic: 
 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException)
References: <D002C11B.3C6A%ana.gillan@gmail.com>
 <CADtHtMx2z99jGXOu2mfyNOU3Y5Cx_Gh6+_1pO5kTyszwD_n_eA@mail.gmail.com>
 <D002C3D2.3C7C%ana.gillan@gmail.com>
 <D002CA3A.3C7F%ana.gillan@gmail.com>
 <CADtHtMyYURudvXd4+PdrXeeHnxv9pD5jWW1fjgxm8iWGqMh5zw@mail.gmail.com>
 <D002D56C.3C90%ana.gillan@gmail.com>
 <CADtHtMyCrB_9KVFFGB0adBg=HaruBDSZ_DVkTNpM6EDF++GpCQ@mail.gmail.com>
 <D002F431.3D1D%ana.gillan@gmail.com>
In-Reply-To: <D002F431.3D1D%ana.gillan@gmail.com>
Mime-version: 1.0
Content-type: multipart/alternative;
	boundary="B_3490001552_20879299"

> This message is in MIME format. Since your mail reader does not understand
this format, some or all of this message may not be legible.

--B_3490001552_20879299
Content-type: text/plain;
	charset="ISO-8859-1"
Content-transfer-encoding: quoted-printable

Hi,

Unfortunately, after I set my user=B9s ulimit =ADn to  65536, I still get the
same bad performance, killed containers and errors as before.

I collected together a bunch of logs around the moment when the containers
are being killed (application master log, killed container log, hadoop-hdfs
logs, hadoop-yarn logs) and this is what=B9s happening in order. The
PrivilegedActionException, is that something? Is my user not in some sort o=
f
correct group?

Thanks in advance!
Ana

2014-08-04 12:21:47,868 INFO [IPC Server handler 4 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Ping from
attempt_1403771939632_0413_m_000006_0
2014-08-04 12:21:47,979 INFO [IPC Server handler 5 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Ping from
attempt_1403771939632_0413_m_000000_0
2014-08-04 12:21:48,102 INFO [IPC Server handler 6 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt
attempt_1403771939632_0413_m_000002_0 is : 0.061734322
2014-08-04 12:21:48,102 INFO [IPC Server handler 6 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Status update from
attempt_1403771939632_0413_m_000002_0
2014-08-04 12:21:48,110 INFO org.apache.hadoop.hdfs.StateChange: BLOCK*
allocateBlock:=20
/tmp/hive-zslf023/hive_2014-08-04_12-16-12_475_8240516609553931504/_task_tm=
p
.-ext-10001/_tmp.000006_1. BP-1198908146-10.0.0.11-1399888065184
blk_-300655159790361685_67008{blockUCState=3DUNDER_CONSTRUCTION,
primaryNodeIndex=3D-1,
replicas=3D[ReplicaUnderConstruction[10.0.0.44:50010|RBW],
ReplicaUnderConstruction[10.0.0.43:50010|RBW],
ReplicaUnderConstruction[10.0.0.40:50010|RBW]]}
2014-08-04 12:21:48,145 INFO BlockStateChange: BLOCK* addStoredBlock:
blockMap updated: 10.0.0.40:50010 is added to
blk_-300655159790361685_67008{blockUCState=3DUNDER_CONSTRUCTION,
primaryNodeIndex=3D-1,
replicas=3D[ReplicaUnderConstruction[10.0.0.44:50010|RBW],
ReplicaUnderConstruction[10.0.0.43:50010|RBW],
ReplicaUnderConstruction[10.0.0.40:50010|RBW]]} size 0
2014-08-04 12:21:48,145 INFO BlockStateChange: BLOCK* addStoredBlock:
blockMap updated: 10.0.0.43:50010 is added to
blk_-300655159790361685_67008{blockUCState=3DUNDER_CONSTRUCTION,
primaryNodeIndex=3D-1,
replicas=3D[ReplicaUnderConstruction[10.0.0.44:50010|RBW],
ReplicaUnderConstruction[10.0.0.43:50010|RBW],
ReplicaUnderConstruction[10.0.0.40:50010|RBW]]} size 0
2014-08-04 12:21:48,146 INFO BlockStateChange: BLOCK* addStoredBlock:
blockMap updated: 10.0.0.44:50010 is added to
blk_-300655159790361685_67008{blockUCState=3DUNDER_CONSTRUCTION,
primaryNodeIndex=3D-1,
replicas=3D[ReplicaUnderConstruction[10.0.0.44:50010|RBW],
ReplicaUnderConstruction[10.0.0.43:50010|RBW],
ReplicaUnderConstruction[10.0.0.40:50010|RBW]]} size 0
2014-08-04 12:21:48,147 INFO org.apache.hadoop.hdfs.StateChange: DIR*
completeFile:=20
/tmp/hive-zslf023/hive_2014-08-04_12-16-12_475_8240516609553931504/_task_tm=
p
.-ext-10001/_tmp.000006_1 is closed by
DFSClient_attempt_1403771939632_0413_m_000006_1_-1142346950_1
2014-08-04 12:21:48,147 INFO
org.apache.hadoop.hdfs.server.namenode.FSEditLog: Number of transactions:
422 Total time for transactions(ms): 5 Number of transactions batched in
Syncs: 0 Number of syncs: 186 SyncTimes(ms): 204
2014-08-04 12:21:48,155 INFO [IPC Server handler 7 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt
attempt_1403771939632_0413_m_000006_1 is : 0.93497133
2014-08-04 12:21:48,155 INFO [IPC Server handler 7 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Status update from
attempt_1403771939632_0413_m_000006_1
2014-08-04 12:21:48,176 INFO [IPC Server handler 8 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt
attempt_1403771939632_0413_m_000006_1 is : 1.0
2014-08-04 12:21:48,176 INFO [IPC Server handler 8 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Status update from
attempt_1403771939632_0413_m_000006_1
2014-08-04 12:21:48,177 INFO [AsyncDispatcher event handler]
org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:
attempt_1403771939632_0413_m_000006_1 TaskAttempt Transitioned from RUNNING
to SUCCESS_CONTAINER_CLEANUP
2014-08-04 12:21:48,177 INFO [IPC Server handler 9 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Done acknowledgement from
attempt_1403771939632_0413_m_000006_1
2014-08-04 12:21:48,178 INFO [ContainerLauncher #4]
org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl: KILLING
attempt_1403771939632_0413_m_000006_1
2014-08-04 12:21:48,178 INFO [ContainerLauncher #4]
org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl:
Processing the event EventType: CONTAINER_REMOTE_CLEANUP for container
container_1403771939632_0413_01_000016 taskAttempt
attempt_1403771939632_0413_m_000006_1
2014-08-04 12:21:48,195 INFO [AsyncDispatcher event handler]
org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:
attempt_1403771939632_0413_m_000006_1 TaskAttempt Transitioned from
SUCCESS_CONTAINER_CLEANUP to SUCCEEDED
2014-08-04 12:21:48,196 INFO [AsyncDispatcher event handler]
org.apache.hadoop.mapreduce.v2.app.job.impl.JobImpl: Num completed Tasks: 2
2014-08-04 12:21:48,196 INFO [AsyncDispatcher event handler]
org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:
attempt_1403771939632_0413_m_000006_0 TaskAttempt Transitioned from RUNNING
to KILL_CONTAINER_CLEANUP
2014-08-04 12:21:48,196 INFO [AsyncDispatcher event handler]
org.apache.hadoop.mapreduce.v2.app.job.impl.TaskImpl: Issuing kill to other
attempt attempt_1403771939632_0413_m_000006_0
2014-08-04 12:21:48,196 INFO [AsyncDispatcher event handler]
org.apache.hadoop.mapreduce.v2.app.job.impl.TaskImpl: Task succeeded with
attempt attempt_1403771939632_0413_m_000006_1
2014-08-04 12:21:48,196 INFO [AsyncDispatcher event handler]
org.apache.hadoop.mapreduce.v2.app.job.impl.TaskImpl:
task_1403771939632_0413_m_000006 Task Transitioned from RUNNING to SUCCEEDE=
D
2014-08-04 12:21:48,197 INFO [ContainerLauncher #7]
org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl: KILLING
attempt_1403771939632_0413_m_000006_0
2014-08-04 12:21:48,197 INFO [ContainerLauncher #7]
org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl:
Processing the event EventType: CONTAINER_REMOTE_CLEANUP for container
container_1403771939632_0413_01_000009 taskAttempt
attempt_1403771939632_0413_m_000006_0
2014-08-04 12:21:48,219 INFO [AsyncDispatcher event handler]
org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:
attempt_1403771939632_0413_m_000006_0 TaskAttempt Transitioned from
KILL_CONTAINER_CLEANUP to KILL_TASK_CLEANUP
2014-08-04 12:21:48,230 INFO [CommitterEvent Processor #1]
org.apache.hadoop.mapreduce.v2.app.commit.CommitterEventHandler: Processing
the event EventType: TASK_ABORT
2014-08-04 12:21:48,231 INFO [AsyncDispatcher event handler]
org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:
attempt_1403771939632_0413_m_000006_0 TaskAttempt Transitioned from
KILL_TASK_CLEANUP to KILLED
2014-08-04 12:21:48,318 INFO [IPC Server handler 10 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt
attempt_1403771939632_0413_m_000002_1 is : 0.047582902
2014-08-04 12:21:48,318 INFO [IPC Server handler 10 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Status update from
attempt_1403771939632_0413_m_000002_1
2014-08-04 12:21:48,370 ERROR
org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException
as:zslf023 (auth:SIMPLE)
cause:org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No leas=
e
on=20
/tmp/hive-zslf023/hive_2014-08-04_12-16-12_475_8240516609553931504/_task_tm=
p
.-ext-10001/_tmp.000006_0: File does not exist. Holder
DFSClient_attempt_1403771939632_0413_m_000006_0_-820182675_1 does not have
any open files.
2014-08-04 12:21:48,370 INFO org.apache.hadoop.ipc.Server: IPC Server
handler 9 on 8020, call
org.apache.hadoop.hdfs.protocol.ClientProtocol.addBlock from
10.0.0.42:41375: error:
org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on
/tmp/hive-zslf023/hive_2014-08-04_12-16-12_475_8240516609553931504/_task_tm=
p
.-ext-10001/_tmp.000006_0: File does not exist. Holder
DFSClient_attempt_1403771939632_0413_m_000006_0_-820182675_1 does not have
any open files.
2014-08-04 12:21:48,378 WARN [Thread-8] org.apache.hadoop.hdfs.DFSClient:
DataStreamer Exception
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenod=
e
.LeaseExpiredException): No lease on
/tmp/hive-zslf023/hive_2014-08-04_12-16-12_475_8240516609553931504/_task_tm=
p
.-ext-10001/_tmp.000006_0: File does not exist. Holder
DFSClient_attempt_1403771939632_0413_m_000006_0_-820182675_1 does not have
any open files.
2014-08-04 12:21:48,379 ERROR [Thread-3] org.apache.hadoop.hdfs.DFSClient:
Failed to close file
/tmp/hive-zslf023/hive_2014-08-04_12-16-12_475_8240516609553931504/_task_tm=
p
.-ext-10001/_tmp.000006_0
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenod=
e
.LeaseExpiredException): No lease on
/tmp/hive-zslf023/hive_2014-08-04_12-16-12_475_8240516609553931504/_task_tm=
p
.-ext-10001/_tmp.000006_0: File does not exist. Holder
DFSClient_attempt_1403771939632_0413_m_000006_0_-820182675_1 does not have
any open files.
2014-08-04 12:21:48,383 INFO [IPC Server handler 11 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Ping from
attempt_1403771939632_0413_m_000000_1
2014-08-04 12:21:48,620 INFO [RMCommunicator Allocator]
org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Before
Scheduling: PendingReds:0 ScheduledMaps:0 ScheduledReds:0 AssignedMaps:14
AssignedReds:0 CompletedMaps:2 CompletedReds:0 ContAlloc:15 ContRel:0
HostLocal:5 RackLocal:10
2014-08-04 12:21:49,198 INFO
org.apache.hadoop.yarn.server.resourcemanager.rmcontainer.RMContainerImpl:
container_1403771939632_0413_01_000016 Container Transitioned from RUNNING
to COMPLETED
2014-08-04 12:21:49,199 INFO
org.apache.hadoop.yarn.server.resourcemanager.RMAuditLogger: USER=3Dzslf023
OPERATION=3DAM Released Container TARGET=3DSchedulerApp RESULT=3DSUCCESS
APPID=3Dapplication_1403771939632_0413
CONTAINERID=3Dcontainer_1403771939632_0413_01_000016
2014-08-04 12:21:49,199 INFO
org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySc=
h
eduler: Application appattempt_1403771939632_0413_000001 released container
container_1403771939632_0413_01_000016 on node: host:
slave4.hadoop.local:57340 #containers=3D1 available=3D24576 used=3D4096 with
event: FINISHED
2014-08-04 12:21:49,199 INFO
org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.LeafQueue:
completedContainer container=3DContainer: [ContainerId:
container_1403771939632_0413_01_000016, NodeId: slave4.hadoop.local:57340,
NodeHttpAddress: slave4.hadoop.local:8042, Resource: <memory:4096,
vCores:1>, Priority: 20, State: NEW, Token: null, Status: container_id {,
app_attempt_id {, application_id {, id: 413, cluster_timestamp:
1403771939632, }, attemptId: 1, }, id: 16, }, state: C_COMPLETE,
diagnostics: "Container killed by the ApplicationMaster.\n\n", exit_status:
143, ] resource=3D<memory:4096, vCores:1> queue=3Ddefault: capacity=3D1.0,
absoluteCapacity=3D1.0, usedResources=3D<memory:57344,
vCores:14>usedCapacity=3D0.2857143, absoluteUsedCapacity=3D0.2857143, numApps=3D1=
,
numContainers=3D14 usedCapacity=3D0.2857143 absoluteUsedCapacity=3D0.2857143
used=3D<memory:57344, vCores:14> cluster=3D<memory:200704, vCores:112>
2014-08-04 12:21:49,199 INFO
org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.LeafQueue:
default used=3D<memory:57344, vCores:14> numContainers=3D14 user=3Dzslf023
user-resources=3D<memory:57344, vCores:14>
2014-08-04 12:21:49,199 INFO
org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.ParentQueu=
e
: completedContainer queue=3Droot usedCapacity=3D0.2857143
absoluteUsedCapacity=3D0.2857143 used=3D<memory:57344, vCores:14>
cluster=3D<memory:200704, vCores:112>
2014-08-04 12:21:49,199 INFO
org.apache.hadoop.yarn.server.resourcemanager.scheduler.common.fica.FiCaSch=
e
dulerApp: Completed container: container_1403771939632_0413_01_000016 in
state: COMPLETED event:FINISHED
2014-08-04 12:21:49,199 INFO
org.apache.hadoop.yarn.server.resourcemanager.scheduler.common.fica.FiCaSch=
e
dulerNode: Released container container_1403771939632_0413_01_000016 of
capacity <memory:4096, vCores:1> on host slave4.hadoop.local:57340, which
currently has 1 containers, <memory:4096, vCores:1> used and <memory:24576,
vCores:15> available, release resources=3Dtrue
2014-08-04 12:21:49,215 INFO
org.apache.hadoop.yarn.server.resourcemanager.RMAuditLogger: USER=3Dzslf023
OPERATION=3DAM Released Container TARGET=3DSchedulerApp RESULT=3DSUCCESS
APPID=3Dapplication_1403771939632_0413
CONTAINERID=3Dcontainer_1403771939632_0413_01_000009
2014-08-04 12:21:49,215 INFO
org.apache.hadoop.yarn.server.resourcemanager.rmcontainer.RMContainerImpl:
container_1403771939632_0413_01_000009 Container Transitioned from RUNNING
to COMPLETED
2014-08-04 12:21:49,215 INFO
org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.LeafQueue:
default used=3D<memory:53248, vCores:13> numContainers=3D13 user=3Dzslf023
user-resources=3D<memory:53248, vCores:13>
2014-08-04 12:21:49,215 INFO
org.apache.hadoop.yarn.server.resourcemanager.scheduler.common.fica.FiCaSch=
e
dulerApp: Completed container: container_1403771939632_0413_01_000009 in
state: COMPLETED event:FINISHED
2014-08-04 12:21:49,215 INFO
org.apache.hadoop.yarn.server.resourcemanager.scheduler.common.fica.FiCaSch=
e
dulerNode: Released container container_1403771939632_0413_01_000009 of
capacity <memory:4096, vCores:1> on host slave2.hadoop.local:51269, which
currently has 6 containers, <memory:24576, vCores:6> used and <memory:4096,
vCores:10> available, release resources=3Dtrue
2014-08-04 12:21:49,216 INFO
org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySc=
h
eduler: Application appattempt_1403771939632_0413_000001 released container
container_1403771939632_0413_01_000009 on node: host:
slave2.hadoop.local:51269 #containers=3D6 available=3D4096 used=3D24576 with
event: FINISHED
2014-08-04 12:21:49,216 INFO
org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.LeafQueue:
completedContainer container=3DContainer: [ContainerId:
container_1403771939632_0413_01_000009, NodeId: slave2.hadoop.local:51269,
NodeHttpAddress: slave2.hadoop.local:8042, Resource: <memory:4096,
vCores:1>, Priority: 20, State: NEW, Token: null, Status: container_id {,
app_attempt_id {, application_id {, id: 413, cluster_timestamp:
1403771939632, }, attemptId: 1, }, id: 9, }, state: C_COMPLETE, diagnostics=
:
"Container killed by the ApplicationMaster.\n\n", exit_status: 143, ]
resource=3D<memory:4096, vCores:1> queue=3Ddefault: capacity=3D1.0,
absoluteCapacity=3D1.0, usedResources=3D<memory:53248,
vCores:13>usedCapacity=3D0.26530612, absoluteUsedCapacity=3D0.26530612,
numApps=3D1, numContainers=3D13 usedCapacity=3D0.26530612
absoluteUsedCapacity=3D0.26530612 used=3D<memory:53248, vCores:13>
cluster=3D<memory:200704, vCores:112>
2014-08-04 12:21:49,216 INFO
org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.ParentQueu=
e
: completedContainer queue=3Droot usedCapacity=3D0.26530612
absoluteUsedCapacity=3D0.26530612 used=3D<memory:53248, vCores:13>
cluster=3D<memory:200704, vCores:112>
2014-08-04 12:21:49,363 INFO [IPC Server handler 12 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Ping from
attempt_1403771939632_0413_m_000001_1
2014-08-04 12:21:49,502 INFO [IPC Server handler 13 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Ping from
attempt_1403771939632_0413_m_000003_1
2014-08-04 12:21:49,623 INFO [RMCommunicator Allocator]
org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Received
completed container container_1403771939632_0413_01_000016
2014-08-04 12:21:49,624 INFO [AsyncDispatcher event handler]
org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics
report from attempt_1403771939632_0413_m_000006_0: Container killed by the
ApplicationMaster.
2014-08-04 12:21:49,624 INFO [AsyncDispatcher event handler]
org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics
report from attempt_1403771939632_0413_m_000006_1: Container killed by the
ApplicationMaster.
2014-08-04 12:21:49,624 INFO [RMCommunicator Allocator]
org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: After
Scheduling: PendingReds:0 ScheduledMaps:0 ScheduledReds:0 AssignedMaps:12
AssignedReds:0 CompletedMaps:2 CompletedReds:0 ContAlloc:15 ContRel:0
HostLocal:5 RackLocal:10
2014-08-04 12:21:49,624 INFO [RMCommunicator Allocator]
org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Received
completed container container_1403771939632_0413_01_000009
2014-08-04 12:21:49,702 INFO [IPC Server handler 14 on 49784]
org.apache.hadoop.mapred.TaskAttemptListenerImpl: Ping from
attempt_1403771939632_0413_m_000004_1


From:  Ana Gillan <ana.gillan@gmail.com>
Date:  Saturday, 2 August 2014 20:02
To:  <user@hadoop.apache.org>
Subject:  Re:=20
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenod=
e
.LeaseExpiredException)

Ok, I will request this to be done, as I=B9m not an admin, and then get back
to this thread on Monday. Thank you!

From:  hadoop hive <hadoophive@gmail.com>
Reply-To:  <user@hadoop.apache.org>
Date:  Saturday, 2 August 2014 18:50
To:  <user@hadoop.apache.org>
Subject:  Re:=20
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenod=
e
.LeaseExpiredException)


Hey try change ulimit to 64k for user which running query and change time
from scheduler which should be set to 600sec.

Check the jt logs also for further issues.

Thanks


From: Ana Gillan <ana.gillan@gmail.com>
Date: Saturday, 2 August 2014 18:38
To: <user@hadoop.apache.org>
Subject: Re:=20
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenod=
e
.LeaseExpiredException)

I=B9m not sure which user is fetching the data, but I=B9m assuming no one
changed that from the default. The data isn=B9t huge in size, just in number,
so I suppose the open files limit is not the issue?

I=B9m running the job again with mapred.task.timeout=3D1200000, but containers
are still being killed in the same way=8A Just without the timeout message.
And it somehow massively slowed down the machine as well, so even typing
commands took a long time (???)

I=B9m not sure what you mean by which stage it=B9s getting killed on. If you
mean in the command line progress counters, it's always on Stage-1.
Also, this is the end of the container log for the killed container. Failed
and killed jobs always start fine with lots of these =B3processing file=B2 and
=B3processing alias=B2 statements, but then suddenly warn about a DataStreamer
Exception and then are killed with an error, which is the same as the
warning. Not sure if this exception is the actual issue or if it=B9s just a
knock-on effect of something else.

2014-08-02 17:47:38,618 INFO [main]
org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader: Processing file
hdfs://clustnm:8020/user/usnm123/foldernm/fivek/2w63.xml.gz
2014-08-02 17:47:38,641 INFO [main]
org.apache.hadoop.hive.ql.exec.MapOperator: Processing alias
foldernm_xml_load for file hdfs://clustnm:8020/user/usnm123/foldernm/fivek
2014-08-02 17:47:38,932 INFO [main]
org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader: Processing file
hdfs://clustnm:8020/user/usnm123/foldernm/fivek/2w67.xml.gz
2014-08-02 17:47:38,989 INFO [main]
org.apache.hadoop.hive.ql.exec.MapOperator: Processing alias
foldernm_xml_load for file hdfs://clustnm:8020/user/usnm123/foldernm/fivek
2014-08-02 17:47:42,675 INFO [main]
org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader: Processing file
hdfs://clustnm:8020/user/usnm123/foldernm/fivek/2w6i.xml.gz
2014-08-02 17:47:42,888 INFO [main]
org.apache.hadoop.hive.ql.exec.MapOperator: Processing alias
foldernm_xml_load for file hdfs://clustnm:8020/user/usnm123/foldernm/fivek
2014-08-02 17:47:45,416 WARN [Thread-8] org.apache.hadoop.hdfs.DFSClient:
DataStreamer Exception
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenod=
e
.LeaseExpiredException): No lease on
/tmp/hive-usnm123/hive_2014-08-02_17-41-52_914_251548734850890001/_task_tmp=
.
-ext-10001/_tmp.000006_0: File does not exist. Holder
DFSClient_attempt_1403771939632_0409_m_000006_0_303479000_1 does not have
any open files.
at=20
org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem=
.
java:2398)
at=20
org.apache.hadoop.hdfs.server.namenode.FSNamesystem.analyzeFileState(FSName=
s
ystem.java:2217)
at=20
org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNa=
m
esystem.java:2137)
at=20
org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(NameNodeR=
p
cServer.java:491)
at=20
org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslato=
r
PB.addBlock(ClientNamenodeProtocolServerSideTranslatorPB.java:351)
at=20
org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNa=
m
enodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java:40744)
at=20
org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(Prot=
o
bufRpcEngine.java:454)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1014)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1741)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1737)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at=20
org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.j=
a
va:1478)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1735)

at org.apache.hadoop.ipc.Client.call(Client.java:1240)
at=20
org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.ja=
v
a:202)
at com.sun.proxy.$Proxy10.addBlock(Unknown Source)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at=20
sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:3=
9
)
at=20
sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImp=
l
.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at=20
org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocat=
i
onHandler.java:164)
at=20
org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHan=
d
ler.java:83)
at com.sun.proxy.$Proxy10.addBlock(Unknown Source)
at=20
org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.addBlo=
c
k(ClientNamenodeProtocolTranslatorPB.java:311)
at=20
org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.locateFollowingBlock(DF=
S
OutputStream.java:1156)
at=20
org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(D=
F
SOutputStream.java:1009)
at=20
org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.jav=
a
:464)
2014-08-02 17:47:45,417 ERROR [Thread-3] org.apache.hadoop.hdfs.DFSClient:
Failed to close file
/tmp/hive-usnm123/hive_2014-08-02_17-41-52_914_251548734850890001/_task_tmp=
.
-ext-10001/_tmp.000006_0
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenod=
e
.LeaseExpiredException): No lease on
/tmp/hive-usnm123/hive_2014-08-02_17-41-52_914_251548734850890001/_task_tmp=
.
-ext-10001/_tmp.000006_0: File does not exist. Holder
DFSClient_attempt_1403771939632_0409_m_000006_0_303479000_1 does not have
any open files.
at=20
org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem=
.
java:2398)
at=20
org.apache.hadoop.hdfs.server.namenode.FSNamesystem.analyzeFileState(FSName=
s
ystem.java:2217)
at=20
org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNa=
m
esystem.java:2137)
at=20
org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(NameNodeR=
p
cServer.java:491)
at=20
org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslato=
r
PB.addBlock(ClientNamenodeProtocolServerSideTranslatorPB.java:351)
at=20
org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNa=
m
enodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java:40744)
at=20
org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(Prot=
o
bufRpcEngine.java:454)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1014)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1741)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1737)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at=20
org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.j=
a
va:1478)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1735)

at org.apache.hadoop.ipc.Client.call(Client.java:1240)
at=20
org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.ja=
v
a:202)
at com.sun.proxy.$Proxy10.addBlock(Unknown Source)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at=20
sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:3=
9
)
at=20
sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImp=
l
.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at=20
org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocat=
i
onHandler.java:164)
at=20
org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHan=
d
ler.java:83)
at com.sun.proxy.$Proxy10.addBlock(Unknown Source)
at=20
org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.addBlo=
c
k(ClientNamenodeProtocolTranslatorPB.java:311)
at=20
org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.locateFollowingBlock(DF=
S
OutputStream.java:1156)
at=20
org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(D=
F
SOutputStream.java:1009)
at=20
org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.jav=
a
:464)


Thanks a lot for your attention!	

From: hadoop hive <hadoophive@gmail.com>
Reply-To: <user@hadoop.apache.org>
Date: Saturday, 2 August 2014 17:36
To: <user@hadoop.apache.org>
Subject: Re:=20
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenod=
e
.LeaseExpiredException)


32k seems fine for mapred user(hope you using this for fetching you data)
but if you have huge data on your system you can try 64k.

Did you try increasing you time from 600 sec to like 20 mins.

Can you also check on which stage its getting hanged or killed.

Thanks

From: hadoop hive <hadoophive@gmail.com>
Reply-To: <user@hadoop.apache.org>
Date: Saturday, 2 August 2014 17:36
To: <user@hadoop.apache.org>
Subject: Re:=20
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenod=
e
.LeaseExpiredException)


32k seems fine for mapred user(hope you using this for fetching you data)
but if you have huge data on your system you can try 64k.

Did you try increasing you time from 600 sec to like 20 mins.

Can you also check on which stage its getting hanged or killed.

Thanks
On Aug 2, 2014 9:38 PM, "Ana Gillan" <ana.gillan@gmail.com> wrote:
> Filemax across the cluster is set to over 6 million. I=B9ve checked the ope=
n
> file limits for the accounts used by the Hadoop daemons  and they have an=
 open
> file limit of 32K. This is confirmed by the various .out files, e.g.
>=20
> /var/log/hadoop-hdfs/hadoop-hdfs-datanode-slave1.out
>=20
> Contains open files (-n) 32768. Is this too low? What is the recommended =
value
> for open files on all nodes? Also does my own user need to have the same
> value?
>=20
> I=B9ve also tried running the same column selection on files crushed by the
> filecrush program https://github.com/edwardcapriolo/filecrush/
> This created 5 large files out of the 10,000 small files (still totally 2=
gb
> compressed), but this job won=B9t progress past 0% map.
>=20
> From: Ana Gillan <ana.gillan@gmail.com>
> Date: Saturday, 2 August 2014 16:36
> To: <user@hadoop.apache.org>
> Subject: Re:=20
> org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namen=
ode.L
> easeExpiredException)
>=20
> For my own user? It is as follows:
>=20
> core file size          (blocks, -c) 0
>=20
> data seg size           (kbytes, -d) unlimited
>=20
> scheduling priority             (-e) 0
>=20
> file size               (blocks, -f) unlimited
>=20
> pending signals                 (-i) 483941
>=20
> max locked memory       (kbytes, -l) 64
>=20
> max memory size         (kbytes, -m) unlimited
>=20
> open files                      (-n) 1024
>=20
> pipe size            (512 bytes, -p) 8
>=20
> POSIX message queues     (bytes, -q) 819200
>=20
> real-time priority              (-r) 0
>=20
> stack size              (kbytes, -s) 8192
>=20
> cpu time               (seconds, -t) unlimited
>=20
> max user processes              (-u) 800
>=20
> virtual memory          (kbytes, -v) unlimited
>=20
> file locks                      (-x) unlimited
>=20
>=20
> From: hadoop hive <hadoophive@gmail.com>
> Reply-To: <user@hadoop.apache.org>
> Date: Saturday, 2 August 2014 16:34
> To: <user@hadoop.apache.org>
> Subject: Re:=20
> org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namen=
ode.L
> easeExpiredException)
>=20
>=20
> Can you check the ulimit for tour user. Which might be causing this.
>=20
> On Aug 2, 2014 8:54 PM, "Ana Gillan" <ana.gillan@gmail.com> wrote:
>> Hi everyone,
>>=20
>> I am having an issue with MapReduce jobs running through Hive being kill=
ed
>> after 600s timeouts and with very simple jobs taking over 3 hours (or ju=
st
>> failing) for a set of files with a compressed size of only 1-2gb. I will=
 try
>> and provide as much information as I can here, so if someone can help, t=
hat
>> would be really great.
>>=20
>> I have a cluster of 7 nodes (1 master, 6 slaves) with the following conf=
ig:
>>> =80 Master node:
>>>=20
>>> =AD 2 x Intel Xeon 6-core E5-2620v2 @ 2.1GHz
>>>=20
>>> =AD 64GB DDR3 SDRAM
>>>=20
>>> =AD 8 x 2TB SAS 600 hard drive (arranged as RAID 1 and RAID 5)
>>>=20
>>> =80 Slave nodes (each):
>>>=20
>>> =AD Intel Xeon 4-core E3-1220v3 @ 3.1GHz
>>>=20
>>> =AD 32GB DDR3 SDRAM
>>>=20
>>> =AD 4 x 2TB SATA-3 hard drive
>>>=20
>>> =80 Operating system on all nodes: openSUSE Linux 13.1
>>=20
>> We have the Apache BigTop package version 0.7, with Hadoop version
>> 2.0.6-alpha and Hive version 0.11.
>> YARN has been configured as per these recommendations:
>> http://hortonworks.com/blog/how-to-plan-and-configure-yarn-in-hdp-2-0/
>>=20
>> I also set the following additional settings before running jobs:
>> set yarn.nodemanager.resource.cpu-vcores=3D4;
>> set mapred.tasktracker.map.tasks.maximum=3D4;
>> set hive.hadoop.supports.splittable.combineinputformat=3Dtrue;
>> set hive.merge.mapredfiles=3Dtrue;
>>=20
>> No one else uses this cluster while I am working.
>>=20
>> What I=B9m trying to do:
>> I have a bunch of XML files on HDFS, which I am reading into Hive using =
this
>> SerDe https://github.com/dvasilen/Hive-XML-SerDe. I then want to create =
a
>> series of tables from these files and finally run a Python script on one=
 of
>> them to perform some scientific calculations. The files are .xml.gz form=
at
>> and (uncompressed) are only about 4mb in size each. hive.input.format is=
 set
>> to org.apache.hadoop.hive.ql.io.CombineHiveInputFormat so as to avoid th=
e
>> =B3small files problem.=B2
>>=20
>> Problems:
>> My HQL statements work perfectly for up to 1000 of these files. Even for=
 much
>> larger numbers, doing select * works fine, which means the files are bei=
ng
>> read properly, but if I do something as simple as selecting just one col=
umn
>> from the whole table for a larger number of files, containers start bein=
g
>> killed and jobs fail with this error in the container logs:
>>=20
>> 2014-08-02 14:51:45,137 ERROR [Thread-3] org.apache.hadoop.hdfs.DFSClien=
t:
>> Failed to close file
>> /tmp/hive-zslf023/hive_2014-08-02_12-33-59_857_6455822541748133957/_task=
_tmp.
>> -ext-10001/_tmp.000000_0
>> org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.name=
node.
>> LeaseExpiredException): No lease on
>> /tmp/hive-zslf023/hive_2014-08-02_12-33-59_857_6455822541748133957/_task=
_tmp.
>> -ext-10001/_tmp.000000_0: File does not exist. Holder
>> DFSClient_attempt_1403771939632_0402_m_000000_0_-1627633686_1 does not h=
ave
>> any open files.
>> at=20
>> org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesys=
tem.j
>> ava:2398)
>>=20
>> Killed jobs show the above and also the following message:
>> AttemptID:attempt_1403771939632_0402_m_000000_0 Timed out after 600
>> secsContainer killed by the ApplicationMaster.
>>=20
>> Also, in the node logs, I get a lot of pings like this:
>> INFO [IPC Server handler 17 on 40961]
>> org.apache.hadoop.mapred.TaskAttemptListenerImpl: Ping from
>> attempt_1403771939632_0362_m_000002_0
>>=20
>> For 5000 files (1gb compressed), the selection of a single column finish=
es,
>> but takes over 3 hours. For 10,000 files, the job hangs on about 4% map =
and
>> then errors out.
>>=20
>> While the jobs are running, I notice that the containers are not evenly
>> distributed across the cluster. Some nodes lie idle, while the applicati=
on
>> master node runs 7 containers, maxing out the 28gb of RAM allocated to H=
adoop
>> on each slave node.
>>=20
>> This is the output of netstat =ADi while the column selection is running:
>> Kernel Interface table
>>=20
>> Iface   MTU Met    RX-OK RX-ERR RX-DRP RX-OVR    TX-OK TX-ERR TX-DRP TX-=
OVR=20
>> Flg
>>=20
>> eth0   1500   0 79515196      0 2265807     0 45694758      0      0    =
  0=20
>> BMRU
>>=20
>> eth1   1500   0 77410508      0      0      0 40815746      0      0    =
  0=20
>> BMRU
>>=20
>> lo    65536   0 16593808      0      0      0 16593808      0      0    =
  0=20
>> LRU
>>=20
>>=20
>>=20
>>=20
>>=20
>> Are there some settings I am missing that mean the cluster isn=B9t process=
ing=20
>> this data as efficiently as it can?
>>=20
>> I am very new to Hadoop and there are so many logs, etc, that troublesho=
oting=20
>> can be a bit overwhelming. Where else should I be looking to try and dia=
gnose=20
>> what is wrong?
>>=20
>> Thanks in advance for any help you can give!
>>=20
>> Kind regards,
>> Ana=20
>>=20


--B_3490001552_20879299
Content-type: text/html;
	charset="ISO-8859-1"
Content-transfer-encoding: quoted-printable

<html><head></head><body style=3D"word-wrap: break-word; -webkit-nbsp-mode: s=
pace; -webkit-line-break: after-white-space;"><div style=3D"font-size: 14px; f=
ont-family: Calibri, sans-serif; color: rgb(0, 0, 0);">Hi,</div><div style=3D"=
font-size: 14px; font-family: Calibri, sans-serif; color: rgb(0, 0, 0);"><br=
></div><div><font face=3D"Calibri,sans-serif">Unfortunately, after I set my us=
er&#8217;s&nbsp;</font>ulimit &#8211;n to &nbsp;65536, I still get the same =
bad performance, killed containers and errors as before.</div><div style=3D"fo=
nt-size: 14px; font-family: Calibri, sans-serif; color: rgb(0, 0, 0);"><br><=
/div><div style=3D"font-size: 14px; font-family: Calibri, sans-serif; color: r=
gb(0, 0, 0);">I collected together a bunch of logs around the moment when th=
e containers are being killed (application master log, killed container log,=
 hadoop-hdfs logs, hadoop-yarn logs) and this is what&#8217;s happening in o=
rder. The PrivilegedActionException, is that something? Is my user not in so=
me sort of correct group?</div><div style=3D"font-size: 14px; font-family: Cal=
ibri, sans-serif; color: rgb(0, 0, 0);"><br></div><div style=3D"font-size: 14p=
x; font-family: Calibri, sans-serif; color: rgb(0, 0, 0);">Thanks in advance=
!</div><div style=3D"font-size: 14px; font-family: Calibri, sans-serif; color:=
 rgb(0, 0, 0);">Ana</div><div style=3D"font-size: 14px; font-family: Calibri, =
sans-serif; color: rgb(0, 0, 0);"><br></div><div style=3D"font-size: 14px; fon=
t-family: Calibri, sans-serif; color: rgb(0, 0, 0);"><div>2014-08-04 12:21:4=
7,868 INFO [IPC Server handler 4 on 49784] org.apache.hadoop.mapred.TaskAtte=
mptListenerImpl: Ping from attempt_1403771939632_0413_m_000006_0</div><div>2=
014-08-04 12:21:47,979 INFO [IPC Server handler 5 on 49784] org.apache.hadoo=
p.mapred.TaskAttemptListenerImpl: Ping from attempt_1403771939632_0413_m_000=
000_0</div><div>2014-08-04 12:21:48,102 INFO [IPC Server handler 6 on 49784]=
 org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt a=
ttempt_1403771939632_0413_m_000002_0 is : 0.061734322</div><div>2014-08-04 1=
2:21:48,102 INFO [IPC Server handler 6 on 49784] org.apache.hadoop.mapred.Ta=
skAttemptListenerImpl: Status update from attempt_1403771939632_0413_m_00000=
2_0</div><div>2014-08-04 12:21:48,110 INFO org.apache.hadoop.hdfs.StateChang=
e: BLOCK* allocateBlock: /tmp/hive-zslf023/hive_2014-08-04_12-16-12_475_8240=
516609553931504/_task_tmp.-ext-10001/_tmp.000006_1. BP-1198908146-10.0.0.11-=
1399888065184 blk_-300655159790361685_67008{blockUCState=3DUNDER_CONSTRUCTION,=
 primaryNodeIndex=3D-1, replicas=3D[ReplicaUnderConstruction[10.0.0.44:50010|RBW=
], ReplicaUnderConstruction[10.0.0.43:50010|RBW], ReplicaUnderConstruction[1=
0.0.0.40:50010|RBW]]}</div><div>2014-08-04 12:21:48,145 INFO BlockStateChang=
e: BLOCK* addStoredBlock: blockMap updated: 10.0.0.40:50010 is added to blk_=
-300655159790361685_67008{blockUCState=3DUNDER_CONSTRUCTION, primaryNodeIndex=3D=
-1, replicas=3D[ReplicaUnderConstruction[10.0.0.44:50010|RBW], ReplicaUnderCon=
struction[10.0.0.43:50010|RBW], ReplicaUnderConstruction[10.0.0.40:50010|RBW=
]]} size 0</div><div>2014-08-04 12:21:48,145 INFO BlockStateChange: BLOCK* a=
ddStoredBlock: blockMap updated: 10.0.0.43:50010 is added to blk_-3006551597=
90361685_67008{blockUCState=3DUNDER_CONSTRUCTION, primaryNodeIndex=3D-1, replica=
s=3D[ReplicaUnderConstruction[10.0.0.44:50010|RBW], ReplicaUnderConstruction[1=
0.0.0.43:50010|RBW], ReplicaUnderConstruction[10.0.0.40:50010|RBW]]} size 0<=
/div><div>2014-08-04 12:21:48,146 INFO BlockStateChange: BLOCK* addStoredBlo=
ck: blockMap updated: 10.0.0.44:50010 is added to blk_-300655159790361685_67=
008{blockUCState=3DUNDER_CONSTRUCTION, primaryNodeIndex=3D-1, replicas=3D[ReplicaU=
nderConstruction[10.0.0.44:50010|RBW], ReplicaUnderConstruction[10.0.0.43:50=
010|RBW], ReplicaUnderConstruction[10.0.0.40:50010|RBW]]} size 0</div><div>2=
014-08-04 12:21:48,147 INFO org.apache.hadoop.hdfs.StateChange: DIR* complet=
eFile: /tmp/hive-zslf023/hive_2014-08-04_12-16-12_475_8240516609553931504/_t=
ask_tmp.-ext-10001/_tmp.000006_1 is closed by DFSClient_attempt_140377193963=
2_0413_m_000006_1_-1142346950_1</div><div>2014-08-04 12:21:48,147 INFO org.a=
pache.hadoop.hdfs.server.namenode.FSEditLog: Number of transactions: 422 Tot=
al time for transactions(ms): 5 Number of transactions batched in Syncs: 0 N=
umber of syncs: 186 SyncTimes(ms): 204&nbsp;</div><div>2014-08-04 12:21:48,1=
55 INFO [IPC Server handler 7 on 49784] org.apache.hadoop.mapred.TaskAttempt=
ListenerImpl: Progress of TaskAttempt attempt_1403771939632_0413_m_000006_1 =
is : 0.93497133</div><div>2014-08-04 12:21:48,155 INFO [IPC Server handler 7=
 on 49784] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Status update f=
rom attempt_1403771939632_0413_m_000006_1</div><div>2014-08-04 12:21:48,176 =
INFO [IPC Server handler 8 on 49784] org.apache.hadoop.mapred.TaskAttemptLis=
tenerImpl: Progress of TaskAttempt attempt_1403771939632_0413_m_000006_1 is =
: 1.0</div><div>2014-08-04 12:21:48,176 INFO [IPC Server handler 8 on 49784]=
 org.apache.hadoop.mapred.TaskAttemptListenerImpl: Status update from attemp=
t_1403771939632_0413_m_000006_1</div><div>2014-08-04 12:21:48,177 INFO [Asyn=
cDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskA=
ttemptImpl: attempt_1403771939632_0413_m_000006_1 TaskAttempt Transitioned f=
rom RUNNING to SUCCESS_CONTAINER_CLEANUP</div><div>2014-08-04 12:21:48,177 I=
NFO [IPC Server handler 9 on 49784] org.apache.hadoop.mapred.TaskAttemptList=
enerImpl: Done acknowledgement from attempt_1403771939632_0413_m_000006_1</d=
iv><div>2014-08-04 12:21:48,178 INFO [ContainerLauncher #4] org.apache.hadoo=
p.mapreduce.v2.app.launcher.ContainerLauncherImpl: KILLING attempt_140377193=
9632_0413_m_000006_1</div><div>2014-08-04 12:21:48,178 INFO [ContainerLaunch=
er #4] org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl: Pr=
ocessing the event EventType: CONTAINER_REMOTE_CLEANUP for container contain=
er_1403771939632_0413_01_000016 taskAttempt attempt_1403771939632_0413_m_000=
006_1</div><div>2014-08-04 12:21:48,195 INFO [AsyncDispatcher event handler]=
 org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_140377=
1939632_0413_m_000006_1 TaskAttempt Transitioned from SUCCESS_CONTAINER_CLEA=
NUP to SUCCEEDED</div><div>2014-08-04 12:21:48,196 INFO [AsyncDispatcher eve=
nt handler] org.apache.hadoop.mapreduce.v2.app.job.impl.JobImpl: Num complet=
ed Tasks: 2</div><div>2014-08-04 12:21:48,196 INFO [AsyncDispatcher event ha=
ndler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_=
1403771939632_0413_m_000006_0 TaskAttempt Transitioned from RUNNING to KILL_=
CONTAINER_CLEANUP</div><div>2014-08-04 12:21:48,196 INFO [AsyncDispatcher ev=
ent handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskImpl: Issuing k=
ill to other attempt attempt_1403771939632_0413_m_000006_0</div><div>2014-08=
-04 12:21:48,196 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapr=
educe.v2.app.job.impl.TaskImpl: Task succeeded with attempt attempt_14037719=
39632_0413_m_000006_1</div><div>2014-08-04 12:21:48,196 INFO [AsyncDispatche=
r event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskImpl: task_=
1403771939632_0413_m_000006 Task Transitioned from RUNNING to SUCCEEDED</div=
><div>2014-08-04 12:21:48,197 INFO [ContainerLauncher #7] org.apache.hadoop.=
mapreduce.v2.app.launcher.ContainerLauncherImpl: KILLING attempt_14037719396=
32_0413_m_000006_0</div><div>2014-08-04 12:21:48,197 INFO [ContainerLauncher=
 #7] org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl: Proc=
essing the event EventType: CONTAINER_REMOTE_CLEANUP for container container=
_1403771939632_0413_01_000009 taskAttempt attempt_1403771939632_0413_m_00000=
6_0</div><div>2014-08-04 12:21:48,219 INFO [AsyncDispatcher event handler] o=
rg.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_14037719=
39632_0413_m_000006_0 TaskAttempt Transitioned from KILL_CONTAINER_CLEANUP t=
o KILL_TASK_CLEANUP</div><div>2014-08-04 12:21:48,230 INFO [CommitterEvent P=
rocessor #1] org.apache.hadoop.mapreduce.v2.app.commit.CommitterEventHandler=
: Processing the event EventType: TASK_ABORT</div><div>2014-08-04 12:21:48,2=
31 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.j=
ob.impl.TaskAttemptImpl: attempt_1403771939632_0413_m_000006_0 TaskAttempt T=
ransitioned from KILL_TASK_CLEANUP to KILLED</div><div>2014-08-04 12:21:48,3=
18 INFO [IPC Server handler 10 on 49784] org.apache.hadoop.mapred.TaskAttemp=
tListenerImpl: Progress of TaskAttempt attempt_1403771939632_0413_m_000002_1=
 is : 0.047582902</div><div>2014-08-04 12:21:48,318 INFO [IPC Server handler=
 10 on 49784] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Status updat=
e from attempt_1403771939632_0413_m_000002_1</div><div><span style=3D"backgrou=
nd-color: rgb(255, 255, 0);"><b>2014-08-04 12:21:48,370 ERROR org.apache.had=
oop.security.UserGroupInformation: PriviledgedActionException as:zslf023 (au=
th:SIMPLE) cause:org.apache.hadoop.hdfs.server.namenode.LeaseExpiredExceptio=
n: No lease on /tmp/hive-zslf023/hive_2014-08-04_12-16-12_475_82405166095539=
31504/_task_tmp.-ext-10001/_tmp.000006_0: File does not exist. Holder DFSCli=
ent_attempt_1403771939632_0413_m_000006_0_-820182675_1 does not have any ope=
n files.</b></span></div><div><span style=3D"background-color: rgb(255, 255, 0=
);"><b>2014-08-04 12:21:48,370 INFO org.apache.hadoop.ipc.Server: IPC Server=
 handler 9 on 8020, call org.apache.hadoop.hdfs.protocol.ClientProtocol.addB=
lock from 10.0.0.42:41375: error: org.apache.hadoop.hdfs.server.namenode.Lea=
seExpiredException: No lease on /tmp/hive-zslf023/hive_2014-08-04_12-16-12_4=
75_8240516609553931504/_task_tmp.-ext-10001/_tmp.000006_0: File does not exi=
st. Holder DFSClient_attempt_1403771939632_0413_m_000006_0_-820182675_1 does=
 not have any open files.</b></span></div><div><span style=3D"background-color=
: rgb(255, 255, 0);"><b>2014-08-04 12:21:48,378 WARN [Thread-8] org.apache.h=
adoop.hdfs.DFSClient: DataStreamer Exception&nbsp;</b></span></div><div><spa=
n style=3D"background-color: rgb(255, 255, 10);"><b>org.apache.hadoop.ipc.Remo=
teException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException): N=
o lease on /tmp/hive-zslf023/hive_2014-08-04_12-16-12_475_824051660955393150=
4/_task_tmp.-ext-10001/_tmp.000006_0: File does not exist. Holder DFSClient_=
attempt_1403771939632_0413_m_000006_0_-820182675_1 does not have any open fi=
les.</b></span></div><div><span style=3D"background-color: rgb(255, 255, 0);">=
<b>2014-08-04 12:21:48,379 ERROR [Thread-3] org.apache.hadoop.hdfs.DFSClient=
: Failed to close file /tmp/hive-zslf023/hive_2014-08-04_12-16-12_475_824051=
6609553931504/_task_tmp.-ext-10001/_tmp.000006_0</b></span></div><div><div><=
b style=3D"background-color: rgb(255, 255, 10);">org.apache.hadoop.ipc.RemoteE=
xception(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException): No l=
ease on /tmp/hive-zslf023/hive_2014-08-04_12-16-12_475_8240516609553931504/_=
task_tmp.-ext-10001/_tmp.000006_0: File does not exist. Holder DFSClient_att=
empt_1403771939632_0413_m_000006_0_-820182675_1 does not have any open files=
.</b></div></div><div>2014-08-04 12:21:48,383 INFO [IPC Server handler 11 on=
 49784] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Ping from attempt_=
1403771939632_0413_m_000000_1</div><div>2014-08-04 12:21:48,620 INFO [RMComm=
unicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocat=
or: Before Scheduling: PendingReds:0 ScheduledMaps:0 ScheduledReds:0 Assigne=
dMaps:14 AssignedReds:0 CompletedMaps:2 CompletedReds:0 ContAlloc:15 ContRel=
:0 HostLocal:5 RackLocal:10</div><div>2014-08-04 12:21:49,198 INFO org.apach=
e.hadoop.yarn.server.resourcemanager.rmcontainer.RMContainerImpl: container_=
1403771939632_0413_01_000016 Container Transitioned from RUNNING to COMPLETE=
D</div><div>2014-08-04 12:21:49,199 INFO org.apache.hadoop.yarn.server.resou=
rcemanager.RMAuditLogger: USER=3Dzslf023<span class=3D"Apple-tab-span" style=3D"wh=
ite-space:pre">	</span>OPERATION=3DAM Released Container<span class=3D"Apple-tab=
-span" style=3D"white-space:pre">	</span>TARGET=3DSchedulerApp<span class=3D"Apple=
-tab-span" style=3D"white-space:pre">	</span>RESULT=3DSUCCESS<span class=3D"Apple-=
tab-span" style=3D"white-space:pre">	</span>APPID=3Dapplication_1403771939632_04=
13<span class=3D"Apple-tab-span" style=3D"white-space:pre">	</span>CONTAINERID=3Dc=
ontainer_1403771939632_0413_01_000016</div><div>2014-08-04 12:21:49,199 INFO=
 org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySc=
heduler: Application appattempt_1403771939632_0413_000001 released container=
 container_1403771939632_0413_01_000016 on node: host: slave4.hadoop.local:5=
7340 #containers=3D1 available=3D24576 used=3D4096 with event: FINISHED</div><div>=
2014-08-04 12:21:49,199 INFO org.apache.hadoop.yarn.server.resourcemanager.s=
cheduler.capacity.LeafQueue: completedContainer container=3DContainer: [Contai=
nerId: container_1403771939632_0413_01_000016, NodeId: slave4.hadoop.local:5=
7340, NodeHttpAddress: slave4.hadoop.local:8042, Resource: &lt;memory:4096, =
vCores:1&gt;, Priority: 20, State: NEW, Token: null, Status: container_id {,=
 app_attempt_id {, application_id {, id: 413, cluster_timestamp: 14037719396=
32, }, attemptId: 1, }, id: 16, }, state: C_COMPLETE, diagnostics: "Containe=
r killed by the ApplicationMaster.\n\n", exit_status: 143, ] resource=3D&lt;me=
mory:4096, vCores:1&gt; queue=3Ddefault: capacity=3D1.0, absoluteCapacity=3D1.0, u=
sedResources=3D&lt;memory:57344, vCores:14&gt;usedCapacity=3D0.2857143, absolute=
UsedCapacity=3D0.2857143, numApps=3D1, numContainers=3D14 usedCapacity=3D0.2857143 a=
bsoluteUsedCapacity=3D0.2857143 used=3D&lt;memory:57344, vCores:14&gt; cluster=3D&=
lt;memory:200704, vCores:112&gt;</div><div>2014-08-04 12:21:49,199 INFO org.=
apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.LeafQueue: defa=
ult used=3D&lt;memory:57344, vCores:14&gt; numContainers=3D14 user=3Dzslf023 user-=
resources=3D&lt;memory:57344, vCores:14&gt;</div><div>2014-08-04 12:21:49,199 =
INFO org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.Parent=
Queue: completedContainer queue=3Droot usedCapacity=3D0.2857143 absoluteUsedCapa=
city=3D0.2857143 used=3D&lt;memory:57344, vCores:14&gt; cluster=3D&lt;memory:20070=
4, vCores:112&gt;</div><div>2014-08-04 12:21:49,199 INFO org.apache.hadoop.y=
arn.server.resourcemanager.scheduler.common.fica.FiCaSchedulerApp: Completed=
 container: container_1403771939632_0413_01_000016 in state: COMPLETED event=
:FINISHED</div><div>2014-08-04 12:21:49,199 INFO org.apache.hadoop.yarn.serv=
er.resourcemanager.scheduler.common.fica.FiCaSchedulerNode: Released contain=
er container_1403771939632_0413_01_000016 of capacity &lt;memory:4096, vCore=
s:1&gt; on host slave4.hadoop.local:57340, which currently has 1 containers,=
 &lt;memory:4096, vCores:1&gt; used and &lt;memory:24576, vCores:15&gt; avai=
lable, release resources=3Dtrue</div><div>2014-08-04 12:21:49,215 INFO org.apa=
che.hadoop.yarn.server.resourcemanager.RMAuditLogger: USER=3Dzslf023<span clas=
s=3D"Apple-tab-span" style=3D"white-space:pre">	</span>OPERATION=3DAM Released Con=
tainer<span class=3D"Apple-tab-span" style=3D"white-space:pre">	</span>TARGET=3DSc=
hedulerApp<span class=3D"Apple-tab-span" style=3D"white-space:pre">	</span>RESUL=
T=3DSUCCESS<span class=3D"Apple-tab-span" style=3D"white-space:pre">	</span>APPID=3D=
application_1403771939632_0413<span class=3D"Apple-tab-span" style=3D"white-spac=
e:pre">	</span>CONTAINERID=3Dcontainer_1403771939632_0413_01_000009</div><div>=
2014-08-04 12:21:49,215 INFO org.apache.hadoop.yarn.server.resourcemanager.r=
mcontainer.RMContainerImpl: container_1403771939632_0413_01_000009 Container=
 Transitioned from RUNNING to COMPLETED</div><div>2014-08-04 12:21:49,215 IN=
FO org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.LeafQueu=
e: default used=3D&lt;memory:53248, vCores:13&gt; numContainers=3D13 user=3Dzslf02=
3 user-resources=3D&lt;memory:53248, vCores:13&gt;</div><div>2014-08-04 12:21:=
49,215 INFO org.apache.hadoop.yarn.server.resourcemanager.scheduler.common.f=
ica.FiCaSchedulerApp: Completed container: container_1403771939632_0413_01_0=
00009 in state: COMPLETED event:FINISHED</div><div>2014-08-04 12:21:49,215 I=
NFO org.apache.hadoop.yarn.server.resourcemanager.scheduler.common.fica.FiCa=
SchedulerNode: Released container container_1403771939632_0413_01_000009 of =
capacity &lt;memory:4096, vCores:1&gt; on host slave2.hadoop.local:51269, wh=
ich currently has 6 containers, &lt;memory:24576, vCores:6&gt; used and &lt;=
memory:4096, vCores:10&gt; available, release resources=3Dtrue</div><div>2014-=
08-04 12:21:49,216 INFO org.apache.hadoop.yarn.server.resourcemanager.schedu=
ler.capacity.CapacityScheduler: Application appattempt_1403771939632_0413_00=
0001 released container container_1403771939632_0413_01_000009 on node: host=
: slave2.hadoop.local:51269 #containers=3D6 available=3D4096 used=3D24576 with eve=
nt: FINISHED</div><div>2014-08-04 12:21:49,216 INFO org.apache.hadoop.yarn.s=
erver.resourcemanager.scheduler.capacity.LeafQueue: completedContainer conta=
iner=3DContainer: [ContainerId: container_1403771939632_0413_01_000009, NodeId=
: slave2.hadoop.local:51269, NodeHttpAddress: slave2.hadoop.local:8042, Reso=
urce: &lt;memory:4096, vCores:1&gt;, Priority: 20, State: NEW, Token: null, =
Status: container_id {, app_attempt_id {, application_id {, id: 413, cluster=
_timestamp: 1403771939632, }, attemptId: 1, }, id: 9, }, state: C_COMPLETE, =
diagnostics: "Container killed by the ApplicationMaster.\n\n", exit_status: =
143, ] resource=3D&lt;memory:4096, vCores:1&gt; queue=3Ddefault: capacity=3D1.0, a=
bsoluteCapacity=3D1.0, usedResources=3D&lt;memory:53248, vCores:13&gt;usedCapaci=
ty=3D0.26530612, absoluteUsedCapacity=3D0.26530612, numApps=3D1, numContainers=3D13 =
usedCapacity=3D0.26530612 absoluteUsedCapacity=3D0.26530612 used=3D&lt;memory:5324=
8, vCores:13&gt; cluster=3D&lt;memory:200704, vCores:112&gt;</div><div>2014-08=
-04 12:21:49,216 INFO org.apache.hadoop.yarn.server.resourcemanager.schedule=
r.capacity.ParentQueue: completedContainer queue=3Droot usedCapacity=3D0.2653061=
2 absoluteUsedCapacity=3D0.26530612 used=3D&lt;memory:53248, vCores:13&gt; clust=
er=3D&lt;memory:200704, vCores:112&gt;</div><div>2014-08-04 12:21:49,363 INFO =
[IPC Server handler 12 on 49784] org.apache.hadoop.mapred.TaskAttemptListene=
rImpl: Ping from attempt_1403771939632_0413_m_000001_1</div><div>2014-08-04 =
12:21:49,502 INFO [IPC Server handler 13 on 49784] org.apache.hadoop.mapred.=
TaskAttemptListenerImpl: Ping from attempt_1403771939632_0413_m_000003_1</di=
v><div>2014-08-04 12:21:49,623 INFO [RMCommunicator Allocator] org.apache.ha=
doop.mapreduce.v2.app.rm.RMContainerAllocator: Received completed container =
container_1403771939632_0413_01_000016</div><div>2014-08-04 12:21:49,624 INF=
O [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.imp=
l.TaskAttemptImpl: Diagnostics report from attempt_1403771939632_0413_m_0000=
06_0: Container killed by the ApplicationMaster.</div><div>2014-08-04 12:21:=
49,624 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.a=
pp.job.impl.TaskAttemptImpl: Diagnostics report from attempt_1403771939632_0=
413_m_000006_1: Container killed by the ApplicationMaster.</div><div>2014-08=
-04 12:21:49,624 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce=
.v2.app.rm.RMContainerAllocator: After Scheduling: PendingReds:0 ScheduledMa=
ps:0 ScheduledReds:0 AssignedMaps:12 AssignedReds:0 CompletedMaps:2 Complete=
dReds:0 ContAlloc:15 ContRel:0 HostLocal:5 RackLocal:10</div><div>2014-08-04=
 12:21:49,624 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2=
.app.rm.RMContainerAllocator: Received completed container container_1403771=
939632_0413_01_000009</div><div>2014-08-04 12:21:49,702 INFO [IPC Server han=
dler 14 on 49784] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Ping fro=
m attempt_1403771939632_0413_m_000004_1</div></div><div style=3D"font-size: 14=
px; font-family: Calibri, sans-serif; color: rgb(0, 0, 0);"><br></div><div s=
tyle=3D"font-size: 14px; font-family: Calibri, sans-serif; color: rgb(0, 0, 0)=
;"><div><br></div></div><div style=3D"font-size: 14px; font-family: Calibri, s=
ans-serif; color: rgb(0, 0, 0);"><br></div><span id=3D"OLK_SRC_BODY_SECTION" s=
tyle=3D"font-size: 14px; font-family: Calibri, sans-serif; color: rgb(0, 0, 0)=
;"><div style=3D"font-family:Calibri; font-size:11pt; text-align:left; color:b=
lack; BORDER-BOTTOM: medium none; BORDER-LEFT: medium none; PADDING-BOTTOM: =
0in; PADDING-LEFT: 0in; PADDING-RIGHT: 0in; BORDER-TOP: #b5c4df 1pt solid; B=
ORDER-RIGHT: medium none; PADDING-TOP: 3pt"><span style=3D"font-weight:bold">F=
rom: </span> Ana Gillan &lt;<a href=3D"mailto:ana.gillan@gmail.com">ana.gillan=
@gmail.com</a>&gt;<br><span style=3D"font-weight:bold">Date: </span> Saturday,=
 2 August 2014 20:02<br><span style=3D"font-weight:bold">To: </span> &lt;<a hr=
ef=3D"mailto:user@hadoop.apache.org">user@hadoop.apache.org</a>&gt;<br><span s=
tyle=3D"font-weight:bold">Subject: </span> Re: org.apache.hadoop.ipc.RemoteExc=
eption(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException)<br></di=
v><div><br></div><div><div style=3D"word-wrap: break-word; -webkit-nbsp-mode: =
space; -webkit-line-break: after-white-space; color: rgb(0, 0, 0); font-size=
: 14px; font-family: Calibri, sans-serif;"><div>Ok, I will request this to b=
e done, as I&#8217;m not an admin, and then get back to this thread on Monda=
y. Thank you!&nbsp;</div><div><br></div><span id=3D"OLK_SRC_BODY_SECTION"><div=
 style=3D"font-family:Calibri; font-size:11pt; text-align:left; color:black; B=
ORDER-BOTTOM: medium none; BORDER-LEFT: medium none; PADDING-BOTTOM: 0in; PA=
DDING-LEFT: 0in; PADDING-RIGHT: 0in; BORDER-TOP: #b5c4df 1pt solid; BORDER-R=
IGHT: medium none; PADDING-TOP: 3pt"><span style=3D"font-weight:bold">From: </=
span> hadoop hive &lt;<a href=3D"mailto:hadoophive@gmail.com">hadoophive@gmail=
.com</a>&gt;<br><span style=3D"font-weight:bold">Reply-To: </span> &lt;<a href=
=3D"mailto:user@hadoop.apache.org">user@hadoop.apache.org</a>&gt;<br><span sty=
le=3D"font-weight:bold">Date: </span> Saturday, 2 August 2014 18:50<br><span s=
tyle=3D"font-weight:bold">To: </span> &lt;<a href=3D"mailto:user@hadoop.apache.o=
rg">user@hadoop.apache.org</a>&gt;<br><span style=3D"font-weight:bold">Subject=
: </span> Re: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.s=
erver.namenode.LeaseExpiredException)<br></div><div><br></div><p dir=3D"ltr">H=
ey try change ulimit to 64k for user which running query and change time fro=
m scheduler which should be set to 600sec.</p><p dir=3D"ltr">Check the jt logs=
 also for further issues.</p><p dir=3D"ltr">Thanks</p></span></div></div></spa=
n><div style=3D"font-size: 14px; font-family: Calibri, sans-serif; color: rgb(=
0, 0, 0);"><br></div><div style=3D"font-size: 14px; font-family: Calibri, sans=
-serif; color: rgb(0, 0, 0);"><div style=3D"font-family: Calibri; font-size: 1=
1pt; border-width: 1pt medium medium; border-style: solid none none; padding=
: 3pt 0in 0in; border-top-color: rgb(181, 196, 223);"><span style=3D"font-weig=
ht: bold;">From:&nbsp;</span>Ana Gillan &lt;<a href=3D"mailto:ana.gillan@gmail=
.com">ana.gillan@gmail.com</a>&gt;<br><span style=3D"font-weight: bold;">Date:=
&nbsp;</span>Saturday, 2 August 2014 18:38<br><span style=3D"font-weight: bold=
;">To:&nbsp;</span>&lt;<a href=3D"mailto:user@hadoop.apache.org">user@hadoop.a=
pache.org</a>&gt;<br><span style=3D"font-weight: bold;">Subject:&nbsp;</span>R=
e: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namen=
ode.LeaseExpiredException)<br></div><div><br></div><div><div style=3D"word-wra=
p: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-spa=
ce;"><div>I&#8217;m not sure which user is fetching the data, but I&#8217;m =
assuming no one changed that from the default. The data isn&#8217;t huge in =
size, just in number, so I suppose the open files limit is not the issue?</d=
iv><div><br></div><div>I&#8217;m running the job again with mapred.task.time=
out=3D1200000, but containers are still being killed in the same way&#8230; Ju=
st without the timeout message. And it somehow massively slowed down the mac=
hine as well, so even typing commands took a long time (???)</div><div><br><=
/div><div>I&#8217;m not sure what you mean by which stage it&#8217;s getting=
 killed on. If you mean in the command line progress counters, it's always o=
n Stage-1.</div><div>Also, this is the end of the container log for the kill=
ed container. Failed and killed jobs always start fine with lots of these &#=
8220;processing file&#8221; and &#8220;processing alias&#8221; statements, b=
ut then suddenly warn about a DataStreamer Exception and then are killed wit=
h an error, which is the same as the warning. Not sure if this exception is =
the actual issue or if it&#8217;s just a knock-on effect of something else.<=
/div><div><br></div><div><div>2014-08-02 17:47:38,618 INFO [main] org.apache=
.hadoop.hive.ql.io.HiveContextAwareRecordReader: Processing file hdfs://clus=
tnm:8020/user/usnm123/foldernm/fivek/2w63.xml.gz</div><div>2014-08-02 17:47:=
38,641 INFO [main] org.apache.hadoop.hive.ql.exec.MapOperator: Processing al=
ias foldernm_xml_load for file hdfs://clustnm:8020/user/usnm123/foldernm/fiv=
ek</div><div>2014-08-02 17:47:38,932 INFO [main] org.apache.hadoop.hive.ql.i=
o.HiveContextAwareRecordReader: Processing file hdfs://clustnm:8020/user/usn=
m123/foldernm/fivek/2w67.xml.gz</div><div>2014-08-02 17:47:38,989 INFO [main=
] org.apache.hadoop.hive.ql.exec.MapOperator: Processing alias foldernm_xml_=
load for file hdfs://clustnm:8020/user/usnm123/foldernm/fivek</div><div>2014=
-08-02 17:47:42,675 INFO [main] org.apache.hadoop.hive.ql.io.HiveContextAwar=
eRecordReader: Processing file hdfs://clustnm:8020/user/usnm123/foldernm/fiv=
ek/2w6i.xml.gz</div><div>2014-08-02 17:47:42,888 INFO [main] org.apache.hado=
op.hive.ql.exec.MapOperator: Processing alias foldernm_xml_load for file hdf=
s://clustnm:8020/user/usnm123/foldernm/fivek</div><div>2014-08-02 17:47:45,4=
16 WARN [Thread-8] org.apache.hadoop.hdfs.DFSClient: DataStreamer Exception<=
/div><div>org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.serve=
r.namenode.LeaseExpiredException): No lease on /tmp/hive-usnm123/hive_2014-0=
8-02_17-41-52_914_251548734850890001/_task_tmp.-ext-10001/_tmp.000006_0: Fil=
e does not exist. Holder DFSClient_attempt_1403771939632_0409_m_000006_0_303=
479000_1 does not have any open files.</div><div><span class=3D"Apple-tab-span=
" style=3D"white-space: pre;">	</span>at org.apache.hadoop.hdfs.server.namenod=
e.FSNamesystem.checkLease(FSNamesystem.java:2398)</div><div><span class=3D"App=
le-tab-span" style=3D"white-space: pre;">	</span>at org.apache.hadoop.hdfs.ser=
ver.namenode.FSNamesystem.analyzeFileState(FSNamesystem.java:2217)</div><div=
><span class=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at org.apach=
e.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.j=
ava:2137)</div><div><span class=3D"Apple-tab-span" style=3D"white-space: pre;">	=
</span>at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(=
NameNodeRpcServer.java:491)</div><div><span class=3D"Apple-tab-span" style=3D"wh=
ite-space: pre;">	</span>at org.apache.hadoop.hdfs.protocolPB.ClientNamenode=
ProtocolServerSideTranslatorPB.addBlock(ClientNamenodeProtocolServerSideTran=
slatorPB.java:351)</div><div><span class=3D"Apple-tab-span" style=3D"white-space=
: pre;">	</span>at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProto=
colProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocol=
Protos.java:40744)</div><div><span class=3D"Apple-tab-span" style=3D"white-space=
: pre;">	</span>at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRp=
cInvoker.call(ProtobufRpcEngine.java:454)</div><div><span class=3D"Apple-tab-s=
pan" style=3D"white-space: pre;">	</span>at org.apache.hadoop.ipc.RPC$Server.c=
all(RPC.java:1014)</div><div><span class=3D"Apple-tab-span" style=3D"white-space=
: pre;">	</span>at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:17=
41)</div><div><span class=3D"Apple-tab-span" style=3D"white-space: pre;">	</span=
>at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1737)</div><div><=
span class=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at java.securi=
ty.AccessController.doPrivileged(Native Method)</div><div><span class=3D"Apple=
-tab-span" style=3D"white-space: pre;">	</span>at javax.security.auth.Subject.=
doAs(Subject.java:396)</div><div><span class=3D"Apple-tab-span" style=3D"white-s=
pace: pre;">	</span>at org.apache.hadoop.security.UserGroupInformation.doAs(=
UserGroupInformation.java:1478)</div><div><span class=3D"Apple-tab-span" style=
=3D"white-space: pre;">	</span>at org.apache.hadoop.ipc.Server$Handler.run(Ser=
ver.java:1735)</div><div><br></div><div><span class=3D"Apple-tab-span" style=3D"=
white-space: pre;">	</span>at org.apache.hadoop.ipc.Client.call(Client.java:=
1240)</div><div><span class=3D"Apple-tab-span" style=3D"white-space: pre;">	</sp=
an>at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngi=
ne.java:202)</div><div><span class=3D"Apple-tab-span" style=3D"white-space: pre;=
">	</span>at com.sun.proxy.$Proxy10.addBlock(Unknown Source)</div><div><span=
 class=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at sun.reflect.Nat=
iveMethodAccessorImpl.invoke0(Native Method)</div><div><span class=3D"Apple-ta=
b-span" style=3D"white-space: pre;">	</span>at sun.reflect.NativeMethodAccesso=
rImpl.invoke(NativeMethodAccessorImpl.java:39)</div><div><span class=3D"Apple-=
tab-span" style=3D"white-space: pre;">	</span>at sun.reflect.DelegatingMethodA=
ccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)</div><div><span cla=
ss=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at java.lang.reflect.M=
ethod.invoke(Method.java:597)</div><div><span class=3D"Apple-tab-span" style=3D"=
white-space: pre;">	</span>at org.apache.hadoop.io.retry.RetryInvocationHand=
ler.invokeMethod(RetryInvocationHandler.java:164)</div><div><span class=3D"App=
le-tab-span" style=3D"white-space: pre;">	</span>at org.apache.hadoop.io.retry=
.RetryInvocationHandler.invoke(RetryInvocationHandler.java:83)</div><div><sp=
an class=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at com.sun.proxy=
.$Proxy10.addBlock(Unknown Source)</div><div><span class=3D"Apple-tab-span" st=
yle=3D"white-space: pre;">	</span>at org.apache.hadoop.hdfs.protocolPB.ClientN=
amenodeProtocolTranslatorPB.addBlock(ClientNamenodeProtocolTranslatorPB.java=
:311)</div><div><span class=3D"Apple-tab-span" style=3D"white-space: pre;">	</sp=
an>at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.locateFollowingBlo=
ck(DFSOutputStream.java:1156)</div><div><span class=3D"Apple-tab-span" style=3D"=
white-space: pre;">	</span>at org.apache.hadoop.hdfs.DFSOutputStream$DataStr=
eamer.nextBlockOutputStream(DFSOutputStream.java:1009)</div><div><span class=
=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at org.apache.hadoop.hdf=
s.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:464)</div><div>2014-=
08-02 17:47:45,417 ERROR [Thread-3] org.apache.hadoop.hdfs.DFSClient: Failed=
 to close file /tmp/hive-usnm123/hive_2014-08-02_17-41-52_914_25154873485089=
0001/_task_tmp.-ext-10001/_tmp.000006_0</div><div>org.apache.hadoop.ipc.Remo=
teException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException): N=
o lease on /tmp/hive-usnm123/hive_2014-08-02_17-41-52_914_251548734850890001=
/_task_tmp.-ext-10001/_tmp.000006_0: File does not exist. Holder DFSClient_a=
ttempt_1403771939632_0409_m_000006_0_303479000_1 does not have any open file=
s.</div><div><span class=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>=
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesyst=
em.java:2398)</div><div><span class=3D"Apple-tab-span" style=3D"white-space: pre=
;">	</span>at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.analyzeFil=
eState(FSNamesystem.java:2217)</div><div><span class=3D"Apple-tab-span" style=3D=
"white-space: pre;">	</span>at org.apache.hadoop.hdfs.server.namenode.FSName=
system.getAdditionalBlock(FSNamesystem.java:2137)</div><div><span class=3D"App=
le-tab-span" style=3D"white-space: pre;">	</span>at org.apache.hadoop.hdfs.ser=
ver.namenode.NameNodeRpcServer.addBlock(NameNodeRpcServer.java:491)</div><di=
v><span class=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at org.apac=
he.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.addBl=
ock(ClientNamenodeProtocolServerSideTranslatorPB.java:351)</div><div><span c=
lass=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at org.apache.hadoop=
.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.c=
allBlockingMethod(ClientNamenodeProtocolProtos.java:40744)</div><div><span c=
lass=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at org.apache.hadoop=
.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java=
:454)</div><div><span class=3D"Apple-tab-span" style=3D"white-space: pre;">	</sp=
an>at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1014)</div><div><span c=
lass=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at org.apache.hadoop=
.ipc.Server$Handler$1.run(Server.java:1741)</div><div><span class=3D"Apple-tab=
-span" style=3D"white-space: pre;">	</span>at org.apache.hadoop.ipc.Server$Han=
dler$1.run(Server.java:1737)</div><div><span class=3D"Apple-tab-span" style=3D"w=
hite-space: pre;">	</span>at java.security.AccessController.doPrivileged(Nat=
ive Method)</div><div><span class=3D"Apple-tab-span" style=3D"white-space: pre;"=
>	</span>at javax.security.auth.Subject.doAs(Subject.java:396)</div><div><sp=
an class=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at org.apache.ha=
doop.security.UserGroupInformation.doAs(UserGroupInformation.java:1478)</div=
><div><span class=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at org.=
apache.hadoop.ipc.Server$Handler.run(Server.java:1735)</div><div><br></div><=
div><span class=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at org.ap=
ache.hadoop.ipc.Client.call(Client.java:1240)</div><div><span class=3D"Apple-t=
ab-span" style=3D"white-space: pre;">	</span>at org.apache.hadoop.ipc.Protobuf=
RpcEngine$Invoker.invoke(ProtobufRpcEngine.java:202)</div><div><span class=3D"=
Apple-tab-span" style=3D"white-space: pre;">	</span>at com.sun.proxy.$Proxy10.=
addBlock(Unknown Source)</div><div><span class=3D"Apple-tab-span" style=3D"white=
-space: pre;">	</span>at sun.reflect.NativeMethodAccessorImpl.invoke0(Native=
 Method)</div><div><span class=3D"Apple-tab-span" style=3D"white-space: pre;">	<=
/span>at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImp=
l.java:39)</div><div><span class=3D"Apple-tab-span" style=3D"white-space: pre;">=
	</span>at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodA=
ccessorImpl.java:25)</div><div><span class=3D"Apple-tab-span" style=3D"white-spa=
ce: pre;">	</span>at java.lang.reflect.Method.invoke(Method.java:597)</div><=
div><span class=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at org.ap=
ache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHand=
ler.java:164)</div><div><span class=3D"Apple-tab-span" style=3D"white-space: pre=
;">	</span>at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(Retry=
InvocationHandler.java:83)</div><div><span class=3D"Apple-tab-span" style=3D"whi=
te-space: pre;">	</span>at com.sun.proxy.$Proxy10.addBlock(Unknown Source)</=
div><div><span class=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at o=
rg.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.addBlock=
(ClientNamenodeProtocolTranslatorPB.java:311)</div><div><span class=3D"Apple-t=
ab-span" style=3D"white-space: pre;">	</span>at org.apache.hadoop.hdfs.DFSOutp=
utStream$DataStreamer.locateFollowingBlock(DFSOutputStream.java:1156)</div><=
div><span class=3D"Apple-tab-span" style=3D"white-space: pre;">	</span>at org.ap=
ache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutpu=
tStream.java:1009)</div><div><span class=3D"Apple-tab-span" style=3D"white-space=
: pre;">	</span>at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(D=
FSOutputStream.java:464)</div></div><div><pre style=3D"margin-top: 0px; margin=
-bottom: 0px; border: 0px; color: rgb(34, 34, 34); background-color: rgb(255=
, 255, 255);"><br></pre><pre style=3D"margin-top: 0px; margin-bottom: 0px; bor=
der: 0px; color: rgb(34, 34, 34); background-color: rgb(255, 255, 255);"><br=
></pre><pre style=3D"margin-top: 0px; margin-bottom: 0px; border: 0px; color: =
rgb(34, 34, 34);"><span style=3D"background-color: rgb(255, 254, 254);">Thanks=
 a lot for your attention!</span><span style=3D"background-color: rgb(255, 255=
, 255);">	</span></pre></div><div><br></div><span id=3D"OLK_SRC_BODY_SECTION">=
<div style=3D"font-family: Calibri; font-size: 11pt; border-width: 1pt medium =
medium; border-style: solid none none; padding: 3pt 0in 0in; border-top-colo=
r: rgb(181, 196, 223);"><span style=3D"font-weight: bold;">From:&nbsp;</span>h=
adoop hive &lt;<a href=3D"mailto:hadoophive@gmail.com">hadoophive@gmail.com</a=
>&gt;<br><span style=3D"font-weight: bold;">Reply-To:&nbsp;</span>&lt;<a href=3D=
"mailto:user@hadoop.apache.org">user@hadoop.apache.org</a>&gt;<br><span styl=
e=3D"font-weight: bold;">Date:&nbsp;</span>Saturday, 2 August 2014 17:36<br><s=
pan style=3D"font-weight: bold;">To:&nbsp;</span>&lt;<a href=3D"mailto:user@hado=
op.apache.org">user@hadoop.apache.org</a>&gt;<br><span style=3D"font-weight: b=
old;">Subject:&nbsp;</span>Re: org.apache.hadoop.ipc.RemoteException(org.apa=
che.hadoop.hdfs.server.namenode.LeaseExpiredException)<br></div><div><br></d=
iv><p dir=3D"ltr">32k seems fine for mapred user(hope you using this for fetch=
ing you data) but if you have huge data on your system you can try 64k.</p><=
p dir=3D"ltr">Did you try increasing you time from 600 sec to like 20 mins.</p=
><p dir=3D"ltr">Can you also check on which stage its getting hanged or killed=
.</p><p dir=3D"ltr">Thanks</p></span><div><div style=3D"font-family: Calibri; fo=
nt-size: 11pt; border-width: 1pt medium medium; border-style: solid none non=
e; padding: 3pt 0in 0in; border-top-color: rgb(181, 196, 223);"><span style=3D=
"font-weight: bold;">From:&nbsp;</span>hadoop hive &lt;<a href=3D"mailto:hadoo=
phive@gmail.com">hadoophive@gmail.com</a>&gt;<br><span style=3D"font-weight: b=
old;">Reply-To:&nbsp;</span>&lt;<a href=3D"mailto:user@hadoop.apache.org">user=
@hadoop.apache.org</a>&gt;<br><span style=3D"font-weight: bold;">Date:&nbsp;</=
span>Saturday, 2 August 2014 17:36<br><span style=3D"font-weight: bold;">To:&n=
bsp;</span>&lt;<a href=3D"mailto:user@hadoop.apache.org">user@hadoop.apache.or=
g</a>&gt;<br><span style=3D"font-weight: bold;">Subject:&nbsp;</span>Re: org.a=
pache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.Leas=
eExpiredException)<br></div><div><br></div><p dir=3D"ltr">32k seems fine for m=
apred user(hope you using this for fetching you data) but if you have huge d=
ata on your system you can try 64k.</p><p dir=3D"ltr">Did you try increasing y=
ou time from 600 sec to like 20 mins.</p><p dir=3D"ltr">Can you also check on =
which stage its getting hanged or killed.</p><p dir=3D"ltr">Thanks<br></p><div=
 class=3D"gmail_quote">On Aug 2, 2014 9:38 PM, "Ana Gillan" &lt;<a href=3D"mailt=
o:ana.gillan@gmail.com">ana.gillan@gmail.com</a>&gt; wrote:<br type=3D"attribu=
tion"><blockquote class=3D"gmail_quote" style=3D"margin: 0px 0px 0px 0.8ex; bord=
er-left-width: 1px; border-left-color: rgb(204, 204, 204); border-left-style=
: solid; padding-left: 1ex;"><div style=3D"word-wrap: break-word;"><div>Filema=
x across the cluster is set to over 6 million.&nbsp;<font face=3D"Calibri,sans=
-serif">I&#8217;ve checked the open file limits for the</font>&nbsp;accounts=
 used by the Hadoop daemons &nbsp;and&nbsp;they&nbsp;have an open file limit=
 of 32K. This is confirmed by the various .out files, e.g.</div><br style=3D"f=
ont-family: Calibri; font-size: medium;"><span style=3D"font-family: Calibri; =
font-size: medium;">/var/log/hadoop-hdfs/hadoop-hdfs-datanode-slave1.out</sp=
an><br style=3D"font-family: Calibri; font-size: medium;"><br style=3D"font-fami=
ly: Calibri; font-size: medium;">Contains&nbsp;<span style=3D"font-family: Cal=
ibri; font-size: medium;">open files (-n) 32768. Is this too low? What is th=
e recommended value for open files on all nodes? Also does my own user need =
to have the same value?</span><div><br></div><div>I&#8217;ve also tried runn=
ing the same column selection on files crushed by the filecrush program&nbsp=
;<a href=3D"https://github.com/edwardcapriolo/filecrush/" target=3D"_blank">http=
s://github.com/edwardcapriolo/filecrush/</a>&nbsp;</div><div>This created 5 =
large files out of the 10,000 small files (still totally 2gb compressed), bu=
t this job won&#8217;t progress past 0% map.<br style=3D"font-family: Calibri;=
 font-size: medium;"><div><br></div><div style=3D"font-family: Calibri; font-s=
ize: 11pt; border-width: 1pt medium medium; border-style: solid none none; p=
adding: 3pt 0in 0in; border-top-color: rgb(181, 196, 223);"><span style=3D"fon=
t-weight: bold;">From:&nbsp;</span>Ana Gillan &lt;<a href=3D"mailto:ana.gillan=
@gmail.com" target=3D"_blank">ana.gillan@gmail.com</a>&gt;<br><span style=3D"fon=
t-weight: bold;">Date:&nbsp;</span>Saturday, 2 August 2014 16:36<br><span st=
yle=3D"font-weight: bold;">To:&nbsp;</span>&lt;<a href=3D"mailto:user@hadoop.apa=
che.org" target=3D"_blank">user@hadoop.apache.org</a>&gt;<br><span style=3D"font=
-weight: bold;">Subject:&nbsp;</span>Re: org.apache.hadoop.ipc.RemoteExcepti=
on(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException)<br></div><d=
iv><br></div><div><div style=3D"word-wrap: break-word;"><div>For my own user? =
It is as follows:</div><div><br></div><div><p style=3D"margin: 0px; font-size:=
 13px; font-family: 'Andale Mono'; color: rgb(41, 249, 20); background-color=
: rgb(0, 0, 0);">core file size&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; (blocks, -=
c) 0</p><p style=3D"margin: 0px; font-size: 13px; font-family: 'Andale Mono'; =
color: rgb(41, 249, 20); background-color: rgb(0, 0, 0);">data seg size &nbs=
p; &nbsp; &nbsp; &nbsp; &nbsp; (kbytes, -d) unlimited</p><p style=3D"margin: 0=
px; font-size: 13px; font-family: 'Andale Mono'; color: rgb(41, 249, 20); ba=
ckground-color: rgb(0, 0, 0);">scheduling priority &nbsp; &nbsp; &nbsp; &nbs=
p; &nbsp; &nbsp; (-e) 0</p><p style=3D"margin: 0px; font-size: 13px; font-fami=
ly: 'Andale Mono'; color: rgb(41, 249, 20); background-color: rgb(0, 0, 0);"=
>file size &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; (blocks, -f) unl=
imited</p><p style=3D"margin: 0px; font-size: 13px; font-family: 'Andale Mono'=
; color: rgb(41, 249, 20); background-color: rgb(0, 0, 0);">pending signals =
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; (-i) 483941</p><p st=
yle=3D"margin: 0px; font-size: 13px; font-family: 'Andale Mono'; color: rgb(41=
, 249, 20); background-color: rgb(0, 0, 0);">max locked memory &nbsp; &nbsp;=
 &nbsp; (kbytes, -l) 64</p><p style=3D"margin: 0px; font-size: 13px; font-fami=
ly: 'Andale Mono'; color: rgb(41, 249, 20); background-color: rgb(0, 0, 0);"=
>max memory size &nbsp; &nbsp; &nbsp; &nbsp; (kbytes, -m) unlimited</p><p st=
yle=3D"margin: 0px; font-size: 13px; font-family: 'Andale Mono'; color: rgb(41=
, 249, 20); background-color: rgb(0, 0, 0);">open files&nbsp; &nbsp; &nbsp; =
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; (-n) 1024</p><p styl=
e=3D"margin: 0px; font-size: 13px; font-family: 'Andale Mono'; color: rgb(41, =
249, 20); background-color: rgb(0, 0, 0);">pipe size&nbsp; &nbsp; &nbsp; &nb=
sp; &nbsp; &nbsp; (512 bytes, -p) 8</p><p style=3D"margin: 0px; font-size: 13p=
x; font-family: 'Andale Mono'; color: rgb(41, 249, 20); background-color: rg=
b(0, 0, 0);">POSIX message queues &nbsp; &nbsp; (bytes, -q) 819200</p><p sty=
le=3D"margin: 0px; font-size: 13px; font-family: 'Andale Mono'; color: rgb(41,=
 249, 20); background-color: rgb(0, 0, 0);">real-time priority&nbsp; &nbsp; =
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; (-r) 0</p><p style=3D"margin: 0px; font-siz=
e: 13px; font-family: 'Andale Mono'; color: rgb(41, 249, 20); background-col=
or: rgb(0, 0, 0);">stack size&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp=
; (kbytes, -s) 8192</p><p style=3D"margin: 0px; font-size: 13px; font-family: =
'Andale Mono'; color: rgb(41, 249, 20); background-color: rgb(0, 0, 0);">cpu=
 time &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; (seconds, -t) unlimit=
ed</p><p style=3D"margin: 0px; font-size: 13px; font-family: 'Andale Mono'; co=
lor: rgb(41, 249, 20); background-color: rgb(0, 0, 0);">max user processes&n=
bsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; (-u) 800</p><p style=3D"margin:=
 0px; font-size: 13px; font-family: 'Andale Mono'; color: rgb(41, 249, 20); =
background-color: rgb(0, 0, 0);">virtual memory&nbsp; &nbsp; &nbsp; &nbsp; &=
nbsp; (kbytes, -v) unlimited</p><p style=3D"margin: 0px; font-size: 13px; font=
-family: 'Andale Mono'; color: rgb(41, 249, 20); background-color: rgb(0, 0,=
 0);">file locks&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbs=
p; &nbsp; &nbsp; (-x) unlimited</p></div><div><br></div><div style=3D"font-fam=
ily: Calibri; font-size: 11pt; border-width: 1pt medium medium; border-style=
: solid none none; padding: 3pt 0in 0in; border-top-color: rgb(181, 196, 223=
);"><span style=3D"font-weight: bold;">From:&nbsp;</span>hadoop hive &lt;<a hr=
ef=3D"mailto:hadoophive@gmail.com" target=3D"_blank">hadoophive@gmail.com</a>&gt=
;<br><span style=3D"font-weight: bold;">Reply-To:&nbsp;</span>&lt;<a href=3D"mai=
lto:user@hadoop.apache.org" target=3D"_blank">user@hadoop.apache.org</a>&gt;<b=
r><span style=3D"font-weight: bold;">Date:&nbsp;</span>Saturday, 2 August 2014=
 16:34<br><span style=3D"font-weight: bold;">To:&nbsp;</span>&lt;<a href=3D"mail=
to:user@hadoop.apache.org" target=3D"_blank">user@hadoop.apache.org</a>&gt;<br=
><span style=3D"font-weight: bold;">Subject:&nbsp;</span>Re: org.apache.hadoop=
.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredExce=
ption)<br></div><div><br></div><p dir=3D"ltr">Can you check the ulimit for tou=
r user. Which might be causing this.</p><div class=3D"gmail_quote">On Aug 2, 2=
014 8:54 PM, "Ana Gillan" &lt;<a href=3D"mailto:ana.gillan@gmail.com" target=3D"=
_blank">ana.gillan@gmail.com</a>&gt; wrote:<br type=3D"attribution"><blockquot=
e class=3D"gmail_quote" style=3D"margin: 0px 0px 0px 0.8ex; border-left-width: 1=
px; border-left-color: rgb(204, 204, 204); border-left-style: solid; padding=
-left: 1ex;"><div style=3D"word-wrap: break-word;"><div>Hi everyone,</div><div=
><br></div><div>I am having an issue with MapReduce jobs running through Hiv=
e being killed after 600s timeouts and with very simple jobs taking over 3 h=
ours (or just failing) for a set of files with a compressed size of only 1-2=
gb. I will try and provide as much information as I can here, so if someone =
can help, that would be really great.</div><div><br></div><div>I have a clus=
ter of 7 nodes (1 master, 6 slaves) with the following config:</div><div><di=
v title=3D"Page 19"><blockquote style=3D"margin: 0px 0px 0px 40px; border: none;=
 padding: 0px;"><p>&#8226; Master node:</p><p>&#8211; 2 x Intel Xeon 6-core =
E5-2620v2 @ 2.1GHz</p><p>&#8211; 64GB DDR3 SDRAM</p><p>&#8211; 8 x 2TB SAS 6=
00 hard drive (arranged as RAID 1 and RAID 5)</p><p>&#8226; Slave nodes (eac=
h):</p><p>&#8211; Intel Xeon 4-core E3-1220v3 @ 3.1GHz</p><p>&#8211; 32GB DD=
R3 SDRAM</p><p>&#8211; 4 x 2TB SATA-3 hard drive</p><p>&#8226; Operating sys=
tem on all nodes: openSUSE Linux 13.1<span style=3D"font-family: CMR10;">&nbsp=
;</span></p></blockquote></div></div><div>We have the Apache BigTop package =
version 0.7, with Hadoop version 2.0.6-alpha and Hive version 0.11.</div><di=
v>YARN has been configured as per these recommendations:&nbsp;<a href=3D"http:=
//hortonworks.com/blog/how-to-plan-and-configure-yarn-in-hdp-2-0/" target=3D"_=
blank">http://hortonworks.com/blog/how-to-plan-and-configure-yarn-in-hdp-2-0=
/</a></div><div><br></div><div>I also set the following additional settings =
before running jobs:</div><div><div>set yarn.nodemanager.resource.cpu-vcores=
=3D4;</div><div>set mapred.tasktracker.map.tasks.maximum=3D4;</div><div>set hive=
.hadoop.supports.splittable.combineinputformat=3Dtrue;</div><div>set hive.merg=
e.mapredfiles=3Dtrue;</div></div><div><br></div><div>No one else uses this clu=
ster while I am working.</div><div><br></div><div>What I&#8217;m trying to d=
o:</div><div><font face=3D"Calibri,sans-serif">I have a bunch of XML files on =
HDFS, which I am reading into Hive using this SerDe&nbsp;</font><a href=3D"htt=
ps://github.com/dvasilen/Hive-XML-SerDe" target=3D"_blank" style=3D"color: rgb(0=
, 0, 0);">https://github.com/dvasilen/Hive-XML-SerDe</a><font face=3D"Calibri,=
sans-serif">. I then want to create a series of tables from these files and =
finally run a Python script on one of them to perform some scientific calcul=
ations. The files are .xml.gz format and (uncompressed) are only about 4mb i=
n size each.&nbsp;</font>hive.input.format is set to org.apache.hadoop.hive.=
ql.io.CombineHiveInputFormat so as to avoid the &#8220;small files problem.&=
#8221;&nbsp;</div><div><br></div><div>Problems:</div><div>My HQL statements =
work perfectly for up to 1000 of these files. Even for much larger numbers, =
doing select * works fine, which means the files are being read properly, bu=
t if I do something as simple as selecting just one column from the whole ta=
ble for a larger number of files, containers start being killed and jobs fai=
l with this error in the container logs:</div><div><br></div><div><div>2014-=
08-02 14:51:45,137 ERROR [Thread-3] org.apache.hadoop.hdfs.DFSClient: Failed=
 to close file /tmp/hive-zslf023/hive_2014-08-02_12-33-59_857_64558225417481=
33957/_task_tmp.-ext-10001/_tmp.000000_0</div><div>org.apache.hadoop.ipc.Rem=
oteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException): =
No lease on /tmp/hive-zslf023/hive_2014-08-02_12-33-59_857_64558225417481339=
57/_task_tmp.-ext-10001/_tmp.000000_0: File does not exist. Holder DFSClient=
_attempt_1403771939632_0402_m_000000_0_-1627633686_1 does not have any open =
files.</div><div><span style=3D"white-space: pre-wrap;">	</span>at org.apache.=
hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem.java:2398)<=
/div><div><br></div><div>Killed jobs show the above and also the following m=
essage:&nbsp;</div><div>AttemptID:attempt_1403771939632_0402_m_000000_0 Time=
d out after 600 secsContainer killed by the ApplicationMaster.&nbsp;</div><d=
iv><br></div><div>Also, in the node logs, I get a lot of pings like this:</d=
iv><div><span style=3D"font-family: DejaVuSansMono;">INFO [IPC Server handler =
17 on 40961] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Ping from att=
empt_1403771939632_0362_m_000002_0</span></div><div><span style=3D"font-family=
: DejaVuSansMono;"><br></span></div><div><font face=3D"DejaVuSansMono">For 500=
0 files (1gb compressed), the selection of a single column finishes, but tak=
es over 3 hours. For 10,000 files, the job hangs on about 4% map and then er=
rors out.</font></div><div><span style=3D"font-family: DejaVuSansMono;"><br></=
span></div><div><font face=3D"DejaVuSansMono">While the jobs are running,&nbsp=
;I notice that the containers are not evenly distributed across the cluster.=
 Some nodes lie idle, while the application master node runs 7 containers, m=
axing out the 28gb of RAM allocated to&nbsp;Hadoop on each slave node.</font=
></div><div><font face=3D"DejaVuSansMono"><br></font></div><div>This is the ou=
tput of netstat &#8211;i while the column selection is running:</div><div><p=
 style=3D"margin: 0px; font-size: 13px; font-family: 'Andale Mono';">Kernel In=
terface table</p><p style=3D"margin: 0px; font-size: 13px; font-family: 'Andal=
e Mono';">Iface &nbsp; MTU Met&nbsp; &nbsp; RX-OK RX-ERR RX-DRP RX-OVR&nbsp;=
 &nbsp; TX-OK TX-ERR TX-DRP TX-OVR Flg</p><p style=3D"margin: 0px; font-size: =
13px; font-family: 'Andale Mono';">eth0 &nbsp; 1500 &nbsp; 0 79515196&nbsp; =
&nbsp; &nbsp; 0 2265807&nbsp; &nbsp; &nbsp;0 45694758&nbsp; &nbsp; &nbsp;&nb=
sp;0&nbsp; &nbsp; &nbsp;&nbsp;0&nbsp; &nbsp; &nbsp;&nbsp;0 BMRU</p><p style=3D=
"margin: 0px; font-size: 13px; font-family: 'Andale Mono';">eth1 &nbsp; 1500=
 &nbsp; 0 77410508&nbsp; &nbsp; &nbsp; 0&nbsp; &nbsp; &nbsp; 0&nbsp; &nbsp; =
&nbsp; 0 40815746&nbsp; &nbsp; &nbsp; 0&nbsp; &nbsp; &nbsp; 0&nbsp; &nbsp; &=
nbsp; 0 BMRU</p><p style=3D"margin: 0px; font-size: 13px; font-family: 'Andale=
 Mono';">lo&nbsp; &nbsp; 65536 &nbsp; 0 16593808&nbsp; &nbsp; &nbsp; 0&nbsp;=
 &nbsp; &nbsp; 0&nbsp; &nbsp; &nbsp; 0 16593808&nbsp; &nbsp; &nbsp; 0&nbsp; =
&nbsp; &nbsp; 0&nbsp; &nbsp; &nbsp; 0 LRU</p></div><div><font face=3D"DejaVuSa=
nsMono"><br></font></div><div><br></div><div><br></div><div><br></div><div>A=
re there some settings I am missing that mean the cluster isn&#8217;t proces=
sing this data as efficiently as it can?</div><div><br></div><div>I am very =
new to Hadoop and there are so many logs, etc, that troubleshooting can be a=
 bit overwhelming. Where else should I be looking to try and diagnose what i=
s wrong?</div><div><br></div><div>Thanks in advance for any help you can giv=
e!</div><div><br></div><div>Kind regards,</div><div>Ana&nbsp;</div></div><di=
v><br></div></div></blockquote></div></div></div></div></div></blockquote></=
div></div><div><br></div></div></div></div></body></html>

--B_3490001552_20879299--