Mailing-List: contact hadoop-dev-help@lucene.apache.org; run by ezmlm
Precedence: bulk
Reply-To: hadoop-dev@lucene.apache.org
Received-SPF: neutral (herse.apache.org: local policy)
Content-class: urn:content-classes:message
MIME-Version: 1.0
Content-Type: multipart/alternative;
	boundary="----_=_NextPart_001_01C770E2.40EA1C8F"
Subject: Very high CPU usage on data nodes because of FSDataset.checkDataDir()
 on every connect
Date: Tue, 27 Mar 2007 19:39:00 -0700
Message-ID: 
 <8E2AE6006D6A584F98D5CD65F4801BFE05135D70@EXVBE012-1.exch012.intermedia.net>
Thread-Topic: Very high CPU usage on data nodes because of
 FSDataset.checkDataDir() on every connect
Thread-Index: Acdw4j2ueKEUZCFSRFOOVXv3e9uDpg==
From: "Igor Bolotin" <igorb@collarity.com>
To: <hadoop-dev@lucene.apache.org>

------_=_NextPart_001_01C770E2.40EA1C8F
Content-Type: text/plain;
	charset="us-ascii"
Content-Transfer-Encoding: quoted-printable

While investigating performance issues in our Hadoop DFS/MapReduce
cluster I saw very high CPU usage by DataNode processes.

Stack trace showed following on most of the data nodes:

=20

"org.apache.hadoop.dfs.DataNode$DataXceiveServer@528acf6e" daemon =
prio=3D1
tid=3D0x00002aaacb5b7bd0 nid=3D0x5940 runnable
[0x000000004166a000..0x000000004166ac00]

        at java.io.UnixFileSystem.checkAccess(Native Method)

        at java.io.File.canRead(File.java:660)

        at
org.apache.hadoop.util.DiskChecker.checkDir(DiskChecker.java:34)

        at
org.apache.hadoop.dfs.FSDataset$FSDir.checkDirTree(FSDataset.java:164)

        at
org.apache.hadoop.dfs.FSDataset$FSDir.checkDirTree(FSDataset.java:168)

        at
org.apache.hadoop.dfs.FSDataset$FSDir.checkDirTree(FSDataset.java:168)

        at
org.apache.hadoop.dfs.FSDataset$FSDir.checkDirTree(FSDataset.java:168)

        at
org.apache.hadoop.dfs.FSDataset$FSDir.checkDirTree(FSDataset.java:168)

        at
org.apache.hadoop.dfs.FSDataset$FSDir.checkDirTree(FSDataset.java:168)

        at
org.apache.hadoop.dfs.FSDataset$FSDir.checkDirTree(FSDataset.java:168)

        at
org.apache.hadoop.dfs.FSDataset$FSDir.checkDirTree(FSDataset.java:168)

        at
org.apache.hadoop.dfs.FSDataset$FSDir.checkDirTree(FSDataset.java:168)

        at
org.apache.hadoop.dfs.FSDataset$FSDir.checkDirTree(FSDataset.java:168)

        at
org.apache.hadoop.dfs.FSDataset$FSDir.checkDirTree(FSDataset.java:168)

        at
org.apache.hadoop.dfs.FSDataset$FSDir.checkDirTree(FSDataset.java:168)

        at
org.apache.hadoop.dfs.FSDataset$FSDir.checkDirTree(FSDataset.java:168)

        at
org.apache.hadoop.dfs.FSDataset$FSDir.checkDirTree(FSDataset.java:168)

        at
org.apache.hadoop.dfs.FSDataset$FSVolume.checkDirs(FSDataset.java:258)

        at
org.apache.hadoop.dfs.FSDataset$FSVolumeSet.checkDirs(FSDataset.java:339
)

        - locked <0x00002aaab6fb8960> (a
org.apache.hadoop.dfs.FSDataset$FSVolumeSet)

        at
org.apache.hadoop.dfs.FSDataset.checkDataDir(FSDataset.java:544)

        at
org.apache.hadoop.dfs.DataNode$DataXceiveServer.run(DataNode.java:535)

        at java.lang.Thread.run(Thread.java:595)

=20

I understand that it would take a while to check the entire data
directory - as we have some 180,000 blocks/files in there. But what
really bothers me that from the code I see that this check is executed
for every client connection to the DataNode - which also means for every
task executed in the cluster. Once I commented out the check and
restarted datanodes - the performance went up and CPU usage went down to
reasonable level.=20

=20

Now the question is - am I missing something here or this check should
really be removed?=20

=20

Best regards,

Igor Bolotin
www.collarity.com

=20

=20

=20

=20

=20

=20

=20

=20


------_=_NextPart_001_01C770E2.40EA1C8F--