Mailing-List: contact user-help@hadoop.apache.org; run by ezmlm
Precedence: bulk
Reply-To: user@hadoop.apache.org
Received-SPF: pass (nike.apache.org: local policy includes SPF record at
 spf.trusted-forwarder.org)
MIME-Version: 1.0
Date: Thu, 24 Oct 2013 15:19:23 -0200
Message-ID: 
 <CAAX2xq6hXfOTmkf7ZWtcgcnbcXrnyF_Nu9k2AMrgh-RGOfpkpg@mail.gmail.com>
Subject: NullPointerException when trying to write mapper output
From: Marcelo Elias Del Valle <marcelo@s1mbi0se.com.br>
To: user@hadoop.apache.org
Content-Type: multipart/alternative; boundary=bcaec52994efce1aad04e97fd5a0

--bcaec52994efce1aad04e97fd5a0
Content-Type: text/plain; charset=ISO-8859-1

I am using hadoop 1.0.3 at Amazon EMR. I have a map / reduce job configured
like this:

private static final String TEMP_PATH_PREFIX =
System.getProperty("java.io.tmpdir") + "/dmp_processor_tmp";
...
private Job setupProcessorJobS3() throws IOException, DataGrinderException {
String inputFiles = System.getProperty(DGConfig.INPUT_FILES);
Job processorJob = new Job(getConf(), PROCESSOR_JOBNAME);
processorJob.setJarByClass(DgRunner.class);
processorJob.setMapperClass(EntityMapperS3.class);
processorJob.setReducerClass(SelectorReducer.class);
processorJob.setOutputKeyClass(Text.class);
processorJob.setOutputValueClass(Text.class);
FileOutputFormat.setOutputPath(processorJob, new Path(TEMP_PATH_PREFIX));
processorJob.setOutputFormatClass(TextOutputFormat.class);
 processorJob.setInputFormatClass(NLineInputFormat.class);
FileInputFormat.setInputPaths(processorJob, inputFiles);
NLineInputFormat.setNumLinesPerSplit(processorJob, 10000);
 return processorJob;
}

In my mapper class, I have:

private Text outkey = new Text();
private Text outvalue = new Text();
...
outkey.set(entity.getEntityId().toString());
outvalue.set(input.getId().toString());
printLog("context write");
context.write(outkey, outvalue);

This last line (`context.write(outkey, outvalue);`), causes this exception.
Of course both `outkey` and `outvalue` are not null.

    2013-10-24 05:48:48,422 INFO
com.s1mbi0se.grinder.core.mapred.EntityMapperCassandra (main): Current
Thread: Thread[main,5,main]Current timestamp: 1382593728422 context write
    2013-10-24 05:48:48,422 ERROR
com.s1mbi0se.grinder.core.mapred.EntityMapperCassandra (main): Error on
entitymapper for input: 03a07858-4196-46dd-8a2c-23dd824d6e6e
    java.lang.NullPointerException
    at java.lang.System.arraycopy(Native Method)
    at
org.apache.hadoop.mapred.MapTask$MapOutputBuffer$Buffer.write(MapTask.java:1293)
    at
org.apache.hadoop.mapred.MapTask$MapOutputBuffer$Buffer.write(MapTask.java:1210)
    at java.io.DataOutputStream.writeByte(DataOutputStream.java:153)
    at org.apache.hadoop.io.WritableUtils.writeVLong(WritableUtils.java:264)
    at org.apache.hadoop.io.WritableUtils.writeVInt(WritableUtils.java:244)
    at org.apache.hadoop.io.Text.write(Text.java:281)
    at
org.apache.hadoop.io.serializer.WritableSerialization$WritableSerializer.serialize(WritableSerialization.java:90)
    at
org.apache.hadoop.io.serializer.WritableSerialization$WritableSerializer.serialize(WritableSerialization.java:77)
    at
org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1077)
    at
org.apache.hadoop.mapred.MapTask$NewOutputCollector.write(MapTask.java:698)
    at
org.apache.hadoop.mapreduce.TaskInputOutputContext.write(TaskInputOutputContext.java:80)
    at
com.s1mbi0se.grinder.core.mapred.EntityMapper.map(EntityMapper.java:78)
    at
com.s1mbi0se.grinder.core.mapred.EntityMapperS3.map(EntityMapperS3.java:34)
    at
com.s1mbi0se.grinder.core.mapred.EntityMapperS3.map(EntityMapperS3.java:14)
    at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:144)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:771)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:375)
    at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at
org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1132)
    at org.apache.hadoop.mapred.Child.main(Child.java:249)
    2013-10-24 05:48:48,422 INFO
com.s1mbi0se.grinder.core.mapred.EntityMapperS3 (main): Current Thread:
Thread[main,5,main]Current timestamp: 1382593728422 Entity Mapper end

The first records on each task are just processed ok. In some point of the
task processing, I start to take this exception over and over, and then it
doesn't process a single record anymore for that task.

I tried to set `TEMP_PATH_PREFIX` to `"s3://mybucket/dmp_processor_tmp"`,
but same thing happened.

Any idea why is this happening? What could be making hadoop not being able
to write on it's output?

--bcaec52994efce1aad04e97fd5a0
Content-Type: text/html; charset=ISO-8859-1
Content-Transfer-Encoding: quoted-printable

<div dir=3D"ltr"><div>I am using hadoop 1.0.3 at Amazon EMR. I have a map /=
 reduce job configured like this:</div><div><br></div><div><span class=3D""=
 style=3D"white-space:pre">	</span>private static final String TEMP_PATH_PR=
EFIX =3D System.getProperty(&quot;java.io.tmpdir&quot;) + &quot;/dmp_proces=
sor_tmp&quot;;</div>
<div><span class=3D"" style=3D"white-space:pre">	</span>...</div><div><span=
 class=3D"" style=3D"white-space:pre">	</span>private Job setupProcessorJob=
S3() throws IOException, DataGrinderException {</div><div><span class=3D"" =
style=3D"white-space:pre">		</span>String inputFiles =3D System.getProperty=
(DGConfig.INPUT_FILES);</div>
<div><span class=3D"" style=3D"white-space:pre">		</span>Job processorJob =
=3D new Job(getConf(), PROCESSOR_JOBNAME);</div><div><span class=3D"" style=
=3D"white-space:pre">		</span>processorJob.setJarByClass(DgRunner.class);</=
div><div>
<span class=3D"" style=3D"white-space:pre">		</span>processorJob.setMapperC=
lass(EntityMapperS3.class);</div><div><span class=3D"" style=3D"white-space=
:pre">		</span>processorJob.setReducerClass(SelectorReducer.class);</div><d=
iv><span class=3D"" style=3D"white-space:pre">		</span>processorJob.setOutp=
utKeyClass(Text.class);</div>
<div><span class=3D"" style=3D"white-space:pre">		</span>processorJob.setOu=
tputValueClass(Text.class);</div><div><span class=3D"" style=3D"white-space=
:pre">		</span>FileOutputFormat.setOutputPath(processorJob, new Path(TEMP_P=
ATH_PREFIX));</div>
<div><span class=3D"" style=3D"white-space:pre">		</span>processorJob.setOu=
tputFormatClass(TextOutputFormat.class);</div><div><span class=3D"" style=
=3D"white-space:pre">		</span></div><div><span class=3D"" style=3D"white-sp=
ace:pre">		</span>processorJob.setInputFormatClass(NLineInputFormat.class);=
</div>
<div><span class=3D"" style=3D"white-space:pre">		</span>FileInputFormat.se=
tInputPaths(processorJob, inputFiles);</div><div><span class=3D"" style=3D"=
white-space:pre">		</span>NLineInputFormat.setNumLinesPerSplit(processorJob=
, 10000);</div>
<div><span class=3D"" style=3D"white-space:pre">		</span></div><div><span c=
lass=3D"" style=3D"white-space:pre">		</span>return processorJob;</div><div=
><span class=3D"" style=3D"white-space:pre">	</span>}</div><div><br></div><=
div>In my mapper class, I have:</div>
<div><br></div><div><span class=3D"" style=3D"white-space:pre">	</span>priv=
ate Text outkey =3D new Text();</div><div><span class=3D"" style=3D"white-s=
pace:pre">	</span>private Text outvalue =3D new Text();</div><div><span cla=
ss=3D"" style=3D"white-space:pre">	</span>...</div>
<div><span class=3D"" style=3D"white-space:pre">	</span>outkey.set(entity.g=
etEntityId().toString());</div><div><span class=3D"" style=3D"white-space:p=
re">	</span>outvalue.set(input.getId().toString());</div><div><span class=
=3D"" style=3D"white-space:pre">	</span>printLog(&quot;context write&quot;)=
;</div>
<div><span class=3D"" style=3D"white-space:pre">	</span>context.write(outke=
y, outvalue);</div><div><br></div><div>This last line (`context.write(outke=
y, outvalue);`), causes this exception. Of course both `outkey` and `outval=
ue` are not null.=A0</div>
<div><br></div><div>=A0 =A0 2013-10-24 05:48:48,422 INFO com.s1mbi0se.grind=
er.core.mapred.EntityMapperCassandra (main): Current Thread: Thread[main,5,=
main]Current timestamp: 1382593728422 context write</div><div>=A0 =A0 2013-=
10-24 05:48:48,422 ERROR com.s1mbi0se.grinder.core.mapred.EntityMapperCassa=
ndra (main): Error on entitymapper for input: 03a07858-4196-46dd-8a2c-23dd8=
24d6e6e</div>
<div>=A0 =A0 java.lang.NullPointerException</div><div>=A0 =A0 <span class=
=3D"" style=3D"white-space:pre">	</span>at java.lang.System.arraycopy(Nativ=
e Method)</div><div>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</s=
pan>at org.apache.hadoop.mapred.MapTask$MapOutputBuffer$Buffer.write(MapTas=
k.java:1293)</div>
<div>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at org.apac=
he.hadoop.mapred.MapTask$MapOutputBuffer$Buffer.write(MapTask.java:1210)</d=
iv><div>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at java.=
io.DataOutputStream.writeByte(DataOutputStream.java:153)</div>
<div>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at org.apac=
he.hadoop.io.WritableUtils.writeVLong(WritableUtils.java:264)</div><div>=A0=
 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at org.apache.hadoo=
p.io.WritableUtils.writeVInt(WritableUtils.java:244)</div>
<div>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at org.apac=
he.hadoop.io.Text.write(Text.java:281)</div><div>=A0 =A0 <span class=3D"" s=
tyle=3D"white-space:pre">	</span>at org.apache.hadoop.io.serializer.Writabl=
eSerialization$WritableSerializer.serialize(WritableSerialization.java:90)<=
/div>
<div>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at org.apac=
he.hadoop.io.serializer.WritableSerialization$WritableSerializer.serialize(=
WritableSerialization.java:77)</div><div>=A0 =A0 <span class=3D"" style=3D"=
white-space:pre">	</span>at org.apache.hadoop.mapred.MapTask$MapOutputBuffe=
r.collect(MapTask.java:1077)</div>
<div>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at org.apac=
he.hadoop.mapred.MapTask$NewOutputCollector.write(MapTask.java:698)</div><d=
iv>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at org.apache=
.hadoop.mapreduce.TaskInputOutputContext.write(TaskInputOutputContext.java:=
80)</div>
<div>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at com.s1mb=
i0se.grinder.core.mapred.EntityMapper.map(EntityMapper.java:78)</div><div>=
=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at com.s1mbi0se.=
grinder.core.mapred.EntityMapperS3.map(EntityMapperS3.java:34)</div>
<div>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at com.s1mb=
i0se.grinder.core.mapred.EntityMapperS3.map(EntityMapperS3.java:14)</div><d=
iv>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at org.apache=
.hadoop.mapreduce.Mapper.run(Mapper.java:144)</div>
<div>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at org.apac=
he.hadoop.mapred.MapTask.runNewMapper(MapTask.java:771)</div><div>=A0 =A0 <=
span class=3D"" style=3D"white-space:pre">	</span>at org.apache.hadoop.mapr=
ed.MapTask.run(MapTask.java:375)</div>
<div>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at org.apac=
he.hadoop.mapred.Child$4.run(Child.java:255)</div><div>=A0 =A0 <span class=
=3D"" style=3D"white-space:pre">	</span>at java.security.AccessController.d=
oPrivileged(Native Method)</div>
<div>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at javax.se=
curity.auth.Subject.doAs(Subject.java:415)</div><div>=A0 =A0 <span class=3D=
"" style=3D"white-space:pre">	</span>at org.apache.hadoop.security.UserGrou=
pInformation.doAs(UserGroupInformation.java:1132)</div>
<div>=A0 =A0 <span class=3D"" style=3D"white-space:pre">	</span>at org.apac=
he.hadoop.mapred.Child.main(Child.java:249)</div><div>=A0 =A0 2013-10-24 05=
:48:48,422 INFO com.s1mbi0se.grinder.core.mapred.EntityMapperS3 (main): Cur=
rent Thread: Thread[main,5,main]Current timestamp: 1382593728422 Entity Map=
per end</div>
<div><br></div><div>The first records on each task are just processed ok. I=
n some point of the task processing, I start to take this exception over an=
d over, and then it doesn&#39;t process a single record anymore for that ta=
sk.</div>
<div><br></div><div>I tried to set `TEMP_PATH_PREFIX` to `&quot;s3://mybuck=
et/dmp_processor_tmp&quot;`, but same thing happened.</div><div><br></div><=
div>Any idea why is this happening? What could be making hadoop not being a=
ble to write on it&#39;s output?=A0</div>
</div>

--bcaec52994efce1aad04e97fd5a0--