Mailing-List: contact user-help@hadoop.apache.org; run by ezmlm
Precedence: bulk
Reply-To: user@hadoop.apache.org
Received-SPF: pass (athena.apache.org: domain of raofengyun@gmail.com
 designates 209.85.128.174 as permitted sender)
MIME-Version: 1.0
Date: Thu, 6 Mar 2014 16:09:00 +0800
Message-ID: 
 <CAGSyEuALjc_GAMhBQdbRKKTjQZvS_Wogsk7aqWHj150dfRwO4A@mail.gmail.com>
Subject: MapReduce: How to output multiplt Avro files?
From: Fengyun RAO <raofengyun@gmail.com>
To: user@hadoop.apache.org
Content-Type: multipart/alternative; boundary=001a1136516c5cb2da04f3eba698

--001a1136516c5cb2da04f3eba698
Content-Type: text/plain; charset=ISO-8859-1

our input is a line of text which may be parsed to e.g. A or B object.
We want all A objects written to "A.avro" files, while all B objects
written to "B.avro".

I looked into AvroMultipleOutputs class:
http://avro.apache.org/docs/1.7.4/api/java/org/apache/avro/mapreduce/AvroMultipleOutputs.html
There is an example, however, it's not quite clear.
For job submission, it uses AvroMultipleOutputs.addNamedOutput to add
schemas for A and B.
In my program looks like:
        AvroMultipleOutputs.addNamedOutput(job, "A",
AvroKeyOutputFormat.class, aSchema, null);
        AvroMultipleOutputs.addNamedOutput(job, "B",
AvroKeyOutputFormat.class, bSchema, null);
I believe this is for Reducer output files.

*My question is* what the Mapper output should be, in specific what
"job.setMapOutputValueClass" should be,
since the Mapper output could be A or B object, with schema aSchema or
bSchema.

In my progam, I simply set it to GenericData, but get error as below:

14/03/06 15:55:34 INFO mapreduce.Job: Task Id :
attempt_1393817780522_0012_m_000010_2, Status : FAILED
Error: java.lang.NullPointerException
        at
org.apache.hadoop.mapred.MapTask$MapOutputBuffer.init(MapTask.java:989)
        at
org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:390)
        at org.apache.hadoop.mapred.MapTask.access$100(MapTask.java:79)
        at
org.apache.hadoop.mapred.MapTask$NewOutputCollector.<init>(MapTask.java:674)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:746)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339)
        at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:165)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:415)
        at
org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)
        at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:160)

I have no idea what this means.

--001a1136516c5cb2da04f3eba698
Content-Type: text/html; charset=ISO-8859-1
Content-Transfer-Encoding: quoted-printable

<div dir=3D"ltr">our input is a line of text which may be parsed to e.g. A =
or B object.<div>We want all A objects written to &quot;A.avro&quot; files,=
 while all B objects written to &quot;B.avro&quot;.</div><div><br></div><di=
v>
I looked into=A0AvroMultipleOutputs class:=A0<a href=3D"http://avro.apache.=
org/docs/1.7.4/api/java/org/apache/avro/mapreduce/AvroMultipleOutputs.html"=
>http://avro.apache.org/docs/1.7.4/api/java/org/apache/avro/mapreduce/AvroM=
ultipleOutputs.html</a></div>
<div>There is an example, however, it&#39;s not quite clear.</div><div>For =
job submission, it uses AvroMultipleOutputs.addNamedOutput to add schemas f=
or A and B.</div><div>In my program looks like:</div><div><div>=A0 =A0 =A0 =
=A0 AvroMultipleOutputs.addNamedOutput(job, &quot;A&quot;, AvroKeyOutputFor=
mat.class, aSchema, null); =A0</div>
<div>=A0 =A0 =A0 =A0 AvroMultipleOutputs.addNamedOutput(job, &quot;B&quot;,=
 AvroKeyOutputFormat.class, bSchema, null);</div></div><div>I believe this =
is for Reducer output files.</div><div><br></div><div><b>My question is</b>=
 what the Mapper output should be, in specific what &quot;job.setMapOutputV=
alueClass&quot; should be,=A0</div>
<div>since the Mapper output could be A or B object, with schema aSchema or=
 bSchema.</div><div><br></div><div>In my progam, I simply set it to Generic=
Data, but get error as below:</div><div><br></div><div><div>14/03/06 15:55:=
34 INFO mapreduce.Job: Task Id : attempt_1393817780522_0012_m_000010_2, Sta=
tus : FAILED</div>
<div>Error: java.lang.NullPointerException</div><div>=A0 =A0 =A0 =A0 at org=
.apache.hadoop.mapred.MapTask$MapOutputBuffer.init(MapTask.java:989)</div><=
div>=A0 =A0 =A0 =A0 at org.apache.hadoop.mapred.MapTask.createSortingCollec=
tor(MapTask.java:390)</div>
<div>=A0 =A0 =A0 =A0 at org.apache.hadoop.mapred.MapTask.access$100(MapTask=
.java:79)</div><div>=A0 =A0 =A0 =A0 at org.apache.hadoop.mapred.MapTask$New=
OutputCollector.&lt;init&gt;(MapTask.java:674)</div><div>=A0 =A0 =A0 =A0 at=
 org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:746)</div>
<div>=A0 =A0 =A0 =A0 at org.apache.hadoop.mapred.MapTask.run(MapTask.java:3=
39)</div><div>=A0 =A0 =A0 =A0 at org.apache.hadoop.mapred.YarnChild$2.run(Y=
arnChild.java:165)</div><div>=A0 =A0 =A0 =A0 at java.security.AccessControl=
ler.doPrivileged(Native Method)</div>
<div>=A0 =A0 =A0 =A0 at javax.security.auth.Subject.doAs(Subject.java:415)<=
/div><div>=A0 =A0 =A0 =A0 at org.apache.hadoop.security.UserGroupInformatio=
n.doAs(UserGroupInformation.java:1491)</div><div>=A0 =A0 =A0 =A0 at org.apa=
che.hadoop.mapred.YarnChild.main(YarnChild.java:160)</div>
</div><div><br></div><div>I have no idea what this means.</div></div>

--001a1136516c5cb2da04f3eba698--