Mailing-List: contact crunch-user-help@incubator.apache.org; run by ezmlm
Precedence: bulk
Reply-To: crunch-user@incubator.apache.org
Received-SPF: pass (nike.apache.org: domain of jwills@cloudera.com designates
 209.85.212.47 as permitted sender)
MIME-Version: 1.0
In-Reply-To: 
 <CAH29n6MsKe=EEaJo7gD9uqzavh78s13NOC_R5286aS1rSrWdgA@mail.gmail.com>
References: 
 <CAFDgbT55VzgUBhDQa9f1hZi0hx5nvsfEJC73T8Fj2gybVQ=3OA@mail.gmail.com>
 <CAH29n6N3GXkQ6B-NT3w3JwK8aMo7vDr9ip2=1xx0UF3KiKJ4ZA@mail.gmail.com>
 <CAFDgbT5FFXp-0bWqyPY-q6-v42009DDBBCUhzQo9reavzafvXA@mail.gmail.com>
 <CAH29n6MsKe=EEaJo7gD9uqzavh78s13NOC_R5286aS1rSrWdgA@mail.gmail.com>
From: Josh Wills <jwills@cloudera.com>
Date: Tue, 24 Jul 2012 21:10:12 -0700
Message-ID: 
 <CAH29n6N=usfgYajkPLT_gE7JZS6NFuOwhZU+yz+PJ+ptE_TC-g@mail.gmail.com>
Subject: Re: CrunchRuntimeException: java.io.IOException
To: crunch-user@incubator.apache.org
Content-Type: multipart/alternative; boundary=14dae9cfc7e0fede7a04c59fa8d4

--14dae9cfc7e0fede7a04c59fa8d4
Content-Type: text/plain; charset=ISO-8859-1

Hey Gauthier,

I ran this locally just now by executing the following sequence:

1) Changed the hadoop.version in the top-level crunch pom.xml to be 1.0.3.
2) Ran `mvn clean package`
3) cd examples/
4) ~/cdh/hadoop-1.0.3/bin/hadoop jar
target/crunch-examples-0.3.0-SNAPSHOT-job.jar
org.apache.crunch.examples.WordCount foo.txt out

where I downloaded the version of hadoop you linked to in your previous
email, and foo.txt was a local file I created for testing. Curious as to
what (if anything) you did differently.

J

On Tue, Jul 24, 2012 at 8:54 AM, Josh Wills <jwills@cloudera.com> wrote:

> Could be. I'm on the road today, but I'll take a look at it this evening.
>
>
> On Tue, Jul 24, 2012 at 8:48 AM, Gauthier AMBARD <
> gauthier.ambard@gmail.com> wrote:
>
>> Yep,
>> http://apache.mirrors.multidist.eu/hadoop/common/stable/hadoop-1.0.3-bin.tar.gz and
>> hadoop version says :
>> Hadoop 1.0.3
>> Subversion
>> https://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.0 -r
>> 1335192
>> Compiled by hortonfo on Tue May  8 20:31:25 UTC 2012
>> From source with checksum e6b0c1e23dcf76907c5fecb4b832f3be
>>
>> Maybe it has to do with some configuration ?
>>
>> Gauthier
>>
>>
>> 2012/7/24 Josh Wills <jwills@cloudera.com>
>>
>>> Hey Gauthier,
>>>
>>> IIRC, that error occurs when the Hadoop version doesn't support multiple
>>> output files, which Crunch relies on. My understanding was that this was
>>> part of 1.0.3, viz.
>>>
>>>
>>> http://hadoop.apache.org/common/docs/r1.0.3/api/org/apache/hadoop/mapred/lib/MultipleOutputs.html
>>>
>>> so I'm a bit thrown-- this is the Apache distro of 1.0.3, right? Not a
>>> custom Hadoop build?
>>>
>>> J
>>>
>>> On Tue, Jul 24, 2012 at 8:29 AM, Gauthier AMBARD <
>>> gauthier.ambard@gmail.com> wrote:
>>>
>>>> Hi guys,
>>>>
>>>> I wanted to use crunch, but when I tried the examples I got
>>>> : org.apache.crunch.impl.mr.run.CrunchRuntimeException:
>>>> java.io.IOException: File already
>>>> exists:file:/tmp/crunch-1094145699/p1/output/_temporary/_attempt_local_0001_r_000000_0/part-r-00000
>>>>
>>>> I am running a git (apache incubator) version of crunch (07/24/2012)
>>>> against a 1.0.3 hadoop (maybe this is causing the error,
>>>> every dependencies are with 0.20.x hadoop). Or maybe I have messed with my
>>>> hadoop configuration (but I can run any hadoop example).
>>>>
>>>> Regards
>>>> Gauthier
>>>>
>>>> Stack trace :
>>>>
>>>> 714  [Thread-15] INFO  org.apache.crunch.impl.mr.run.RTNode  - Crunch
>>>> exception in 'Text(out)' for input: [(http://www.apache.org/).,1]
>>>> org.apache.crunch.impl.mr.run.CrunchRuntimeException:
>>>> java.io.IOException: File already
>>>> exists:file:/tmp/crunch-1094145699/p1/output/_temporary/_attempt_local_0001_r_000000_0/part-r-00000
>>>> at
>>>> org.apache.crunch.impl.mr.emit.MultipleOutputEmitter.emit(MultipleOutputEmitter.java:44)
>>>>  at org.apache.crunch.MapFn.process(MapFn.java:34)
>>>> at org.apache.crunch.impl.mr.run.RTNode.process(RTNode.java:85)
>>>>  at
>>>> org.apache.crunch.impl.mr.emit.IntermediateEmitter.emit(IntermediateEmitter.java:43)
>>>> at org.apache.crunch.MapFn.process(MapFn.java:34)
>>>>  at org.apache.crunch.impl.mr.run.RTNode.process(RTNode.java:85)
>>>> at
>>>> org.apache.crunch.impl.mr.emit.IntermediateEmitter.emit(IntermediateEmitter.java:43)
>>>>  at
>>>> org.apache.crunch.CombineFn$AggregatorCombineFn.process(CombineFn.java:87)
>>>> at
>>>> org.apache.crunch.CombineFn$AggregatorCombineFn.process(CombineFn.java:72)
>>>>  at org.apache.crunch.impl.mr.run.RTNode.process(RTNode.java:85)
>>>> at
>>>> org.apache.crunch.impl.mr.emit.IntermediateEmitter.emit(IntermediateEmitter.java:43)
>>>>  at org.apache.crunch.MapFn.process(MapFn.java:34)
>>>> at org.apache.crunch.impl.mr.run.RTNode.process(RTNode.java:85)
>>>>  at
>>>> org.apache.crunch.impl.mr.run.RTNode.processIterable(RTNode.java:100)
>>>> at
>>>> org.apache.crunch.impl.mr.run.CrunchReducer.reduce(CrunchReducer.java:61)
>>>>  at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:176)
>>>> at
>>>> org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:566)
>>>>  at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:408)
>>>> at
>>>> org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216)
>>>> Caused by: java.io.IOException: File already
>>>> exists:file:/tmp/crunch-1094145699/p1/output/_temporary/_attempt_local_0001_r_000000_0/part-r-00000
>>>> at
>>>> org.apache.hadoop.fs.RawLocalFileSystem.create(RawLocalFileSystem.java:228)
>>>>  at
>>>> org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSOutputSummer.<init>(ChecksumFileSystem.java:335)
>>>> at
>>>> org.apache.hadoop.fs.ChecksumFileSystem.create(ChecksumFileSystem.java:368)
>>>>  at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:484)
>>>> at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:465)
>>>>  at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:372)
>>>> at
>>>> org.apache.hadoop.mapreduce.lib.output.TextOutputFormat.getRecordWriter(TextOutputFormat.java:128)
>>>>  at
>>>> org.apache.crunch.hadoop.mapreduce.lib.output.CrunchMultipleOutputs.getRecordWriter(CrunchMultipleOutputs.java:416)
>>>> at
>>>> org.apache.crunch.hadoop.mapreduce.lib.output.CrunchMultipleOutputs.write(CrunchMultipleOutputs.java:378)
>>>>  at
>>>> org.apache.crunch.hadoop.mapreduce.lib.output.CrunchMultipleOutputs.write(CrunchMultipleOutputs.java:356)
>>>> at
>>>> org.apache.crunch.impl.mr.emit.MultipleOutputEmitter.emit(MultipleOutputEmitter.java:42)
>>>>
>>>
>>>
>>>
>>> --
>>> Director of Data Science
>>> Cloudera <http://www.cloudera.com>
>>> Twitter: @josh_wills <http://twitter.com/josh_wills>
>>>
>>>
>>
>
>
> --
> Director of Data Science
> Cloudera <http://www.cloudera.com>
> Twitter: @josh_wills <http://twitter.com/josh_wills>
>
>


-- 
Director of Data Science
Cloudera <http://www.cloudera.com>
Twitter: @josh_wills <http://twitter.com/josh_wills>

--14dae9cfc7e0fede7a04c59fa8d4
Content-Type: text/html; charset=ISO-8859-1
Content-Transfer-Encoding: quoted-printable

Hey Gauthier,<div><br></div><div>I ran this locally just now by executing t=
he following sequence:</div><div><br></div><div>1) Changed the hadoop.versi=
on in the top-level crunch pom.xml to be 1.0.3.</div><div>2) Ran `mvn clean=
 package`</div>


<div>3) cd examples/</div><div>4) ~/cdh/hadoop-1.0.3/bin/hadoop jar target/=
crunch-examples-0.3.0-SNAPSHOT-job.jar org.apache.crunch.examples.WordCount=
 foo.txt out<br><br>where I downloaded the version of hadoop you linked to =
in your previous email, and foo.txt was a local file I created for testing.=
 Curious as to what (if anything) you did differently.</div>

<div><br></div><div>J</div><div><br><div class=3D"gmail_quote">On Tue, Jul =
24, 2012 at 8:54 AM, Josh Wills <span dir=3D"ltr">&lt;<a href=3D"mailto:jwi=
lls@cloudera.com" target=3D"_blank">jwills@cloudera.com</a>&gt;</span> wrot=
e:<br>

<blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1p=
x #ccc solid;padding-left:1ex">
Could be. I&#39;m on the road today, but I&#39;ll take a look at it this ev=
ening.<div><div><br><br><div class=3D"gmail_quote">On Tue, Jul 24, 2012 at =
8:48 AM, Gauthier AMBARD <span dir=3D"ltr">&lt;<a href=3D"mailto:gauthier.a=
mbard@gmail.com" target=3D"_blank">gauthier.ambard@gmail.com</a>&gt;</span>=
 wrote:<br>


<blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1p=
x #ccc solid;padding-left:1ex">Yep,=A0<a href=3D"http://apache.mirrors.mult=
idist.eu/hadoop/common/stable/hadoop-1.0.3-bin.tar.gz" style=3D"color:rgb(8=
5,102,221);display:inline-block;max-width:500px;overflow:hidden;padding-bot=
tom:1px;padding-top:4px;text-decoration:none;text-overflow:ellipsis;white-s=
pace:nowrap;font-family:Ubuntu,Arial,sans-serif;font-size:12px" target=3D"_=
blank">http://apache.mirrors.multidist.eu/hadoop/common/stable/hadoop-1.0.3=
-bin.tar.gz</a>=A0and hadoop version says :=A0<div>


<div>Hadoop 1.0.3</div><div>Subversion <a href=3D"https://svn.apache.org/re=
pos/asf/hadoop/common/branches/branch-1.0" target=3D"_blank">https://svn.ap=
ache.org/repos/asf/hadoop/common/branches/branch-1.0</a> -r 1335192</div><d=
iv>


Compiled by hortonfo on Tue May =A08 20:31:25 UTC 2012</div>
<div>From source with checksum e6b0c1e23dcf76907c5fecb4b832f3be</div><div><=
br></div><div>Maybe it has to do with some configuration ?</div><span><font=
 color=3D"#888888"><div><br></div></font></span><div><span><font color=3D"#=
888888">Gauthier</font></span><div>


<div><br><br><div class=3D"gmail_quote">2012/7/24 Josh Wills <span dir=3D"l=
tr">&lt;<a href=3D"mailto:jwills@cloudera.com" target=3D"_blank">jwills@clo=
udera.com</a>&gt;</span><br>
<blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1p=
x #ccc solid;padding-left:1ex">Hey Gauthier,<div><br></div><div>IIRC, that =
error occurs when the Hadoop version doesn&#39;t support multiple output fi=
les, which Crunch relies on. My understanding was that this was part of 1.0=
.3, viz.</div>


<div><br></div>

<div><a href=3D"http://hadoop.apache.org/common/docs/r1.0.3/api/org/apache/=
hadoop/mapred/lib/MultipleOutputs.html" target=3D"_blank">http://hadoop.apa=
che.org/common/docs/r1.0.3/api/org/apache/hadoop/mapred/lib/MultipleOutputs=
.html</a></div>


<div>
<br></div><div>so I&#39;m a bit thrown-- this is the Apache distro of 1.0.3=
, right? Not a custom Hadoop build?</div><div><br></div><div>J</div><div><d=
iv><div><br><div class=3D"gmail_quote">On Tue, Jul 24, 2012 at 8:29 AM, Gau=
thier AMBARD <span dir=3D"ltr">&lt;<a href=3D"mailto:gauthier.ambard@gmail.=
com" target=3D"_blank">gauthier.ambard@gmail.com</a>&gt;</span> wrote:<br>


<blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1p=
x #ccc solid;padding-left:1ex"><span style=3D"color:rgb(34,34,34);font-size=
:13px;font-family:arial,sans-serif">Hi guys,</span><div style=3D"color:rgb(=
34,34,34);font-size:13px;font-family:arial,sans-serif">


<br></div><div style=3D"color:rgb(34,34,34);font-size:13px;font-family:aria=
l,sans-serif">I wanted to use crunch, but when I tried the examples I got :=
=A0org.apache.crunch.impl.mr.run.CrunchRuntimeException: java.io.IOExceptio=
n: File already exists:file:/tmp/crunch-1094145699/p1/output/_temporary/_at=
tempt_local_0001_r_000000_0/part-r-00000</div>


<div style=3D"color:rgb(34,34,34);font-size:13px;font-family:arial,sans-ser=
if"><br></div><div style=3D"color:rgb(34,34,34);font-size:13px;font-family:=
arial,sans-serif">
I am running a git (apache incubator) version of crunch (07/24/2012) agains=
t a 1.0.3 hadoop (maybe this is causing the error, every=A0dependencies=A0a=
re with 0.20.x hadoop). Or maybe I have messed with my hadoop configuration=
 (but I can run any hadoop example).</div>


<div style=3D"color:rgb(34,34,34);font-size:13px;font-family:arial,sans-ser=
if"><br></div><div style=3D"color:rgb(34,34,34);font-size:13px;font-family:=
arial,sans-serif">
Regards</div><div style=3D"color:rgb(34,34,34);font-size:13px;font-family:a=
rial,sans-serif">Gauthier</div><div style=3D"color:rgb(34,34,34);font-size:=
13px;font-family:arial,sans-serif">
<br></div><div style=3D"color:rgb(34,34,34);font-size:13px;font-family:aria=
l,sans-serif">Stack trace :</div><div style=3D"color:rgb(34,34,34);font-siz=
e:13px;font-family:arial,sans-serif">
<br></div><div style=3D"color:rgb(34,34,34);font-size:13px;font-family:aria=
l,sans-serif"><div>714 =A0[Thread-15] INFO =A0org.apache.crunch.impl.mr.run=
.RTNode =A0- Crunch exception in &#39;Text(out)&#39; for input: [(<a href=
=3D"http://www.apache.org/)" style=3D"color:rgb(17,85,204)" target=3D"_blan=
k">http://www.apache.org/)</a>.,1]</div>


<div>org.apache.crunch.impl.mr.run.CrunchRuntimeException: java.io.IOExcept=
ion: File already exists:file:/tmp/crunch-1094145699/p1/output/_temporary/_=
attempt_local_0001_r_000000_0/part-r-00000</div><div><span style=3D"white-s=
pace:pre-wrap">	</span>at org.apache.crunch.impl.mr.emit.MultipleOutputEmit=
ter.emit(MultipleOutputEmitter.java:44)</div>


<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.crunch.MapF=
n.process(MapFn.java:34)</div><div><span style=3D"white-space:pre-wrap">	</=
span>at org.apache.crunch.impl.mr.run.RTNode.process(RTNode.java:85)</div>


<div>
<span style=3D"white-space:pre-wrap">	</span>at org.apache.crunch.impl.mr.e=
mit.IntermediateEmitter.emit(IntermediateEmitter.java:43)</div><div><span s=
tyle=3D"white-space:pre-wrap">	</span>at org.apache.crunch.MapFn.process(Ma=
pFn.java:34)</div>


<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.crunch.impl=
.mr.run.RTNode.process(RTNode.java:85)</div><div><span style=3D"white-space=
:pre-wrap">	</span>at org.apache.crunch.impl.mr.emit.IntermediateEmitter.em=
it(IntermediateEmitter.java:43)</div>


<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.crunch.Comb=
ineFn$AggregatorCombineFn.process(CombineFn.java:87)</div><div><span style=
=3D"white-space:pre-wrap">	</span>at org.apache.crunch.CombineFn$Aggregator=
CombineFn.process(CombineFn.java:72)</div>


<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.crunch.impl=
.mr.run.RTNode.process(RTNode.java:85)</div><div><span style=3D"white-space=
:pre-wrap">	</span>at org.apache.crunch.impl.mr.emit.IntermediateEmitter.em=
it(IntermediateEmitter.java:43)</div>


<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.crunch.MapF=
n.process(MapFn.java:34)</div><div><span style=3D"white-space:pre-wrap">	</=
span>at org.apache.crunch.impl.mr.run.RTNode.process(RTNode.java:85)</div>


<div>
<span style=3D"white-space:pre-wrap">	</span>at org.apache.crunch.impl.mr.r=
un.RTNode.processIterable(RTNode.java:100)</div><div><span style=3D"white-s=
pace:pre-wrap">	</span>at org.apache.crunch.impl.mr.run.CrunchReducer.reduc=
e(CrunchReducer.java:61)</div>


<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.hadoop.mapr=
educe.Reducer.run(Reducer.java:176)</div><div><span style=3D"white-space:pr=
e-wrap">	</span>at org.apache.hadoop.mapred.ReduceTask.runNewReducer(Reduce=
Task.java:566)</div>


<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.hadoop.mapr=
ed.ReduceTask.run(ReduceTask.java:408)</div><div><span style=3D"white-space=
:pre-wrap">	</span>at org.apache.hadoop.mapred.LocalJobRunner$Job.run(Local=
JobRunner.java:216)</div>


<div>Caused by: java.io.IOException: File already exists:file:/tmp/crunch-1=
094145699/p1/output/_temporary/_attempt_local_0001_r_000000_0/part-r-00000<=
/div><div><span style=3D"white-space:pre-wrap">	</span>at org.apache.hadoop=
.fs.RawLocalFileSystem.create(RawLocalFileSystem.java:228)</div>


<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.hadoop.fs.C=
hecksumFileSystem$ChecksumFSOutputSummer.&lt;init&gt;(ChecksumFileSystem.ja=
va:335)</div><div><span style=3D"white-space:pre-wrap">	</span>at org.apach=
e.hadoop.fs.ChecksumFileSystem.create(ChecksumFileSystem.java:368)</div>


<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.hadoop.fs.F=
ileSystem.create(FileSystem.java:484)</div><div><span style=3D"white-space:=
pre-wrap">	</span>at org.apache.hadoop.fs.FileSystem.create(FileSystem.java=
:465)</div>


<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.hadoop.fs.F=
ileSystem.create(FileSystem.java:372)</div><div><span style=3D"white-space:=
pre-wrap">	</span>at org.apache.hadoop.mapreduce.lib.output.TextOutputForma=
t.getRecordWriter(TextOutputFormat.java:128)</div>


<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.crunch.hado=
op.mapreduce.lib.output.CrunchMultipleOutputs.getRecordWriter(CrunchMultipl=
eOutputs.java:416)</div><div><span style=3D"white-space:pre-wrap">	</span>a=
t org.apache.crunch.hadoop.mapreduce.lib.output.CrunchMultipleOutputs.write=
(CrunchMultipleOutputs.java:378)</div>


<div><span style=3D"white-space:pre-wrap">	</span>at org.apache.crunch.hado=
op.mapreduce.lib.output.CrunchMultipleOutputs.write(CrunchMultipleOutputs.j=
ava:356)</div><div><span style=3D"white-space:pre-wrap">	</span>at org.apac=
he.crunch.impl.mr.emit.MultipleOutputEmitter.emit(MultipleOutputEmitter.jav=
a:42)</div>


</div>
</blockquote></div><br><br clear=3D"all"><div><br></div></div></div><span><=
font color=3D"#888888">-- <br><div>Director of Data Science</div><div><a hr=
ef=3D"http://www.cloudera.com" target=3D"_blank">Cloudera</a></div>
<div>Twitter: <a href=3D"http://twitter.com/josh_wills" target=3D"_blank">@=
josh_wills</a></div>

<br>
</font></span></div>
</blockquote></div><br></div></div></div></div>
</blockquote></div><br><br clear=3D"all"><div><br></div>-- <br><div>Directo=
r of Data Science</div><div><a href=3D"http://www.cloudera.com" target=3D"_=
blank">Cloudera</a></div><div>Twitter: <a href=3D"http://twitter.com/josh_w=
ills" target=3D"_blank">@josh_wills</a></div>


<br>
</div></div></blockquote></div><br><br clear=3D"all"><div><br></div>-- <br>=
<div>Director of Data Science</div><div><a href=3D"http://www.cloudera.com"=
 target=3D"_blank">Cloudera</a></div><div>Twitter: <a href=3D"http://twitte=
r.com/josh_wills" target=3D"_blank">@josh_wills</a></div>


<br>
</div>

--14dae9cfc7e0fede7a04c59fa8d4--