Mailing-List: contact user-help@crunch.apache.org; run by ezmlm
Precedence: bulk
Reply-To: user@crunch.apache.org
MIME-Version: 1.0
In-Reply-To: 
 <CAMQQebADOBUwK=oXDfwqSbw4tcaz6A-Ufbk24qRrCjrhv5DXQA@mail.gmail.com>
References: 
 <CACh8E6gp5_PsvttZ1taJZHP1X0-43m2GMFdP+ahFuYmOwRKq6Q@mail.gmail.com>
	<CAMQQebADOBUwK=oXDfwqSbw4tcaz6A-Ufbk24qRrCjrhv5DXQA@mail.gmail.com>
Date: Mon, 4 Jan 2016 12:22:17 -0800
Message-ID: 
 <CACh8E6hge3AYS+NrvZJtQ_7S8E5bQuyRL0eKFV5D7iddfCahQQ@mail.gmail.com>
Subject: Re: Sparkpipeline hit credentials issue when trying to write to S3
From: Yan Yang <yan@wealthfront.com>
To: user@crunch.apache.org
Content-Type: multipart/alternative; boundary=089e0139ffbe95c2a8052887e05c

--089e0139ffbe95c2a8052887e05c
Content-Type: text/plain; charset=UTF-8

Hi Jeff,

We are using s3n://bucket/path

Thanks
Yan

On Mon, Jan 4, 2016 at 12:19 PM, Jeff Quinn <jeff@nuna.com> wrote:

> Hey Yan,
>
> Just a hunch but from that stacktrace it looks like you might be using the
> outdated s3-hadoop filesystem, is the url you are trying to write to of the
> form s3://bucket/path or s3n://bucket/path?
>
> Thanks!
>
> Jeff
>
> On Mon, Jan 4, 2016 at 12:15 PM, Yan Yang <yan@wealthfront.com> wrote:
>
>> Hi
>>
>> I have tried to set up a Sparkpipeline to run within AWS EMR.
>>
>> The code is as below:
>>
>> SparkConf sparkConf = new SparkConf().setAppName("JavaSparkPi");
>> JavaSparkContext jsc = new JavaSparkContext(sparkConf);
>> SparkPipeline pipeline = new SparkPipeline(jsc, "spark-app");
>>
>> PCollection<Input> input = pipeline.read(From.avroFile(inputPaths,
>> Input.class));
>> PCollection<Output> output = process(input);
>> pipeline.write(output, To.avroFile(outputPath));
>>
>> The read works and a simple spark write such as calling saveAsTextFile()
>> on an RDD object also works.
>>
>> However write using pipeline.write() hits below exceptions. I have tried
>> to set fs.s3n.awsAccessKeyId and fs.s3n.awsSecretAccessKey in sparkConf
>> with the same result:
>>
>> java.lang.IllegalArgumentException: AWS Access Key ID and Secret Access Key must be specified as the username or password (respectively) of a s3n URL, or by setting the fs.s3n.awsAccessKeyId or fs.s3n.awsSecretAccessKey properties (respectively).
>> 	at org.apache.hadoop.fs.s3.S3Credentials.initialize(S3Credentials.java:70)
>> 	at org.apache.hadoop.fs.s3native.Jets3tNativeFileSystemStore.initialize(Jets3tNativeFileSystemStore.java:80)
>> 	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
>> 	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
>> 	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
>> 	at java.lang.reflect.Method.invoke(Method.java:606)
>> 	at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:187)
>> 	at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:102)
>> 	at org.apache.hadoop.fs.s3native.$Proxy9.initialize(Unknown Source)
>> 	at org.apache.hadoop.fs.s3native.NativeS3FileSystem.initialize(NativeS3FileSystem.java:326)
>> 	at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2644)
>> 	at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:90)
>> 	at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2678)
>> 	at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2660)
>> 	at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:374)
>> 	at org.apache.hadoop.fs.Path.getFileSystem(Path.java:296)
>> 	at org.apache.avro.mapred.FsInput.<init>(FsInput.java:37)
>> 	at org.apache.crunch.types.avro.AvroRecordReader.initialize(AvroRecordReader.java:54)
>> 	at org.apache.crunch.impl.mr.run.CrunchRecordReader.initialize(CrunchRecordReader.java:150)
>> 	at org.apache.spark.rdd.NewHadoopRDD$$anon$1.<init>(NewHadoopRDD.scala:153)
>> 	at org.apache.spark.rdd.NewHadoopRDD.compute(NewHadoopRDD.scala:124)
>> 	at org.apache.spark.rdd.NewHadoopRDD.compute(NewHadoopRDD.scala:65)
>> 	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
>> 	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
>> 	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
>> 	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
>> 	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
>> 	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
>> 	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
>> 	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
>> 	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
>> 	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
>> 	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
>> 	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
>> 	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
>> 	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
>> 	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
>> 	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
>> 	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
>> 	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
>> 	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
>> 	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
>> 	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
>> 	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
>> 	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
>> 	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
>> 	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
>> 	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
>> 	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
>> 	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
>> 	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
>> 	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
>> 	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
>> 	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
>> 	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:73)
>> 	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
>> 	at org.apache.spark.scheduler.Task.run(Task.scala:88)
>> 	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
>> 	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
>> 	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
>> 	at java.lang.Thread.run(Thread.java:745)
>>
>> Thanks
>> Yan
>>
>
>

--089e0139ffbe95c2a8052887e05c
Content-Type: text/html; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

<div dir=3D"ltr">Hi Jeff,<div><br></div><div>We are using=C2=A0<span style=
=3D"font-size:12.8px">s3n://bucket/path</span></div><div><span style=3D"fon=
t-size:12.8px"><br></span></div><div><span style=3D"font-size:12.8px">Thank=
s</span></div><div><span style=3D"font-size:12.8px">Yan</span></div></div><=
div class=3D"gmail_extra"><br><div class=3D"gmail_quote">On Mon, Jan 4, 201=
6 at 12:19 PM, Jeff Quinn <span dir=3D"ltr">&lt;<a href=3D"mailto:jeff@nuna=
.com" target=3D"_blank">jeff@nuna.com</a>&gt;</span> wrote:<br><blockquote =
class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1px #ccc solid=
;padding-left:1ex"><div dir=3D"ltr">Hey Yan,<div><br></div><div>Just a hunc=
h but from that stacktrace it looks like you might be using the outdated s3=
-hadoop filesystem, is the url you are trying to write to of the form s3://=
bucket/path or s3n://bucket/path?</div><div><br></div><div>Thanks!</div><sp=
an class=3D"HOEnZb"><font color=3D"#888888"><div><br></div><div>Jeff</div><=
/font></span></div><div class=3D"HOEnZb"><div class=3D"h5"><div class=3D"gm=
ail_extra"><br><div class=3D"gmail_quote">On Mon, Jan 4, 2016 at 12:15 PM, =
Yan Yang <span dir=3D"ltr">&lt;<a href=3D"mailto:yan@wealthfront.com" targe=
t=3D"_blank">yan@wealthfront.com</a>&gt;</span> wrote:<br><blockquote class=
=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1px #ccc solid;padd=
ing-left:1ex"><div dir=3D"ltr">Hi<div><br></div><div>I have tried to set up=
 a Sparkpipeline to run within AWS EMR.</div><div><br></div><div>The code i=
s as below:</div><div><br></div><div><div>SparkConf sparkConf =3D new Spark=
Conf().setAppName(&quot;JavaSparkPi&quot;);</div><div>JavaSparkContext jsc =
=3D new JavaSparkContext(sparkConf);</div><div>SparkPipeline pipeline =3D n=
ew SparkPipeline(jsc, &quot;spark-app&quot;);</div><div><br></div><div>PCol=
lection&lt;Input&gt; input =3D pipeline.read(From.avroFile(inputPaths, Inpu=
t.class));</div><div>PCollection&lt;Output&gt; output =3D process(input);</=
div><div>pipeline.write(output, To.avroFile(outputPath));</div></div><div><=
br></div><div>The read works and a simple spark write such as calling saveA=
sTextFile() on an RDD object also works.=C2=A0</div><div><br></div><div>How=
ever write using pipeline.write() hits below exceptions. I have tried to se=
t=C2=A0<span style=3D"color:rgb(0,0,0);white-space:pre-wrap">fs.s3n.awsAcce=
ssKeyId and fs.s3n.awsSecretAccessKey in </span>sparkConf with the same res=
ult:<br></div><div><br></div><div><pre style=3D"color:rgb(0,0,0);word-wrap:=
break-word;white-space:pre-wrap">java.lang.IllegalArgumentException: AWS Ac=
cess Key ID and Secret Access Key must be specified as the username or pass=
word (respectively) of a s3n URL, or by setting the fs.s3n.awsAccessKeyId o=
r fs.s3n.awsSecretAccessKey properties (respectively).
	at org.apache.hadoop.fs.s3.S3Credentials.initialize(S3Credentials.java:70)
	at org.apache.hadoop.fs.s3native.Jets3tNativeFileSystemStore.initialize(Je=
ts3tNativeFileSystemStore.java:80)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.ja=
va:57)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccesso=
rImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:606)
	at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInv=
ocationHandler.java:187)
	at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocatio=
nHandler.java:102)
	at org.apache.hadoop.fs.s3native.$Proxy9.initialize(Unknown Source)
	at org.apache.hadoop.fs.s3native.NativeS3FileSystem.initialize(NativeS3Fil=
eSystem.java:326)
	at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2644)
	at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:90)
	at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2678)
	at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2660)
	at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:374)
	at org.apache.hadoop.fs.Path.getFileSystem(Path.java:296)
	at org.apache.avro.mapred.FsInput.&lt;init&gt;(FsInput.java:37)
	at org.apache.crunch.types.avro.AvroRecordReader.initialize(AvroRecordRead=
er.java:54)
	at org.apache.crunch.impl.mr.run.CrunchRecordReader.initialize(CrunchRecor=
dReader.java:150)
	at org.apache.spark.rdd.NewHadoopRDD$$anon$1.&lt;init&gt;(NewHadoopRDD.sca=
la:153)
	at org.apache.spark.rdd.NewHadoopRDD.compute(NewHadoopRDD.scala:124)
	at org.apache.spark.rdd.NewHadoopRDD.compute(NewHadoopRDD.scala:65)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38=
)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38=
)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38=
)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38=
)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38=
)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38=
)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38=
)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38=
)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38=
)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38=
)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:=
73)
	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:=
41)
	at org.apache.spark.scheduler.Task.run(Task.scala:88)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.ja=
va:1145)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.j=
ava:615)
	at java.lang.Thread.run(Thread.java:745)</pre></div><div>Thanks</div><span=
><font color=3D"#888888"><div>Yan</div></font></span></div>
</blockquote></div><br></div>
</div></div></blockquote></div><br></div>

--089e0139ffbe95c2a8052887e05c--