Mailing-List: contact user-help@spark.apache.org; run by ezmlm
Precedence: bulk
MIME-Version: 1.0
Date: Wed, 2 Mar 2016 03:02:34 -0800
Message-ID: 
 <CAJk+aST8CUvej76eqJcyRHUXRK3Zioo6fTA2piAsguy_VDypeg@mail.gmail.com>
Subject: spark streaming
From: Vinti Maheshwari <vinti.uiet@gmail.com>
To: user <user@spark.apache.org>
Content-Type: multipart/alternative; boundary=089e011838f0b33448052d0ed16d

--089e011838f0b33448052d0ed16d
Content-Type: text/plain; charset=UTF-8

Hi All,

I wanted to set *StorageLevel.MEMORY_AND_DISK_SER* in my spark-streaming
program as currently i am getting
MetadataFetchFailedException*. *I am not sure where i should pass
StorageLevel.MEMORY_AND_DISK, as it seems like createDirectStream doesn't
allow to pass that parameter.


val messages = KafkaUtils.createDirectStream[String, String,
StringDecoder, StringDecoder](
  ssc, kafkaParams, topicsSet)


Full Error:

*org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output
location for shuffle 0*
    at
org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:460)
    at
org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:456)
    at
scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:772)
    at
scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)
    at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)
    at
scala.collection.TraversableLike$WithFilter.foreach(TraversableLike.scala:771)
    at
org.apache.spark.MapOutputTracker$.org$apache$spark$MapOutputTracker$$convertMapStatuses(MapOutputTracker.scala:456)
    at
org.apache.spark.MapOutputTracker.getMapSizesByExecutorId(MapOutputTracker.scala:183)
    at
org.apache.spark.shuffle.hash.HashShuffleReader.read(HashShuffleReader.scala:47)
    at org.apache.spark.rdd.ShuffledRDD.compute(ShuffledRDD.scala:90)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
    at
org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)
    at org.apache.spark.CacheManager.getOrCompute(CacheManager.scala:69)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:262)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
    at org.apache.spark.scheduler.Task.run(Task.scala:88)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
    at
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)

)

Thanks,
~Vinti

--089e011838f0b33448052d0ed16d
Content-Type: text/html; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

<div dir=3D"ltr"><div><div><div><code>Hi All,<br><br></code></div>I wanted =
to set <code><b>StorageLevel.MEMORY_AND_DISK_SER</b> in my spark-streaming =
program as currently i am getting </code><br><code><code>MetadataFetchFaile=
dException<b>. </b>I am not sure where i should pass </code></code><font si=
ze=3D"2">StorageLevel.<span style=3D"color:rgb(102,14,122);font-style:itali=
c">MEMORY_AND_DISK, </span></font><code><code>as it seems like createDirect=
Stream doesn&#39;t allow to pass that parameter.<br></code></code><pre styl=
e=3D"background-color:rgb(255,255,255);color:rgb(0,0,0);font-family:&quot;M=
enlo&quot;;font-size:10.5pt"><span style=3D"color:rgb(0,0,128);font-weight:=
bold"><br>val </span>messages =3D KafkaUtils.<span style=3D"font-style:ital=
ic">createDirectStream</span>[<span style=3D"color:rgb(32,153,157)">String<=
/span>, <span style=3D"color:rgb(32,153,157)">String</span>, StringDecoder,=
 StringDecoder](<br>  ssc, kafkaParams, topicsSet)<br><span style=3D"color:=
rgb(102,14,122);font-style:italic"></span></pre><code><br>Full Error:<br><b=
r><b>org.apache.spark.shuffle.MetadataFetchFailedException: Missing an outp=
ut location for shuffle 0</b><br>=C2=A0=C2=A0=C2=A0 at org.apache.spark.Map=
OutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuse=
s$2.apply(MapOutputTracker.scala:460)<br>=C2=A0=C2=A0=C2=A0 at org.apache.s=
park.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMa=
pStatuses$2.apply(MapOutputTracker.scala:456)<br>=C2=A0=C2=A0=C2=A0 at scal=
a.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(Traversabl=
eLike.scala:772)<br>=C2=A0=C2=A0=C2=A0 at scala.collection.IndexedSeqOptimi=
zed$class.foreach(IndexedSeqOptimized.scala:33)<br>=C2=A0=C2=A0=C2=A0 at sc=
ala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)<br>=C2=A0=
=C2=A0=C2=A0 at scala.collection.TraversableLike$WithFilter.foreach(Travers=
ableLike.scala:771)<br>=C2=A0=C2=A0=C2=A0 at org.apache.spark.MapOutputTrac=
ker$.org$apache$spark$MapOutputTracker$$convertMapStatuses(MapOutputTracker=
.scala:456)<br>=C2=A0=C2=A0=C2=A0 at org.apache.spark.MapOutputTracker.getM=
apSizesByExecutorId(MapOutputTracker.scala:183)<br>=C2=A0=C2=A0=C2=A0 at or=
g.apache.spark.shuffle.hash.HashShuffleReader.read(HashShuffleReader.scala:=
47)<br>=C2=A0=C2=A0=C2=A0 at org.apache.spark.rdd.ShuffledRDD.compute(Shuff=
ledRDD.scala:90)<br>=C2=A0=C2=A0=C2=A0 at org.apache.spark.rdd.RDD.computeO=
rReadCheckpoint(RDD.scala:300)<br>=C2=A0=C2=A0=C2=A0 at org.apache.spark.rd=
d.RDD.iterator(RDD.scala:264)<br>=C2=A0=C2=A0=C2=A0 at org.apache.spark.rdd=
.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)<br>=C2=A0=C2=A0=C2=A0 =
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)<br>=C2=
=A0=C2=A0=C2=A0 at org.apache.spark.CacheManager.getOrCompute(CacheManager.=
scala:69)<br>=C2=A0=C2=A0=C2=A0 at org.apache.spark.rdd.RDD.iterator(RDD.sc=
ala:262)<br>=C2=A0=C2=A0=C2=A0 at org.apache.spark.scheduler.ResultTask.run=
Task(ResultTask.scala:66)<br>=C2=A0=C2=A0=C2=A0 at org.apache.spark.schedul=
er.Task.run(Task.scala:88)<br>=C2=A0=C2=A0=C2=A0 at org.apache.spark.execut=
or.Executor$TaskRunner.run(Executor.scala:214)<br>=C2=A0=C2=A0=C2=A0 at jav=
a.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145=
)<br>=C2=A0=C2=A0=C2=A0 at java.util.concurrent.ThreadPoolExecutor$Worker.r=
un(ThreadPoolExecutor.java:615)<br>=C2=A0=C2=A0=C2=A0 at java.lang.Thread.r=
un(Thread.java:745)<br><br>)<br><br></code></div><code>Thanks,<br></code></=
div><code>~Vinti<br></code></div>

--089e011838f0b33448052d0ed16d--