Mailing-List: contact user-help@kudu.incubator.apache.org; run by ezmlm
Precedence: bulk
Reply-To: user@kudu.incubator.apache.org
MIME-Version: 1.0
In-Reply-To: 
 <CAGpTDNfGfUrfk7PXje-6zt41c4bFoqFKsVjXf1oEAyk1vDmgQw@mail.gmail.com>
References: 
 <CAJ+QY_HuVk8N6nhyxqk+skuM2YRYPrZMUqV8eOzNUix5L6Y1Ew@mail.gmail.com>
 <CAGpTDNfGfUrfk7PXje-6zt41c4bFoqFKsVjXf1oEAyk1vDmgQw@mail.gmail.com>
From: Todd Lipcon <todd@cloudera.com>
Date: Tue, 1 Mar 2016 09:57:40 -0800
Message-ID: 
 <CADY20s4mT_dDHDd8kZwVr55FpT_aWpQ3HiwXocGZaoYZC+qZhQ@mail.gmail.com>
Subject: Re: Spark SQL on kudu can not contains nullable columns?
To: user@kudu.incubator.apache.org
Content-Type: multipart/alternative; boundary=001a1134c70891fbbe052d0081bc

--001a1134c70891fbbe052d0081bc
Content-Type: text/plain; charset=UTF-8

Perhaps we should target this for 0.7.1 as well, if we're going to do that
follow-up release? Seems like it should be an easy fix (and client-side
only)

-Todd

On Tue, Mar 1, 2016 at 9:29 AM, Jean-Daniel Cryans <jdcryans@apache.org>
wrote:

> Ha yeah that's a good one. I opened this jira:
> https://issues.apache.org/jira/browse/KUDU-1360
>
> Basically we forgot to check for nulls :)
>
> J-D
>
> On Tue, Mar 1, 2016 at 9:18 AM, Darren Hoo <darren.hoo@gmail.com> wrote:
>
>> Spark SQL on kudu can not contains nullable columns?
>>
>> I've create one table in kudu(0.6.0) which has nullable columns,
>> when I try to use spark sql (using kudu java client 0.7.0) like this:
>>
>> sqlContext.load("org.kududb.spark",Map("kudu.table" -> "contents",
>> "kudu.master" -> "master1:7051")).registerTempTable("contents")
>> sqlContext.sql("SELECT * FROM * FROM contents limit 10").collectAsList()
>>
>> I got this error:
>>
>> 16/03/02 00:45:42 INFO DAGScheduler: Job 4 failed: collect at
>> <console>:20, took 11.813423 s
>> org.apache.spark.SparkException: Job aborted due to stage failure: Task 0
>> in stage 7.0 failed 4 times, most recent failure: Lost task 0.3 in stage
>> 7.0 (TID 62, slave29): java.lang.IllegalArgumentException: The requested
>> column (4)  is null
>>         at org.kududb.client.RowResult.checkNull(RowResult.java:475)
>>         at org.kududb.client.RowResult.getString(RowResult.java:321)
>>         at org.kududb.client.RowResult.getString(RowResult.java:308)
>>         at org.kududb.spark.KuduRelation.org
>> $kududb$spark$KuduRelation$$getKuduValue(DefaultSource.scala:144)
>>         at
>> org.kududb.spark.KuduRelation$$anonfun$buildScan$1$$anonfun$apply$1.apply(DefaultSource.scala:126)
>>         at
>> org.kududb.spark.KuduRelation$$anonfun$buildScan$1$$anonfun$apply$1.apply(DefaultSource.scala:126)
>>         at
>> scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)
>>         at
>> scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)
>>         at
>> scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)
>>         at
>> scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)
>>         at
>> scala.collection.TraversableLike$class.map(TraversableLike.scala:244)
>>         at scala.collection.mutable.ArrayOps$ofRef.map(ArrayOps.scala:108)
>>         at
>> org.kududb.spark.KuduRelation$$anonfun$buildScan$1.apply(DefaultSource.scala:126)
>>         at
>> org.kududb.spark.KuduRelation$$anonfun$buildScan$1.apply(DefaultSource.scala:124)
>>         at scala.collection.Iterator$$anon$11.next(Iterator.scala:328)
>>         at scala.collection.Iterator$$anon$11.next(Iterator.scala:328)
>>         at scala.collection.Iterator$$anon$11.next(Iterator.scala:328)
>>         at scala.collection.Iterator$$anon$10.next(Iterator.scala:312)
>>         at scala.collection.Iterator$class.foreach(Iterator.scala:727)
>>         at scala.collection.AbstractIterator.foreach(Iterator.scala:1157)
>>         at
>> scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:48)
>>         at
>> scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:103)
>>         at
>> scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:47)
>>         at scala.collection.TraversableOnce$class.to
>> (TraversableOnce.scala:273)
>>         at scala.collection.AbstractIterator.to(Iterator.scala:1157)
>>         at
>> scala.collection.TraversableOnce$class.toBuffer(TraversableOnce.scala:265)
>>         at scala.collection.AbstractIterator.toBuffer(Iterator.scala:1157)
>>         at
>> scala.collection.TraversableOnce$class.toArray(TraversableOnce.scala:252)
>>         at scala.collection.AbstractIterator.toArray(Iterator.scala:1157)
>>         at
>> org.apache.spark.sql.execution.SparkPlan$$anonfun$5.apply(SparkPlan.scala:215)
>>         at
>> org.apache.spark.sql.execution.SparkPlan$$anonfun$5.apply(SparkPlan.scala:215)
>>         at
>> org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1850)
>>         at
>> org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1850)
>>         at
>> org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
>>         at org.apache.spark.scheduler.Task.run(Task.scala:88)
>>         at
>> org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
>>         at
>> java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
>>         at
>> java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
>>         at java.lang.Thread.run(Thread.java:745)
>>
>> Is this due to the version incompatibily between my kudu server(0.6.0)
>> and java client (0.7.0)?
>>
>>
>


-- 
Todd Lipcon
Software Engineer, Cloudera

--001a1134c70891fbbe052d0081bc
Content-Type: text/html; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

<div dir=3D"ltr">Perhaps we should target this for 0.7.1 as well, if we&#39=
;re going to do that follow-up release? Seems like it should be an easy fix=
 (and client-side only)<div><br></div><div>-Todd</div></div><div class=3D"g=
mail_extra"><br><div class=3D"gmail_quote">On Tue, Mar 1, 2016 at 9:29 AM, =
Jean-Daniel Cryans <span dir=3D"ltr">&lt;<a href=3D"mailto:jdcryans@apache.=
org" target=3D"_blank">jdcryans@apache.org</a>&gt;</span> wrote:<br><blockq=
uote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1px #ccc =
solid;padding-left:1ex"><div dir=3D"ltr">Ha yeah that&#39;s a good one. I o=
pened this jira:=C2=A0<a href=3D"https://issues.apache.org/jira/browse/KUDU=
-1360" target=3D"_blank">https://issues.apache.org/jira/browse/KUDU-1360</a=
><div><br></div><div>Basically we forgot to check for nulls :)</div><span c=
lass=3D"HOEnZb"><font color=3D"#888888"><div><br></div><div>J-D</div></font=
></span></div><div class=3D"HOEnZb"><div class=3D"h5"><div class=3D"gmail_e=
xtra"><br><div class=3D"gmail_quote">On Tue, Mar 1, 2016 at 9:18 AM, Darren=
 Hoo <span dir=3D"ltr">&lt;<a href=3D"mailto:darren.hoo@gmail.com" target=
=3D"_blank">darren.hoo@gmail.com</a>&gt;</span> wrote:<br><blockquote class=
=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1px #ccc solid;padd=
ing-left:1ex"><div dir=3D"ltr"><div>Spark SQL on kudu can not contains null=
able columns?</div><div><br></div><div>I&#39;ve create one table in kudu(0.=
6.0) which has nullable columns,</div><div>when I try to use spark sql (usi=
ng kudu java client 0.7.0) like this:</div><div><br></div><div>sqlContext.l=
oad(&quot;org.kududb.spark&quot;,Map(&quot;kudu.table&quot; -&gt; &quot;con=
tents&quot;, &quot;kudu.master&quot; -&gt; &quot;master1:7051&quot;)).regis=
terTempTable(&quot;contents&quot;)</div><div>sqlContext.sql(&quot;SELECT * =
FROM * FROM contents limit 10&quot;).collectAsList()</div><div><br></div><d=
iv>I got this error:</div><div><br></div><div>16/03/02 00:45:42 INFO DAGSch=
eduler: Job 4 failed: collect at &lt;console&gt;:20, took 11.813423 s</div>=
<div>org.apache.spark.SparkException: Job aborted due to stage failure: Tas=
k 0 in stage 7.0 failed 4 times, most recent failure: Lost task 0.3 in stag=
e 7.0 (TID 62, slave29): java.lang.IllegalArgumentException: The requested =
column (4) =C2=A0is null</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.kudud=
b.client.RowResult.checkNull(RowResult.java:475)</div><div>=C2=A0 =C2=A0 =
=C2=A0 =C2=A0 at org.kududb.client.RowResult.getString(RowResult.java:321)<=
/div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.kududb.client.RowResult.getStr=
ing(RowResult.java:308)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at <a href=3D=
"http://org.kududb.spark.KuduRelation.org" target=3D"_blank">org.kududb.spa=
rk.KuduRelation.org</a>$kududb$spark$KuduRelation$$getKuduValue(DefaultSour=
ce.scala:144)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.kududb.spark.Kud=
uRelation$$anonfun$buildScan$1$$anonfun$apply$1.apply(DefaultSource.scala:1=
26)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.kududb.spark.KuduRelation$=
$anonfun$buildScan$1$$anonfun$apply$1.apply(DefaultSource.scala:126)</div><=
div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at scala.collection.TraversableLike$$anonfu=
n$map$1.apply(TraversableLike.scala:244)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=
=A0 at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLik=
e.scala:244)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at scala.collection.Inde=
xedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)</div><div>=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 at scala.collection.mutable.ArrayOps$ofRef.foreach=
(ArrayOps.scala:108)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at scala.collect=
ion.TraversableLike$class.map(TraversableLike.scala:244)</div><div>=C2=A0 =
=C2=A0 =C2=A0 =C2=A0 at scala.collection.mutable.ArrayOps$ofRef.map(ArrayOp=
s.scala:108)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.kududb.spark.Kudu=
Relation$$anonfun$buildScan$1.apply(DefaultSource.scala:126)</div><div>=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 at org.kududb.spark.KuduRelation$$anonfun$buildSca=
n$1.apply(DefaultSource.scala:124)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at=
 scala.collection.Iterator$$anon$11.next(Iterator.scala:328)</div><div>=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 at scala.collection.Iterator$$anon$11.next(Iterato=
r.scala:328)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at scala.collection.Iter=
ator$$anon$11.next(Iterator.scala:328)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=
=A0 at scala.collection.Iterator$$anon$10.next(Iterator.scala:312)</div><di=
v>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at scala.collection.Iterator$class.foreach(It=
erator.scala:727)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at scala.collection=
.AbstractIterator.foreach(Iterator.scala:1157)</div><div>=C2=A0 =C2=A0 =C2=
=A0 =C2=A0 at scala.collection.generic.Growable$class.$plus$plus$eq(Growabl=
e.scala:48)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at scala.collection.mutab=
le.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:103)</div><div>=C2=A0 =C2=A0=
 =C2=A0 =C2=A0 at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayB=
uffer.scala:47)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at scala.collection.T=
raversableOnce$<a href=3D"http://class.to" target=3D"_blank">class.to</a>(T=
raversableOnce.scala:273)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at <a href=
=3D"http://scala.collection.AbstractIterator.to" target=3D"_blank">scala.co=
llection.AbstractIterator.to</a>(Iterator.scala:1157)</div><div>=C2=A0 =C2=
=A0 =C2=A0 =C2=A0 at scala.collection.TraversableOnce$class.toBuffer(Traver=
sableOnce.scala:265)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at scala.collect=
ion.AbstractIterator.toBuffer(Iterator.scala:1157)</div><div>=C2=A0 =C2=A0 =
=C2=A0 =C2=A0 at scala.collection.TraversableOnce$class.toArray(Traversable=
Once.scala:252)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at scala.collection.A=
bstractIterator.toArray(Iterator.scala:1157)</div><div>=C2=A0 =C2=A0 =C2=A0=
 =C2=A0 at org.apache.spark.sql.execution.SparkPlan$$anonfun$5.apply(SparkP=
lan.scala:215)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.apache.spark.sq=
l.execution.SparkPlan$$anonfun$5.apply(SparkPlan.scala:215)</div><div>=C2=
=A0 =C2=A0 =C2=A0 =C2=A0 at org.apache.spark.SparkContext$$anonfun$runJob$5=
.apply(SparkContext.scala:1850)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at or=
g.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1850=
)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at org.apache.spark.scheduler.Resul=
tTask.runTask(ResultTask.scala:66)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at=
 org.apache.spark.scheduler.Task.run(Task.scala:88)</div><div>=C2=A0 =C2=A0=
 =C2=A0 =C2=A0 at org.apache.spark.executor.Executor$TaskRunner.run(Executo=
r.scala:214)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at java.util.concurrent.=
ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)</div><div>=C2=A0=
 =C2=A0 =C2=A0 =C2=A0 at java.util.concurrent.ThreadPoolExecutor$Worker.run=
(ThreadPoolExecutor.java:615)</div><div>=C2=A0 =C2=A0 =C2=A0 =C2=A0 at java=
.lang.Thread.run(Thread.java:745)</div><div><br></div><div>Is this due to t=
he version incompatibily between my kudu server(0.6.0) and java client (0.7=
.0)?</div><div><br></div></div>
</blockquote></div><br></div>
</div></div></blockquote></div><br><br clear=3D"all"><div><br></div>-- <br>=
<div class=3D"gmail_signature">Todd Lipcon<br>Software Engineer, Cloudera</=
div>
</div>

--001a1134c70891fbbe052d0081bc--