Mailing-List: contact user-help@spark.apache.org; run by ezmlm
Precedence: bulk
MIME-Version: 1.0
In-Reply-To: <1445152244061-25111.post@n3.nabble.com>
References: <1445152244061-25111.post@n3.nabble.com>
Date: Sun, 18 Oct 2015 08:50:34 -0700
Message-ID: 
 <CALte62yU+v4SJNORASyPBHqa+tLsdqa4b4w6JdbieF8NkfLdmA@mail.gmail.com>
Subject: Re: callUdf("percentile_approx",col("mycol"),lit(0.25)) does not
 compile spark 1.5.1 source but it does work in spark 1.5.1 bin
From: Ted Yu <yuzhihong@gmail.com>
To: unk1102 <umesh.kacha@gmail.com>
Cc: user <user@spark.apache.org>
Content-Type: multipart/alternative; boundary=001a1140c11a3d6bbd052262fdcb

--001a1140c11a3d6bbd052262fdcb
Content-Type: text/plain; charset=UTF-8

The udf is defined in GenericUDAFPercentileApprox of hive.

When spark-shell runs, it has access to the above class which is packaged
in assembly/target/scala-2.10/spark-assembly-1.6.0-SNAPSHOT-hadoop2.7.0.jar
:

  2143 Fri Oct 16 15:02:26 PDT 2015
org/apache/hadoop/hive/ql/udf/generic/GenericUDAFPercentileApprox$1.class
  4602 Fri Oct 16 15:02:26 PDT 2015
org/apache/hadoop/hive/ql/udf/generic/GenericUDAFPercentileApprox$GenericUDAFMultiplePercentileApproxEvaluator.class
  1697 Fri Oct 16 15:02:26 PDT 2015
org/apache/hadoop/hive/ql/udf/generic/GenericUDAFPercentileApprox$GenericUDAFPercentileApproxEvaluator$PercentileAggBuf.class
  6570 Fri Oct 16 15:02:26 PDT 2015
org/apache/hadoop/hive/ql/udf/generic/GenericUDAFPercentileApprox$GenericUDAFPercentileApproxEvaluator.class
  4334 Fri Oct 16 15:02:26 PDT 2015
org/apache/hadoop/hive/ql/udf/generic/GenericUDAFPercentileApprox$GenericUDAFSinglePercentileApproxEvaluator.class
  6293 Fri Oct 16 15:02:26 PDT 2015
org/apache/hadoop/hive/ql/udf/generic/GenericUDAFPercentileApprox.class

That was the cause for different behavior.

FYI

On Sun, Oct 18, 2015 at 12:10 AM, unk1102 <umesh.kacha@gmail.com> wrote:

> Hi starting new thread following old thread looks like code for compiling
> callUdf("percentile_approx",col("mycol"),lit(0.25)) is not merged in spark
> 1.5.1 source but I dont understand why this function call works in Spark
> 1.5.1 spark-shell/bin. Please guide.
>
> ---------- Forwarded message ----------
> From: "Ted Yu" <yuzhihong@gmail.com>
> Date: Oct 14, 2015 3:26 AM
> Subject: Re: How to calculate percentile of a column of DataFrame?
> To: "Umesh Kacha" <umesh.kacha@gmail.com>
> Cc: "Michael Armbrust" <michael@databricks.com>,
> "&lt;Saif.A.Ellafi@wellsfargo.com&gt;" <Saif.A.Ellafi@wellsfargo.com>,
> "user" <user@spark.apache.org>
>
> I modified DataFrameSuite, in master branch, to call percentile_approx
> instead of simpleUDF :
>
> - deprecated callUdf in SQLContext
> - callUDF in SQLContext *** FAILED ***
>   org.apache.spark.sql.AnalysisException: undefined function
> percentile_approx;
>   at
>
> org.apache.spark.sql.catalyst.analysis.SimpleFunctionRegistry$$anonfun$2.apply(FunctionRegistry.scala:64)
>   at
>
> org.apache.spark.sql.catalyst.analysis.SimpleFunctionRegistry$$anonfun$2.apply(FunctionRegistry.scala:64)
>   at scala.Option.getOrElse(Option.scala:120)
>   at
>
> org.apache.spark.sql.catalyst.analysis.SimpleFunctionRegistry.lookupFunction(FunctionRegistry.scala:63)
>   at
>
> org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveFunctions$$anonfun$apply$10$$anonfun$applyOrElse$5$$anonfun$applyOrElse$24.apply(Analyzer.scala:506)
>   at
>
> org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveFunctions$$anonfun$apply$10$$anonfun$applyOrElse$5$$anonfun$applyOrElse$24.apply(Analyzer.scala:506)
>   at
>
> org.apache.spark.sql.catalyst.analysis.package$.withPosition(package.scala:48)
>   at
>
> org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveFunctions$$anonfun$apply$10$$anonfun$applyOrElse$5.applyOrElse(Analyzer.scala:505)
>   at
>
> org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveFunctions$$anonfun$apply$10$$anonfun$applyOrElse$5.applyOrElse(Analyzer.scala:502)
>   at
>
> org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$3.apply(TreeNode.scala:227)
>
> SPARK-10671 is included.
> For 1.5.1, I guess the absence of SPARK-10671 means that SparkSQL treats
> percentile_approx as normal UDF.
>
> Experts can correct me, if there is any misunderstanding.
>
> Cheers
>
>
>
> --
> View this message in context:
> http://apache-spark-user-list.1001560.n3.nabble.com/callUdf-percentile-approx-col-mycol-lit-0-25-does-not-compile-spark-1-5-1-source-but-it-does-work-inn-tp25111.html
> Sent from the Apache Spark User List mailing list archive at Nabble.com.
>
> ---------------------------------------------------------------------
> To unsubscribe, e-mail: user-unsubscribe@spark.apache.org
> For additional commands, e-mail: user-help@spark.apache.org
>
>

--001a1140c11a3d6bbd052262fdcb
Content-Type: text/html; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

<div dir=3D"ltr">The udf is defined in=C2=A0GenericUDAFPercentileApprox of =
hive.<div><br></div><div>When spark-shell runs, it has access to the above =
class which is packaged in=C2=A0assembly/target/scala-2.10/spark-assembly-1=
.6.0-SNAPSHOT-hadoop2.7.0.jar :</div><div><br></div><div><div>=C2=A0 2143 F=
ri Oct 16 15:02:26 PDT 2015 org/apache/hadoop/hive/ql/udf/generic/GenericUD=
AFPercentileApprox$1.class</div><div>=C2=A0 4602 Fri Oct 16 15:02:26 PDT 20=
15 org/apache/hadoop/hive/ql/udf/generic/GenericUDAFPercentileApprox$Generi=
cUDAFMultiplePercentileApproxEvaluator.class</div><div>=C2=A0 1697 Fri Oct =
16 15:02:26 PDT 2015 org/apache/hadoop/hive/ql/udf/generic/GenericUDAFPerce=
ntileApprox$GenericUDAFPercentileApproxEvaluator$PercentileAggBuf.class</di=
v><div>=C2=A0 6570 Fri Oct 16 15:02:26 PDT 2015 org/apache/hadoop/hive/ql/u=
df/generic/GenericUDAFPercentileApprox$GenericUDAFPercentileApproxEvaluator=
.class</div><div>=C2=A0 4334 Fri Oct 16 15:02:26 PDT 2015 org/apache/hadoop=
/hive/ql/udf/generic/GenericUDAFPercentileApprox$GenericUDAFSinglePercentil=
eApproxEvaluator.class</div><div>=C2=A0 6293 Fri Oct 16 15:02:26 PDT 2015 o=
rg/apache/hadoop/hive/ql/udf/generic/GenericUDAFPercentileApprox.class</div=
></div><div><br></div><div>That was the cause for different behavior.</div>=
<div><br></div><div>FYI</div></div><div class=3D"gmail_extra"><br><div clas=
s=3D"gmail_quote">On Sun, Oct 18, 2015 at 12:10 AM, unk1102 <span dir=3D"lt=
r">&lt;<a href=3D"mailto:umesh.kacha@gmail.com" target=3D"_blank">umesh.kac=
ha@gmail.com</a>&gt;</span> wrote:<br><blockquote class=3D"gmail_quote" sty=
le=3D"margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi sta=
rting new thread following old thread looks like code for compiling<br>
callUdf(&quot;percentile_approx&quot;,col(&quot;mycol&quot;),lit(0.25)) is =
not merged in spark<br>
1.5.1 source but I dont understand why this function call works in Spark<br=
>
1.5.1 spark-shell/bin. Please guide.<br>
<br>
---------- Forwarded message ----------<br>
From: &quot;Ted Yu&quot; &lt;<a href=3D"mailto:yuzhihong@gmail.com">yuzhiho=
ng@gmail.com</a>&gt;<br>
Date: Oct 14, 2015 3:26 AM<br>
Subject: Re: How to calculate percentile of a column of DataFrame?<br>
To: &quot;Umesh Kacha&quot; &lt;<a href=3D"mailto:umesh.kacha@gmail.com">um=
esh.kacha@gmail.com</a>&gt;<br>
Cc: &quot;Michael Armbrust&quot; &lt;<a href=3D"mailto:michael@databricks.c=
om">michael@databricks.com</a>&gt;,<br>
&quot;&amp;<a href=3D"mailto:lt%3BSaif.A.Ellafi@wellsfargo.com">lt;Saif.A.E=
llafi@wellsfargo.com</a>&amp;gt;&quot; &lt;<a href=3D"mailto:Saif.A.Ellafi@=
wellsfargo.com">Saif.A.Ellafi@wellsfargo.com</a>&gt;,<br>
&quot;user&quot; &lt;<a href=3D"mailto:user@spark.apache.org">user@spark.ap=
ache.org</a>&gt;<br>
<br>
I modified DataFrameSuite, in master branch, to call percentile_approx<br>
instead of simpleUDF :<br>
<br>
- deprecated callUdf in SQLContext<br>
- callUDF in SQLContext *** FAILED ***<br>
=C2=A0 org.apache.spark.sql.AnalysisException: undefined function<br>
percentile_approx;<br>
=C2=A0 at<br>
org.apache.spark.sql.catalyst.analysis.SimpleFunctionRegistry$$anonfun$2.ap=
ply(FunctionRegistry.scala:64)<br>
=C2=A0 at<br>
org.apache.spark.sql.catalyst.analysis.SimpleFunctionRegistry$$anonfun$2.ap=
ply(FunctionRegistry.scala:64)<br>
=C2=A0 at scala.Option.getOrElse(Option.scala:120)<br>
=C2=A0 at<br>
org.apache.spark.sql.catalyst.analysis.SimpleFunctionRegistry.lookupFunctio=
n(FunctionRegistry.scala:63)<br>
=C2=A0 at<br>
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveFunctions$$anonfun$a=
pply$10$$anonfun$applyOrElse$5$$anonfun$applyOrElse$24.apply(Analyzer.scala=
:506)<br>
=C2=A0 at<br>
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveFunctions$$anonfun$a=
pply$10$$anonfun$applyOrElse$5$$anonfun$applyOrElse$24.apply(Analyzer.scala=
:506)<br>
=C2=A0 at<br>
org.apache.spark.sql.catalyst.analysis.package$.withPosition(package.scala:=
48)<br>
=C2=A0 at<br>
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveFunctions$$anonfun$a=
pply$10$$anonfun$applyOrElse$5.applyOrElse(Analyzer.scala:505)<br>
=C2=A0 at<br>
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveFunctions$$anonfun$a=
pply$10$$anonfun$applyOrElse$5.applyOrElse(Analyzer.scala:502)<br>
=C2=A0 at<br>
org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$3.apply(TreeNode.scal=
a:227)<br>
<br>
SPARK-10671 is included.<br>
For 1.5.1, I guess the absence of SPARK-10671 means that SparkSQL treats<br=
>
percentile_approx as normal UDF.<br>
<br>
Experts can correct me, if there is any misunderstanding.<br>
<br>
Cheers<br>
<br>
<br>
<br>
--<br>
View this message in context: <a href=3D"http://apache-spark-user-list.1001=
560.n3.nabble.com/callUdf-percentile-approx-col-mycol-lit-0-25-does-not-com=
pile-spark-1-5-1-source-but-it-does-work-inn-tp25111.html" rel=3D"noreferre=
r" target=3D"_blank">http://apache-spark-user-list.1001560.n3.nabble.com/ca=
llUdf-percentile-approx-col-mycol-lit-0-25-does-not-compile-spark-1-5-1-sou=
rce-but-it-does-work-inn-tp25111.html</a><br>
Sent from the Apache Spark User List mailing list archive at Nabble.com.<br=
>
<br>
---------------------------------------------------------------------<br>
To unsubscribe, e-mail: <a href=3D"mailto:user-unsubscribe@spark.apache.org=
">user-unsubscribe@spark.apache.org</a><br>
For additional commands, e-mail: <a href=3D"mailto:user-help@spark.apache.o=
rg">user-help@spark.apache.org</a><br>
<br>
</blockquote></div><br></div>

--001a1140c11a3d6bbd052262fdcb--