Mailing-List: contact user-help@spark.apache.org; run by ezmlm
Precedence: bulk
MIME-Version: 1.0
In-Reply-To: <SNT149-W33607976B9FC136562FF6ED03F0@phx.gbl>
References: 
 <CAD_PBkT+whP8kKv6pFBzcRzd4NCm2WNbFV08Z-pXgUTW-vuMYg@mail.gmail.com>
 <CAAswR-66DcuH7Mr_5m3fUQ43+KXRfKivgt86nkkDAExCXzH0QA@mail.gmail.com>
 <CAD_PBkS+3BOomZAde0+udEYtJQ-bMDskxHvamc6Ru3ygB22X1g@mail.gmail.com>
 <SNT149-W33607976B9FC136562FF6ED03F0@phx.gbl>
From: Michael Armbrust <michael@databricks.com>
Date: Wed, 14 Oct 2015 10:15:46 -0700
Message-ID: 
 <CAAswR-6d_TAZN9VjFC9OuY9J0FWOBWoyzzhCP3hNd1uqg2OxwA@mail.gmail.com>
Subject: Re: Spark DataFrame GroupBy into List
To: java8964 <java8964@hotmail.com>
Cc: SLiZn Liu <sliznmailbox@gmail.com>,
 "user@spark.apache.org" <user@spark.apache.org>
Content-Type: multipart/alternative; boundary=001a114110bcc58dd7052213b758

--001a114110bcc58dd7052213b758
Content-Type: text/plain; charset=UTF-8

Thats correct.  It is a Hive UDAF.

On Wed, Oct 14, 2015 at 6:45 AM, java8964 <java8964@hotmail.com> wrote:

> My guess is the same as UDAF of (collect_set) in Hive.
>
>
> https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-Built-inAggregateFunctions(UDAF)
>
> Yong
>
> ------------------------------
> From: sliznmailbox@gmail.com
> Date: Wed, 14 Oct 2015 02:45:48 +0000
> Subject: Re: Spark DataFrame GroupBy into List
> To: michael@databricks.com
> CC: user@spark.apache.org
>
>
> Hi Michael,
>
> Can you be more specific on `collect_set`? Is it a built-in function or,
> if it is an UDF, how it is defined?
>
> BR,
> Todd Leo
>
> On Wed, Oct 14, 2015 at 2:12 AM Michael Armbrust <michael@databricks.com>
> wrote:
>
> import org.apache.spark.sql.functions._
>
> df.groupBy("category")
>   .agg(callUDF("collect_set", df("id")).as("id_list"))
>
> On Mon, Oct 12, 2015 at 11:08 PM, SLiZn Liu <sliznmailbox@gmail.com>
> wrote:
>
> Hey Spark users,
>
> I'm trying to group by a dataframe, by appending occurrences into a list
> instead of count.
>
> Let's say we have a dataframe as shown below:
>
> | category | id |
> | -------- |:--:|
> | A        | 1  |
> | A        | 2  |
> | B        | 3  |
> | B        | 4  |
> | C        | 5  |
>
> ideally, after some magic group by (reverse explode?):
>
> | category | id_list  |
> | -------- | -------- |
> | A        | 1,2      |
> | B        | 3,4      |
> | C        | 5        |
>
> any tricks to achieve that? Scala Spark API is preferred. =D
>
> BR,
> Todd Leo
>
>
>
>
>

--001a114110bcc58dd7052213b758
Content-Type: text/html; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

<div dir=3D"ltr">Thats correct.=C2=A0 It is a Hive UDAF.</div><div class=3D=
"gmail_extra"><br><div class=3D"gmail_quote">On Wed, Oct 14, 2015 at 6:45 A=
M, java8964 <span dir=3D"ltr">&lt;<a href=3D"mailto:java8964@hotmail.com" t=
arget=3D"_blank">java8964@hotmail.com</a>&gt;</span> wrote:<br><blockquote =
class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1px #ccc solid=
;padding-left:1ex">


<div><div dir=3D"ltr">My guess is the same as UDAF of (collect_set) in Hive=
.<div><br></div><div><a href=3D"https://cwiki.apache.org/confluence/display=
/Hive/LanguageManual+UDF#LanguageManualUDF-Built-inAggregateFunctions(UDAF)=
" target=3D"_blank">https://cwiki.apache.org/confluence/display/Hive/Langua=
geManual+UDF#LanguageManualUDF-Built-inAggregateFunctions(UDAF)</a></div><d=
iv><br></div><div>Yong<br><br><div><hr>From: <a href=3D"mailto:sliznmailbox=
@gmail.com" target=3D"_blank">sliznmailbox@gmail.com</a><br>Date: Wed, 14 O=
ct 2015 02:45:48 +0000<br>Subject: Re: Spark DataFrame GroupBy into List<br=
>To: <a href=3D"mailto:michael@databricks.com" target=3D"_blank">michael@da=
tabricks.com</a><br>CC: <a href=3D"mailto:user@spark.apache.org" target=3D"=
_blank">user@spark.apache.org</a><div><div class=3D"h5"><br><br><div dir=3D=
"ltr">Hi Michael,=C2=A0<div><br></div><div>Can you be more specific on `col=
lect_set`? Is it a built-in function or, if it is an UDF, how it is defined=
?</div><div><br></div><div>BR,</div><div>Todd Leo</div></div><br><div><div =
dir=3D"ltr">On Wed, Oct 14, 2015 at 2:12 AM Michael Armbrust &lt;<a href=3D=
"mailto:michael@databricks.com" target=3D"_blank">michael@databricks.com</a=
>&gt; wrote:<br></div><blockquote style=3D"border-left:1px #ccc solid;paddi=
ng-left:1ex"><div dir=3D"ltr"><font face=3D"monospace, monospace">import or=
g.apache.spark.sql.functions._</font><div><font face=3D"monospace, monospac=
e"><br></font></div><div><font face=3D"monospace, monospace">df.groupBy(&qu=
ot;category&quot;)</font></div><div><font face=3D"monospace, monospace">=C2=
=A0 .agg(callUDF(&quot;collect_set&quot;, df(&quot;id&quot;)).as(&quot;id_l=
ist&quot;))</font></div></div><div><br><div>On Mon, Oct 12, 2015 at 11:08 P=
M, SLiZn Liu <span dir=3D"ltr">&lt;<a href=3D"mailto:sliznmailbox@gmail.com=
" target=3D"_blank">sliznmailbox@gmail.com</a>&gt;</span> wrote:<br><blockq=
uote style=3D"border-left:1px #ccc solid;padding-left:1ex"><div dir=3D"ltr"=
>Hey Spark users,<div><br></div><div>I&#39;m trying to group by a dataframe=
, by appending occurrences into a list instead of count.=C2=A0</div><div><b=
r></div><div>Let&#39;s say we have a dataframe as shown below:</div><div><p=
re style=3D"padding:9.5px;font-family:Monaco,Menlo,Consolas,&#39;Courier Ne=
w&#39;,monospace;font-size:13px;color:rgb(51,51,51);border-radius:4px;word-=
break:break-all;word-wrap:break-word;white-space:pre-wrap;border:0px"><code=
 style=3D"padding:0px;font-family:Monaco,Menlo,Consolas,&#39;Courier New=
9;,monospace;font-size:12px;color:inherit;border-radius:3px;border:0px;back=
ground-color:transparent"></code></pre><pre style=3D"padding:9.5px;border-r=
adius:4px;word-break:break-all;word-wrap:break-word;border:0px"><font color=
=3D"#333333" face=3D"Monaco, Menlo, Consolas, Courier New, monospace"><span=
 style=3D"white-space:pre-wrap">| category | id |
| -------- |:--:|
| A        | 1  |
| A        | 2  |
| B        | 3  |
| B        | 4  |
| C        | 5  |</span></font><span style=3D"color:rgb(51,51,51);font-fami=
ly:Monaco,Menlo,Consolas,&#39;Courier New&#39;,monospace;font-size:13px;whi=
te-space:pre-wrap">
</span></pre><pre style=3D"padding:9.5px;border-radius:4px;word-break:break=
-all;word-wrap:break-word;border:0px">ideally, after some magic group by (r=
everse explode?):</pre><pre style=3D"padding:9.5px;border-radius:4px;word-b=
reak:break-all;word-wrap:break-word;border:0px"><pre style=3D"padding:9.5px=
;font-family:Monaco,Menlo,Consolas,&#39;Courier New&#39;,monospace;font-siz=
e:13px;color:rgb(51,51,51);border-radius:4px;word-break:break-all;word-wrap=
:break-word;white-space:pre-wrap;border:0px"><code style=3D"padding:0px;fon=
t-family:Monaco,Menlo,Consolas,&#39;Courier New&#39;,monospace;font-size:12=
px;color:inherit;border-radius:3px;border:0px;background-color:transparent"=
>| category | id_list  |
| -------- | -------- |
| A        | 1,2      |
| B        | 3,4      |
| C        | 5        |
</code></pre><div><code style=3D"padding:0px;font-family:Monaco,Menlo,Conso=
las,&#39;Courier New&#39;,monospace;font-size:12px;color:inherit;border-rad=
ius:3px;border:0px;background-color:transparent">any tricks to achieve that=
? Scala Spark API is preferred. =3DD</code></div><div><code style=3D"paddin=
g:0px;font-family:Monaco,Menlo,Consolas,&#39;Courier New&#39;,monospace;fon=
t-size:12px;color:inherit;border-radius:3px;border:0px;background-color:tra=
nsparent"><br></code></div><div><code style=3D"padding:0px;font-family:Mona=
co,Menlo,Consolas,&#39;Courier New&#39;,monospace;font-size:12px;color:inhe=
rit;border-radius:3px;border:0px;background-color:transparent">BR,</code></=
div><div><code style=3D"padding:0px;font-family:Monaco,Menlo,Consolas,&#39;=
Courier New&#39;,monospace;font-size:12px;color:inherit;border-radius:3px;b=
order:0px;background-color:transparent">Todd Leo </code></div></pre><div><b=
r></div><pre style=3D"padding:9.5px;border-radius:4px;word-break:break-all;=
word-wrap:break-word;border:0px"><font color=3D"#333333" face=3D"Monaco, Me=
nlo, Consolas, Courier New, monospace"><span style=3D"white-space:pre-wrap"=
></span></font><span style=3D"color:rgb(51,51,51);font-family:Monaco,Menlo,=
Consolas,&#39;Courier New&#39;,monospace;font-size:13px;white-space:pre-wra=
p">
</span></pre></div><div><br></div></div>
</blockquote></div><br></div>
</blockquote></div></div></div></div></div> 		 	   		  </div></div>
</blockquote></div><br></div>

--001a114110bcc58dd7052213b758--