Mailing-List: contact user-help@spark.apache.org; run by ezmlm
Precedence: bulk
Message-ID: <SNT149-W33607976B9FC136562FF6ED03F0@phx.gbl>
Content-Type: multipart/alternative;
	boundary="_b8108028-f8dc-4a61-a390-d2d772aa5a75_"
From: java8964 <java8964@hotmail.com>
To: SLiZn Liu <sliznmailbox@gmail.com>, Michael Armbrust
	<michael@databricks.com>
CC: "user@spark.apache.org" <user@spark.apache.org>
Subject: RE: Spark DataFrame GroupBy into List
Date: Wed, 14 Oct 2015 09:45:44 -0400
Importance: Normal
In-Reply-To: 
 <CAD_PBkS+3BOomZAde0+udEYtJQ-bMDskxHvamc6Ru3ygB22X1g@mail.gmail.com>
References: 
 <CAD_PBkT+whP8kKv6pFBzcRzd4NCm2WNbFV08Z-pXgUTW-vuMYg@mail.gmail.com>,<CAAswR-66DcuH7Mr_5m3fUQ43+KXRfKivgt86nkkDAExCXzH0QA@mail.gmail.com>,<CAD_PBkS+3BOomZAde0+udEYtJQ-bMDskxHvamc6Ru3ygB22X1g@mail.gmail.com>
MIME-Version: 1.0

--_b8108028-f8dc-4a61-a390-d2d772aa5a75_
Content-Type: text/plain; charset="iso-8859-1"
Content-Transfer-Encoding: quoted-printable

My guess is the same as UDAF of (collect_set) in Hive.
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#Languag=
eManualUDF-Built-inAggregateFunctions(UDAF)
Yong

From: sliznmailbox@gmail.com
Date: Wed=2C 14 Oct 2015 02:45:48 +0000
Subject: Re: Spark DataFrame GroupBy into List
To: michael@databricks.com
CC: user@spark.apache.org

Hi Michael=2C=20
Can you be more specific on `collect_set`? Is it a built-in function or=2C =
if it is an UDF=2C how it is defined?
BR=2CTodd Leo
On Wed=2C Oct 14=2C 2015 at 2:12 AM Michael Armbrust <michael@databricks.co=
m> wrote:
import org.apache.spark.sql.functions._
df.groupBy("category")  .agg(callUDF("collect_set"=2C df("id")).as("id_list=
"))
On Mon=2C Oct 12=2C 2015 at 11:08 PM=2C SLiZn Liu <sliznmailbox@gmail.com> =
wrote:
Hey Spark users=2C
I'm trying to group by a dataframe=2C by appending occurrences into a list =
instead of count.=20
Let's say we have a dataframe as shown below:| category | id |=0A=
| -------- |:--:|=0A=
| A        | 1  |=0A=
| A        | 2  |=0A=
| B        | 3  |=0A=
| B        | 4  |=0A=
| C        | 5  |=0A=
ideally=2C after some magic group by (reverse explode?):| category | id_lis=
t  |=0A=
| -------- | -------- |=0A=
| A        | 1=2C2      |=0A=
| B        | 3=2C4      |=0A=
| C        | 5        |=0A=
any tricks to achieve that? Scala Spark API is preferred. =3DD
BR=2CTodd Leo=20
=0A=

=0A=

=0A=
 		 	   		  =

--_b8108028-f8dc-4a61-a390-d2d772aa5a75_
Content-Type: text/html; charset="iso-8859-1"
Content-Transfer-Encoding: quoted-printable

<html>
<head>
<style><!--
.hmmessage P
{
margin:0px=3B
padding:0px
}
body.hmmessage
{
font-size: 12pt=3B
font-family:Calibri
}
--></style></head>
<body class=3D'hmmessage'><div dir=3D'ltr'>My guess is the same as UDAF of =
(collect_set) in Hive.<div><br></div><div><a href=3D"https://cwiki.apache.o=
rg/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-Built-inAgg=
regateFunctions(UDAF)" target=3D"_blank">https://cwiki.apache.org/confluenc=
e/display/Hive/LanguageManual+UDF#LanguageManualUDF-Built-inAggregateFuncti=
ons(UDAF)</a></div><div><br></div><div>Yong<br><br><div><hr id=3D"stopSpell=
ing">From: sliznmailbox@gmail.com<br>Date: Wed=2C 14 Oct 2015 02:45:48 +000=
0<br>Subject: Re: Spark DataFrame GroupBy into List<br>To: michael@databric=
ks.com<br>CC: user@spark.apache.org<br><br><div dir=3D"ltr">Hi Michael=2C&n=
bsp=3B<div><br></div><div>Can you be more specific on `collect_set`? Is it =
a built-in function or=2C if it is an UDF=2C how it is defined?</div><div><=
br></div><div>BR=2C</div><div>Todd Leo</div></div><br><div class=3D"ecxgmai=
l_quote"><div dir=3D"ltr">On Wed=2C Oct 14=2C 2015 at 2:12 AM Michael Armbr=
ust &lt=3B<a href=3D"mailto:michael@databricks.com">michael@databricks.com<=
/a>&gt=3B wrote:<br></div><blockquote class=3D"ecxgmail_quote" style=3D"bor=
der-left:1px #ccc solid=3Bpadding-left:1ex=3B"><div dir=3D"ltr"><font face=
=3D"monospace=2C monospace">import org.apache.spark.sql.functions._</font><=
div><font face=3D"monospace=2C monospace"><br></font></div><div><font face=
=3D"monospace=2C monospace">df.groupBy("category")</font></div><div><font f=
ace=3D"monospace=2C monospace">&nbsp=3B .agg(callUDF("collect_set"=2C df("i=
d")).as("id_list"))</font></div></div><div class=3D"ecxgmail_extra"><br><di=
v class=3D"ecxgmail_quote">On Mon=2C Oct 12=2C 2015 at 11:08 PM=2C SLiZn Li=
u <span dir=3D"ltr">&lt=3B<a href=3D"mailto:sliznmailbox@gmail.com" target=
=3D"_blank">sliznmailbox@gmail.com</a>&gt=3B</span> wrote:<br><blockquote c=
lass=3D"ecxgmail_quote" style=3D"border-left:1px #ccc solid=3Bpadding-left:=
1ex=3B"><div dir=3D"ltr">Hey Spark users=2C<div><br></div><div>I'm trying t=
o group by a dataframe=2C by appending occurrences into a list instead of c=
ount.&nbsp=3B</div><div><br></div><div>Let's say we have a dataframe as sho=
wn below:</div><div><pre style=3D"padding:9.5px=3Bfont-family:Monaco=2CMenl=
o=2CConsolas=2C'Courier New'=2Cmonospace=3Bfont-size:13px=3Bcolor:rgb(51=2C=
51=2C51)=3Bborder-radius:4px=3Bword-break:break-all=3Bword-wrap:break-word=
=3Bwhite-space:pre-wrap=3Bborder:0px=3B"><code style=3D"padding:0px=3Bfont-=
family:Monaco=2CMenlo=2CConsolas=2C'Courier New'=2Cmonospace=3Bfont-size:12=
px=3Bcolor:inherit=3Bborder-radius:3px=3Bborder:0px=3Bbackground-color:tran=
sparent=3B"></code></pre><pre style=3D"padding:9.5px=3Bborder-radius:4px=3B=
word-break:break-all=3Bword-wrap:break-word=3Bborder:0px=3B"><font color=3D=
"#333333" face=3D"Monaco=2C Menlo=2C Consolas=2C Courier New=2C monospace">=
<span style=3D"white-space:pre-wrap=3B">| category | id |=0A=
| -------- |:--:|=0A=
| A        | 1  |=0A=
| A        | 2  |=0A=
| B        | 3  |=0A=
| B        | 4  |=0A=
| C        | 5  |</span></font><span style=3D"color:rgb(51=2C51=2C51)=3Bfon=
t-family:Monaco=2CMenlo=2CConsolas=2C'Courier New'=2Cmonospace=3Bfont-size:=
13px=3Bwhite-space:pre-wrap=3B">=0A=
</span></pre><pre style=3D"padding:9.5px=3Bborder-radius:4px=3Bword-break:b=
reak-all=3Bword-wrap:break-word=3Bborder:0px=3B">ideally=2C after some magi=
c group by (reverse explode?):</pre><pre style=3D"padding:9.5px=3Bborder-ra=
dius:4px=3Bword-break:break-all=3Bword-wrap:break-word=3Bborder:0px=3B"><pr=
e style=3D"padding:9.5px=3Bfont-family:Monaco=2CMenlo=2CConsolas=2C'Courier=
 New'=2Cmonospace=3Bfont-size:13px=3Bcolor:rgb(51=2C51=2C51)=3Bborder-radiu=
s:4px=3Bword-break:break-all=3Bword-wrap:break-word=3Bwhite-space:pre-wrap=
=3Bborder:0px=3B"><code style=3D"padding:0px=3Bfont-family:Monaco=2CMenlo=
=2CConsolas=2C'Courier New'=2Cmonospace=3Bfont-size:12px=3Bcolor:inherit=3B=
border-radius:3px=3Bborder:0px=3Bbackground-color:transparent=3B">| categor=
y | id_list  |=0A=
| -------- | -------- |=0A=
| A        | 1=2C2      |=0A=
| B        | 3=2C4      |=0A=
| C        | 5        |=0A=
</code></pre><div><code style=3D"padding:0px=3Bfont-family:Monaco=2CMenlo=
=2CConsolas=2C'Courier New'=2Cmonospace=3Bfont-size:12px=3Bcolor:inherit=3B=
border-radius:3px=3Bborder:0px=3Bbackground-color:transparent=3B">any trick=
s to achieve that? Scala Spark API is preferred. =3DD</code></div><div><cod=
e style=3D"padding:0px=3Bfont-family:Monaco=2CMenlo=2CConsolas=2C'Courier N=
ew'=2Cmonospace=3Bfont-size:12px=3Bcolor:inherit=3Bborder-radius:3px=3Bbord=
er:0px=3Bbackground-color:transparent=3B"><br></code></div><div><code style=
=3D"padding:0px=3Bfont-family:Monaco=2CMenlo=2CConsolas=2C'Courier New'=2Cm=
onospace=3Bfont-size:12px=3Bcolor:inherit=3Bborder-radius:3px=3Bborder:0px=
=3Bbackground-color:transparent=3B">BR=2C</code></div><div><code style=3D"p=
adding:0px=3Bfont-family:Monaco=2CMenlo=2CConsolas=2C'Courier New'=2Cmonosp=
ace=3Bfont-size:12px=3Bcolor:inherit=3Bborder-radius:3px=3Bborder:0px=3Bbac=
kground-color:transparent=3B">Todd Leo </code></div></pre><div><br></div><p=
re style=3D"padding:9.5px=3Bborder-radius:4px=3Bword-break:break-all=3Bword=
-wrap:break-word=3Bborder:0px=3B"><font color=3D"#333333" face=3D"Monaco=2C=
 Menlo=2C Consolas=2C Courier New=2C monospace"><span style=3D"white-space:=
pre-wrap=3B"></span></font><span style=3D"color:rgb(51=2C51=2C51)=3Bfont-fa=
mily:Monaco=2CMenlo=2CConsolas=2C'Courier New'=2Cmonospace=3Bfont-size:13px=
=3Bwhite-space:pre-wrap=3B">=0A=
</span></pre></div><div><br></div></div>=0A=
</blockquote></div><br></div>=0A=
</blockquote></div></div></div> 		 	   		  </div></body>
</html>=

--_b8108028-f8dc-4a61-a390-d2d772aa5a75_--