Mailing-List: contact user-help@spark.apache.org; run by ezmlm
Precedence: bulk
MIME-Version: 1.0
In-Reply-To: <045D8FD556C73347A47F956EE65F82202ABADC01@S11MAILD013N1.sh11.lan>
References: 
 <CAE1S4QPFF3Lv9K8H8kE+chYRBTOGPZFF-g8fPBJa3wDEut=E_g@mail.gmail.com>
	<CAAswR-7_HetsS-XB3U1AgFQoHS+gMCV4ogOG35YbWU0_mu7zcg@mail.gmail.com>
	<045D8FD556C73347A47F956EE65F82202ABAD9C7@S11MAILD013N1.sh11.lan>
	<CAOwvVPY6A7S6Uf-K5TZOKizOpM8vYnvdMCs5+=XNB9b3KLhvBw@mail.gmail.com>
	<045D8FD556C73347A47F956EE65F82202ABADC01@S11MAILD013N1.sh11.lan>
Date: Mon, 20 Jul 2015 18:19:31 -0700
Message-ID: 
 <CAE1S4QOATQiXOzMXM434dDnA=uqrtu8G8jsDJUe3zj3gf+My-g@mail.gmail.com>
Subject: Re: Data frames select and where clause dependency
From: Mike Trienis <mike.trienis@orcsol.com>
To: Mohammed Guller <mohammed@glassbeam.com>
Cc: Harish Butani <rhbutani.spark@gmail.com>,
 Michael Armbrust <michael@databricks.com>,
	"user@spark.apache.org" <user@spark.apache.org>
Content-Type: multipart/alternative; boundary=001a113e7d6e3d1920051b5872f5

--001a113e7d6e3d1920051b5872f5
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

Definitely, thanks Mohammed.

On Mon, Jul 20, 2015 at 5:47 PM, Mohammed Guller <mohammed@glassbeam.com>
wrote:

>  Thanks, Harish.
>
>
>
> Mike =E2=80=93 this would be a cleaner version for your use case:
>
> df.filter(df("filter_field") =3D=3D=3D "value").select("field1").show()
>
>
>
> Mohammed
>
>
>
> *From:* Harish Butani [mailto:rhbutani.spark@gmail.com]
> *Sent:* Monday, July 20, 2015 5:37 PM
> *To:* Mohammed Guller
> *Cc:* Michael Armbrust; Mike Trienis; user@spark.apache.org
>
> *Subject:* Re: Data frames select and where clause dependency
>
>
>
> Yes via:  org.apache.spark.sql.catalyst.optimizer.ColumnPruning
>
> See DefaultOptimizer.batches for list of logical rewrites.
>
>
>
> You can see the optimized plan by printing: df.queryExecution.optimizedPl=
an
>
>
>
> On Mon, Jul 20, 2015 at 5:22 PM, Mohammed Guller <mohammed@glassbeam.com>
> wrote:
>
> Michael,
>
> How would the Catalyst optimizer optimize this version?
>
> df.filter(df("filter_field") =3D=3D=3D "value").select("field1").show()
>
> Would it still read all the columns in df or would it read only
> =E2=80=9Cfilter_field=E2=80=9D and =E2=80=9Cfield1=E2=80=9D since only tw=
o columns are used (assuming other
> columns from df are not used anywhere else)?
>
>
>
> Mohammed
>
>
>
> *From:* Michael Armbrust [mailto:michael@databricks.com]
> *Sent:* Friday, July 17, 2015 1:39 PM
> *To:* Mike Trienis
> *Cc:* user@spark.apache.org
> *Subject:* Re: Data frames select and where clause dependency
>
>
>
> Each operation on a dataframe is completely independent and doesn't know
> what operations happened before it.  When you do a selection, you are
> removing other columns from the dataframe and so the filter has nothing t=
o
> operate on.
>
>
>
> On Fri, Jul 17, 2015 at 11:55 AM, Mike Trienis <mike.trienis@orcsol.com>
> wrote:
>
> I'd like to understand why the where field must exist in the select
> clause.
>
>
>
> For example, the following select statement works fine
>
>    - df.select("field1", "filter_field").filter(df("filter_field") =3D=3D=
=3D
>    "value").show()
>
>  However, the next one fails with the error "in operator !Filter
> (filter_field#60 =3D value);"
>
>    - df.select("field1").filter(df("filter_field") =3D=3D=3D "value").sho=
w()
>
>  As a work-around, it seems that I can do the following
>
>    - df.select("field1", "filter_field").filter(df("filter_field") =3D=3D=
=3D
>    "value").drop("filter_field").show()
>
>
>
> Thanks, Mike.
>
>
>
>
>

--001a113e7d6e3d1920051b5872f5
Content-Type: text/html; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

<div dir=3D"ltr">Definitely, thanks Mohammed.=C2=A0</div><div class=3D"gmai=
l_extra"><br><div class=3D"gmail_quote">On Mon, Jul 20, 2015 at 5:47 PM, Mo=
hammed Guller <span dir=3D"ltr">&lt;<a href=3D"mailto:mohammed@glassbeam.co=
m" target=3D"_blank">mohammed@glassbeam.com</a>&gt;</span> wrote:<br><block=
quote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1px #ccc=
 solid;padding-left:1ex">


<div lang=3D"EN-US" link=3D"blue" vlink=3D"purple">
<div>
<p class=3D"MsoNormal"><span style=3D"font-size:11.0pt;font-family:&quot;Ca=
libri&quot;,&quot;sans-serif&quot;;color:#1f497d">Thanks, Harish.<u></u><u>=
</u></span></p>
<p class=3D"MsoNormal"><span style=3D"font-size:11.0pt;font-family:&quot;Ca=
libri&quot;,&quot;sans-serif&quot;;color:#1f497d"><u></u>=C2=A0<u></u></spa=
n></p>
<p class=3D"MsoNormal"><span style=3D"font-size:11.0pt;font-family:&quot;Ca=
libri&quot;,&quot;sans-serif&quot;;color:#1f497d">Mike =E2=80=93 this would=
 be a cleaner version for your use case:<u></u><u></u></span></p><span clas=
s=3D"">
<p class=3D"MsoNormal">df.filter(df(&quot;filter_field&quot;) =3D=3D=3D &qu=
ot;value&quot;).select(&quot;field1&quot;).show()<u></u><u></u></p>
<p class=3D"MsoNormal"><span style=3D"font-size:11.0pt;font-family:&quot;Ca=
libri&quot;,&quot;sans-serif&quot;;color:#1f497d"><u></u>=C2=A0<u></u></spa=
n></p>
</span><p class=3D"MsoNormal"><span style=3D"font-size:11.0pt;font-family:&=
quot;Calibri&quot;,&quot;sans-serif&quot;;color:#1f497d">Mohammed<u></u><u>=
</u></span></p>
<p class=3D"MsoNormal"><span style=3D"font-size:11.0pt;font-family:&quot;Ca=
libri&quot;,&quot;sans-serif&quot;;color:#1f497d"><u></u>=C2=A0<u></u></spa=
n></p>
<p class=3D"MsoNormal"><b><span style=3D"font-size:10.0pt;font-family:&quot=
;Tahoma&quot;,&quot;sans-serif&quot;">From:</span></b><span style=3D"font-s=
ize:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;"> Harish B=
utani [mailto:<a href=3D"mailto:rhbutani.spark@gmail.com" target=3D"_blank"=
>rhbutani.spark@gmail.com</a>]
<br>
<b>Sent:</b> Monday, July 20, 2015 5:37 PM<br>
<b>To:</b> Mohammed Guller<br>
<b>Cc:</b> Michael Armbrust; Mike Trienis; <a href=3D"mailto:user@spark.apa=
che.org" target=3D"_blank">user@spark.apache.org</a></span></p><div><div cl=
ass=3D"h5"><br>
<b>Subject:</b> Re: Data frames select and where clause dependency<u></u><u=
></u></div></div><p></p><div><div class=3D"h5">
<p class=3D"MsoNormal"><u></u>=C2=A0<u></u></p>
<div>
<p class=3D"MsoNormal">Yes via: =C2=A0org.apache.spark.sql.catalyst.optimiz=
er.ColumnPruning<u></u><u></u></p>
<div>
<p class=3D"MsoNormal">See DefaultOptimizer.batches for list of logical rew=
rites.<u></u><u></u></p>
</div>
<div>
<p class=3D"MsoNormal"><u></u>=C2=A0<u></u></p>
</div>
<div>
<p class=3D"MsoNormal">You can see the optimized plan by printing: df.query=
Execution.optimizedPlan<u></u><u></u></p>
</div>
</div>
<div>
<p class=3D"MsoNormal"><u></u>=C2=A0<u></u></p>
<div>
<p class=3D"MsoNormal">On Mon, Jul 20, 2015 at 5:22 PM, Mohammed Guller &lt=
;<a href=3D"mailto:mohammed@glassbeam.com" target=3D"_blank">mohammed@glass=
beam.com</a>&gt; wrote:<u></u><u></u></p>
<div>
<div>
<p class=3D"MsoNormal">Michael,<u></u><u></u></p>
<p class=3D"MsoNormal">How would the Catalyst optimizer optimize this versi=
on?<u></u><u></u></p>
<p class=3D"MsoNormal">df.filter(df(&quot;filter_field&quot;) =3D=3D=3D &qu=
ot;value&quot;).select(&quot;field1&quot;).show()<u></u><u></u></p>
<p class=3D"MsoNormal"><span style=3D"font-size:11.0pt;font-family:&quot;Ca=
libri&quot;,&quot;sans-serif&quot;;color:#1f497d">Would it still read all t=
he columns in df or would it read only =E2=80=9Cfilter_field=E2=80=9D and =
=E2=80=9Cfield1=E2=80=9D since
 only two columns are used (assuming other columns from df are not used any=
where else)?</span><u></u><u></u></p>
<p class=3D"MsoNormal"><span style=3D"font-size:11.0pt;font-family:&quot;Ca=
libri&quot;,&quot;sans-serif&quot;;color:#1f497d">=C2=A0</span><u></u><u></=
u></p>
<p class=3D"MsoNormal"><span style=3D"font-size:11.0pt;font-family:&quot;Ca=
libri&quot;,&quot;sans-serif&quot;;color:#1f497d">Mohammed</span><u></u><u>=
</u></p>
<p class=3D"MsoNormal"><span style=3D"font-size:11.0pt;font-family:&quot;Ca=
libri&quot;,&quot;sans-serif&quot;;color:#1f497d">=C2=A0</span><u></u><u></=
u></p>
<p class=3D"MsoNormal"><b><span style=3D"font-size:10.0pt;font-family:&quot=
;Tahoma&quot;,&quot;sans-serif&quot;">From:</span></b><span style=3D"font-s=
ize:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;"> Michael =
Armbrust [mailto:<a href=3D"mailto:michael@databricks.com" target=3D"_blank=
">michael@databricks.com</a>]
<br>
<b>Sent:</b> Friday, July 17, 2015 1:39 PM<br>
<b>To:</b> Mike Trienis<br>
<b>Cc:</b> <a href=3D"mailto:user@spark.apache.org" target=3D"_blank">user@=
spark.apache.org</a><br>
<b>Subject:</b> Re: Data frames select and where clause dependency</span><u=
></u><u></u></p>
<div>
<div>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
<div>
<p class=3D"MsoNormal">Each operation on a dataframe is completely independ=
ent and doesn&#39;t know what operations happened before it.=C2=A0 When you=
 do a selection, you are removing other columns from the dataframe
 and so the filter has nothing to operate on.<u></u><u></u></p>
</div>
<div>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
<div>
<p class=3D"MsoNormal">On Fri, Jul 17, 2015 at 11:55 AM, Mike Trienis &lt;<=
a href=3D"mailto:mike.trienis@orcsol.com" target=3D"_blank">mike.trienis@or=
csol.com</a>&gt; wrote:<u></u><u></u></p>
<div>
<p class=3D"MsoNormal">I&#39;d like to understand why the where field must =
exist in the select clause.=C2=A0<u></u><u></u></p>
<div>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
</div>
<div>
<p class=3D"MsoNormal">For example, the following select statement works fi=
ne<u></u><u></u></p>
<ul type=3D"disc">
<li class=3D"MsoNormal">
df.select(&quot;field1&quot;, &quot;filter_field&quot;).filter(df(&quot;fil=
ter_field&quot;) =3D=3D=3D &quot;value&quot;).show()<u></u><u></u></li></ul=
>
<div>
<p class=3D"MsoNormal">However, the next one fails with the error &quot;in =
operator !Filter (filter_field#60 =3D value);&quot;<u></u><u></u></p>
</div>
<div>
<ul type=3D"disc">
<li class=3D"MsoNormal">
df.select(&quot;field1&quot;).filter(df(&quot;filter_field&quot;) =3D=3D=3D=
 &quot;value&quot;).show()<u></u><u></u></li></ul>
<div>
<p class=3D"MsoNormal">As a work-around, it seems that I can do the followi=
ng<u></u><u></u></p>
</div>
<div>
<ul type=3D"disc">
<li class=3D"MsoNormal">
df.select(&quot;field1&quot;, &quot;filter_field&quot;).filter(df(&quot;fil=
ter_field&quot;) =3D=3D=3D &quot;value&quot;).drop(&quot;filter_field&quot;=
).show()<u></u><u></u></li></ul>
</div>
<div>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
</div>
<div>
<p class=3D"MsoNormal">Thanks, Mike.=C2=A0<u></u><u></u></p>
</div>
</div>
</div>
</div>
</div>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
</div>
</div>
</div>
</div>
</div>
</div>
<p class=3D"MsoNormal"><u></u>=C2=A0<u></u></p>
</div>
</div></div></div>
</div>

</blockquote></div><br></div>

--001a113e7d6e3d1920051b5872f5--