Mailing-List: contact user-help@hive.apache.org; run by ezmlm
Precedence: bulk
Reply-To: user@hive.apache.org
Received-SPF: pass (athena.apache.org: domain of yuemeng1@huawei.com
 designates 119.145.14.66 as permitted sender)
Message-ID: <547FBC09.1000609@huawei.com>
Date: Thu, 4 Dec 2014 09:42:33 +0800
From: yuemeng1 <yuemeng1@huawei.com>
User-Agent: Mozilla/5.0 (Windows NT 6.1;
 rv:17.0) Gecko/20130509 Thunderbird/17.0.6
MIME-Version: 1.0
To: <user@hive.apache.org>
Subject: Re: Job aborted due to stage failure
References: <547D2263.9090104@huawei.com>
 <CADx-ob3+qyZKqX05dcBa1O05PPFPQSGs7TKvywA7DZPayLqRPw@mail.gmail.com>
 <547D34DC.8070509@huawei.com>
 <CADx-ob2rH4Xuzc7LCfyK-dPiTFin6ZdEstHTjcfy3EK4PETPVQ@mail.gmail.com>
 <547DACFC.6080909@huawei.com>
 <CADx-ob3STT0Ban6wmEVS6np5np7ddY4-EkXRgojfCYGvJHat7A@mail.gmail.com>
 <547E75A5.4000505@huawei.com>
 <CADx-ob3Ttz=5k0z2g-mRayAe8inheP4-txwA-7hkZ52Nyq7Yag@mail.gmail.com>
In-Reply-To: 
 <CADx-ob3Ttz=5k0z2g-mRayAe8inheP4-txwA-7hkZ52Nyq7Yag@mail.gmail.com>
Content-Type: multipart/alternative;
	boundary="------------010807040804050106070509"

--------------010807040804050106070509
Content-Type: text/plain; charset="UTF-8"; format=flowed
Content-Transfer-Encoding: 7bit

hi,thanks a lot for your help,with your help ,my hive-on-spark can work 
well now
it take me long time to install and deploy.here are  some advice,i think 
we need to improve the installation documentation, allowing users to use 
the least amount of time to compile and install
1)add which spark version we should pick from spark github if we select 
built spark instead of download a spark pre-built,tell them the right 
built commad!(not include Pyarn ,Phive)
2)if they get some error during built ,such as 
[ERRO/hive/ql/src/java/org/apache/hadoop/hive/ql/exec/spark/status/SparkJobStatus.java:[22,24]cannot 
find symbol
[ERROR]symbol: class JobExecutionStatus,tell them what they can do?
for our users,first to use it ,then  feel good or bad?
and if u need,i can add something to start document


thanks
yuemeng


On 2014/12/3 11:03, Xuefu Zhang wrote:
> When you build Spark, remove -Phive as well as -Pyarn. When you run 
> hive queries, you may need to run "set spark.home=/path/to/spark/dir";
>
> Thanks,
> Xuefu
>
> On Tue, Dec 2, 2014 at 6:29 PM, yuemeng1 <yuemeng1@huawei.com 
> <mailto:yuemeng1@huawei.com>> wrote:
>
>     hi,XueFu,thanks a lot for your help,now i will provide more detail
>     to reproduce this ssue:
>     1),i checkout a spark branch from hive
>     github(https://github.com/apache/hive/tree/spark on Nov 29,becasue
>     of for version now it will give something wrong about:Caused by:
>     java.lang.RuntimeException: Unable to instantiate
>     org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient ),
>     and built command:mvn clean package -DskipTests -Phadoop-2 -Pdist
>     after built i get package from
>     :/home/ym/hive-on-spark/hive1129/hive/packaging/target(apache-hive-0.15.0-SNAPSHOT-bin.tar.gz)
>     2)i checkout spark from
>     https://github.com/apache/spark/tree/v1.2.0-snapshot0,becasue of
>     spark branch-1.2 is with spark parent(1.2.1-SNAPSHOT),so i chose
>     v1.2.0-snapshot0 and i compare this spark's pom.xml with
>     spark-parent-1.2.0-SNAPSHOT.pom(get from
>     http://ec2-50-18-79-139.us-west-1.compute.amazonaws.com/data/spark_2.10-1.2-SNAPSHOT/org/apache/spark/spark-parent/1.2.0-SNAPSHOT/),and
>     there is only difference is spark-parent name,and built command is :
>
>     |mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -Phive -DskipTests clean package|
>
>     3)comand i execute in hive-shell:
>     ./hive --auxpath
>     /opt/hispark/spark/assembly/target/scala-2.10/spark-assembly-1.2.0-hadoop2.4.0.jar(copy
>     this jar to hive dir lib already)
>     create table student(sno int,sname string,sage int,ssex string)
>     row format delimited FIELDS TERMINATED BY ',';
>     create table score(sno int,cno int,sage int) row format delimited
>     FIELDS TERMINATED BY ',';
>     load data local inpath
>     '/home/hive-on-spark/temp/spark-1.2.0/examples/src/main/resources/student.txt'
>     into table student;
>     load data local inpath
>     '/home/hive-on-spark/temp/spark-1.2.0/examples/src/main/resources/score.txt'
>     into table score;
>     set hive.execution.engine=spark;
>     set spark.master=spark://10.175.xxx.xxx:7077;
>     set spark.eventLog.enabled=true;
>     set spark.executor.memory=9086m;
>     set spark.serializer=org.apache.spark.serializer.KryoSerializer;
>     select distinct st.sno,sname from student st join score sc
>     on(st.sno=sc.sno) where sc.cno IN(11,12,13) and st.sage > 28;(work
>     in mr)
>     4)
>     studdent.txt file
>     1,rsh,27,female
>     2,kupo,28,male
>     3,astin,29,female
>     4,beike,30,male
>     5,aili,31,famle
>
>     score.txt file
>     1,10,80
>     2,11,85
>     3,12,90
>     4,13,95
>     5,14,100
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>     On 2014/12/2 23:28, Xuefu Zhang wrote:
>>     Could you provide details on how to reproduce the issue? such as
>>     the exact spark branch, the command to build Spark, how you build
>>     Hive, and what queries/commands you run.
>>
>>     We are running Hive on Spark all the time. Our pre-commit test
>>     runs without any issue.
>>
>>     Thanks,
>>     Xuefu
>>
>>     On Tue, Dec 2, 2014 at 4:13 AM, yuemeng1 <yuemeng1@huawei.com
>>     <mailto:yuemeng1@huawei.com>> wrote:
>>
>>         hi,XueFu
>>         i checkout a spark branch from
>>         sparkgithub(tags:v1.2.0-snapshot0)and i compare this spark's
>>         pom.xml with spark-parent-1.2.0-SNAPSHOT.pom(get from
>>         http://ec2-50-18-79-139.us-west-1.compute.amazonaws.com/data/spark_2.10-1.2-SNAPSHOT/org/apache/spark/spark-parent/1.2.0-SNAPSHOT/),and
>>         there is only difference is follow:
>>         in spark-parent-1.2.0-SNAPSHOT.pom
>>         <artifactId>spark-parent</artifactId>
>>         <version>1.2.0-SNAPSHOT</version>
>>         and in v1.2.0-snapshot0
>>         <artifactId>spark-parent</artifactId>
>>           <version>1.2.0</version>
>>         i think there is no essence diff,and i built v1.2.0-snapshot0
>>         and deploy it as my spark clusters
>>         when i run query about join two table ,it still give some
>>         error what i show u earlier
>>
>>         Job aborted due to stage failure: Task 0 in stage 1.0 failed
>>         4 times, most recent failure: Lost task 0.3 in stage 1.0 (TID
>>         7, datasight18): java.lang.NullPointerException+details
>>
>>         Job aborted due to stage failure: Task 0 in stage 1.0 failed 4 times, most recent failure: Lost task 0.3 in stage 1.0 (TID 7, datasight18): java.lang.NullPointerException
>>         	at org.apache.hadoop.hive.ql.io.HiveInputFormat.init(HiveInputFormat.java:255)
>>         	at org.apache.hadoop.hive.ql.io.HiveInputFormat.pushProjectionsAndFilters(HiveInputFormat.java:437)
>>         	at org.apache.hadoop.hive.ql.io.HiveInputFormat.pushProjectionsAndFilters(HiveInputFormat.java:430)
>>         	at org.apache.hadoop.hive.ql.io.CombineHiveInputFormat.getRecordReader(CombineHiveInputFormat.java:587)
>>         	at org.apache.spark.rdd.HadoopRDD$$anon$1.<init>(HadoopRDD.scala:233)
>>         	at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:210)
>>         	at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:99)
>>         	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
>>         	at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
>>         	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:35)
>>         	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
>>         	at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
>>         	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:68)
>>         	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
>>         	at org.apache.spark.scheduler.Task.run(Task.scala:56)
>>         	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:196)
>>         	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)
>>         	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)
>>         	at java.lang.Thread.run(Thread.java:722)
>>
>>         Driver stacktrace:
>>
>>
>>
>>         i think my spark clusters did't had any problem,but why
>>         always give me such error
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>         On 2014/12/2 13:39, Xuefu Zhang wrote:
>>>         You need to build your spark assembly from spark 1.2 branch.
>>>         this should give your both a spark build as well as
>>>         spark-assembly jar, which you need to copy to Hive lib
>>>         directory. Snapshot is fine, and spark 1.2 hasn't been
>>>         released yet.
>>>
>>>         --Xuefu
>>>
>>>         On Mon, Dec 1, 2014 at 7:41 PM, yuemeng1
>>>         <yuemeng1@huawei.com <mailto:yuemeng1@huawei.com>> wrote:
>>>
>>>
>>>
>>>             hi.XueFu,
>>>             thanks a lot for your inforamtion,but as far as i know
>>>             ,the latest spark version on github is
>>>             spark-snapshot-1.3,but there is no spark-1.2,only have a
>>>             branch-1.2 with spark-snapshot-1.2,can u tell me which
>>>             spark version i should built,and for now,that's
>>>             spark-assembly-1.2.0-SNAPSHOT-hadoop2.4.0.jar produce
>>>             error like that
>>>
>>>
>>>             On 2014/12/2 11:03, Xuefu Zhang wrote:
>>>>             It seems that wrong class, HiveInputFormat, is loaded.
>>>>             The stacktrace is way off the current Hive code. You
>>>>             need to build Spark 1.2 and copy spark-assembly jar to
>>>>             Hive's lib directory and that it.
>>>>
>>>>             --Xuefu
>>>>
>>>>             On Mon, Dec 1, 2014 at 6:22 PM, yuemeng1
>>>>             <yuemeng1@huawei.com <mailto:yuemeng1@huawei.com>> wrote:
>>>>
>>>>                 hi,i built a hive on spark package and my spark
>>>>                 assembly jar is
>>>>                 spark-assembly-1.2.0-SNAPSHOT-hadoop2.4.0.jar,when
>>>>                 i run a query in hive shell,before execute this query,
>>>>                 i set all the require which hive need with
>>>>                 spark.and i execute a join query :
>>>>                 select distinct st.sno,sname from student st join
>>>>                 score sc on(st.sno=sc.sno) where sc.cno
>>>>                 IN(11,12,13) and st.sage > 28;
>>>>                 but it failed,
>>>>                 get follow error in spark webUI:
>>>>                 Job aborted due to stage failure: Task 0 in stage
>>>>                 1.0 failed 4 times, most recent failure: Lost task
>>>>                 0.3 in stage 1.0 (TID 7, datasight18):
>>>>                 java.lang.NullPointerException+details
>>>>
>>>>                 Job aborted due to stage failure: Task 0 in stage 1.0 failed 4 times, most recent failure: Lost task 0.3 in stage 1.0 (TID 7, datasight18): java.lang.NullPointerException
>>>>                 	at org.apache.hadoop.hive.ql.io.HiveInputFormat.init(HiveInputFormat.java:255)
>>>>                 	at org.apache.hadoop.hive.ql.io.HiveInputFormat.pushProjectionsAndFilters(HiveInputFormat.java:437)
>>>>                 	at org.apache.hadoop.hive.ql.io.HiveInputFormat.pushProjectionsAndFilters(HiveInputFormat.java:430)
>>>>                 	at org.apache.hadoop.hive.ql.io.CombineHiveInputFormat.getRecordReader(CombineHiveInputFormat.java:587)
>>>>                 	at org.apache.spark.rdd.HadoopRDD$$anon$1.<init>(HadoopRDD.scala:233)
>>>>                 	at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:210)
>>>>                 	at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:99)
>>>>                 	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
>>>>                 	at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
>>>>                 	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:35)
>>>>                 	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
>>>>                 	at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
>>>>                 	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:68)
>>>>                 	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
>>>>                 	at org.apache.spark.scheduler.Task.run(Task.scala:56)
>>>>                 	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:196)
>>>>                 	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)
>>>>                 	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)
>>>>                 	at java.lang.Thread.run(Thread.java:722)
>>>>
>>>>                 Driver stacktrace:
>>>>
>>>>                 can u give me a help to deal this probelm,and i
>>>>                 think my built was succussed!
>>>>
>>>>
>>>
>>>
>>
>>
>
>


--------------010807040804050106070509
Content-Type: text/html; charset="UTF-8"
Content-Transfer-Encoding: 8bit

<html>
  <head>
    <meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    <div class="moz-cite-prefix">hi,thanks a lot for your help,with your
      help ,my hive-on-spark can work well now<br>
      it take me long time to install and deploy.here are  some advice,i
      think we need to improve the installation documentation, allowing
      users to use the least amount of time to compile and install<br>
      1)add which spark version we should pick from spark github if we
      select built spark instead of download a spark pre-built,tell them
      the right built commad!(not include Pyarn ,Phive)<br>
      2)if they get some error during built ,such as <span
        class="error" style="color: rgb(51, 51, 51); font-family: Arial,
        sans-serif; font-size: 14px; font-style: normal; font-variant:
        normal; font-weight: normal; letter-spacing: normal;
        line-height: 20px; orphans: auto; text-align: start;
        text-indent: 0px; text-transform: none; white-space: normal;
        widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px;
        background-color: rgb(240, 240, 240);">[ERRO</span><span
        style="color: rgb(51, 51, 51); font-family: Arial, sans-serif;
        font-size: 14px; font-style: normal; font-variant: normal;
        font-weight: normal; letter-spacing: normal; line-height: 20px;
        orphans: auto; text-align: start; text-indent: 0px;
        text-transform: none; white-space: normal; widows: auto;
        word-spacing: 0px; -webkit-text-stroke-width: 0px; display:
        inline !important; float: none; background-color: rgb(240, 240,
        240);"><span class="Apple-converted-space"></span>/hive/ql/src/java/org/apache/hadoop/hive/ql/exec/spark/status/SparkJobStatus.java:</span><span
        class="error" style="color: rgb(51, 51, 51); font-family: Arial,
        sans-serif; font-size: 14px; font-style: normal; font-variant:
        normal; font-weight: normal; letter-spacing: normal;
        line-height: 20px; orphans: auto; text-align: start;
        text-indent: 0px; text-transform: none; white-space: normal;
        widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px;
        background-color: rgb(240, 240, 240);">[22,24]</span><span
        style="color: rgb(51, 51, 51); font-family: Arial, sans-serif;
        font-size: 14px; font-style: normal; font-variant: normal;
        font-weight: normal; letter-spacing: normal; line-height: 20px;
        orphans: auto; text-align: start; text-indent: 0px;
        text-transform: none; white-space: normal; widows: auto;
        word-spacing: 0px; -webkit-text-stroke-width: 0px; display:
        inline !important; float: none; background-color: rgb(240, 240,
        240);"><span class="Apple-converted-space"> </span>cannot find
        symbol</span><br style="color: rgb(51, 51, 51); font-family:
        Arial, sans-serif; font-size: 14px; font-style: normal;
        font-variant: normal; font-weight: normal; letter-spacing:
        normal; line-height: 20px; orphans: auto; text-align: start;
        text-indent: 0px; text-transform: none; white-space: normal;
        widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px;
        background-color: rgb(240, 240, 240);">
      <span class="error" style="color: rgb(51, 51, 51); font-family:
        Arial, sans-serif; font-size: 14px; font-style: normal;
        font-variant: normal; font-weight: normal; letter-spacing:
        normal; line-height: 20px; orphans: auto; text-align: start;
        text-indent: 0px; text-transform: none; white-space: normal;
        widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px;
        background-color: rgb(240, 240, 240);">[ERROR]</span><span
        style="color: rgb(51, 51, 51); font-family: Arial, sans-serif;
        font-size: 14px; font-style: normal; font-variant: normal;
        font-weight: normal; letter-spacing: normal; line-height: 20px;
        orphans: auto; text-align: start; text-indent: 0px;
        text-transform: none; white-space: normal; widows: auto;
        word-spacing: 0px; -webkit-text-stroke-width: 0px; display:
        inline !important; float: none; background-color: rgb(240, 240,
        240);"><span class="Apple-converted-space"> </span>symbol: class
        JobExecutionStatus</span>,tell them what they can do?<br>
      for our users,first to use it ,then  feel good or bad?<br>
      and if u need,i can add something to start document<br>
      <br>
      <br>
      thanks <br>
      yuemeng<br>
      <br>
      <br class="Apple-interchange-newline">
      <br>
      <br>
      <br>
      On 2014/12/3 11:03, Xuefu Zhang wrote:<br>
    </div>
    <blockquote
cite="mid:CADx-ob3Ttz=5k0z2g-mRayAe8inheP4-txwA-7hkZ52Nyq7Yag@mail.gmail.com"
      type="cite">
      <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
      <div dir="ltr">
        <div>
          <div>When you build Spark, remove -Phive as well as -Pyarn.
            When you run hive queries, you may need to run "set
            spark.home=/path/to/spark/dir";<br>
            <br>
          </div>
          Thanks,<br>
        </div>
        Xuefu<br>
      </div>
      <div class="gmail_extra"><br>
        <div class="gmail_quote">On Tue, Dec 2, 2014 at 6:29 PM,
          yuemeng1 <span dir="ltr">&lt;<a moz-do-not-send="true"
              href="mailto:yuemeng1@huawei.com" target="_blank">yuemeng1@huawei.com</a>&gt;</span>
          wrote:<br>
          <blockquote class="gmail_quote" style="margin:0 0 0
            .8ex;border-left:1px #ccc solid;padding-left:1ex">
            <div text="#000000" bgcolor="#FFFFFF">
              <div>hi,XueFu,thanks a lot for your help,now i will
                provide more detail to reproduce this ssue:<br>
                1),i checkout a spark branch from hive github(<a
                  moz-do-not-send="true"
                  href="https://github.com/apache/hive/tree/spark"
                  target="_blank">https://github.com/apache/hive/tree/spark</a>
                on Nov 29,becasue of for version now it will give
                something wrong <a moz-do-not-send="true">about:Caused</a>
                by: java.lang.RuntimeException: Unable to instantiate
                org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
                ),<br>
                and built command:mvn clean package -DskipTests
                -Phadoop-2 -Pdist<br>
                after built i get package from
:/home/ym/hive-on-spark/hive1129/hive/packaging/target(apache-hive-0.15.0-SNAPSHOT-bin.tar.gz)<br>
                2)i checkout spark from <a moz-do-not-send="true"
                  href="https://github.com/apache/spark/tree/v1.2.0-snapshot0,becasue"
                  target="_blank">https://github.com/apache/spark/tree/v1.2.0-snapshot0,becasue</a>
                of spark branch-1.2 is with spark parent(<span
                  style="color:rgb(51,51,51);font-family:Consolas,'Liberation
Mono',Menlo,Courier,monospace;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:16.7999992370605px;text-align:start;text-indent:0px;text-transform:none;white-space:pre-wrap;word-spacing:0px;display:inline!important;float:none;background-color:rgb(255,255,255)">1.2.1-SNAPSHOT</span>),so

                i chose v1.2.0-snapshot0 and i compare this spark's
                pom.xml with spark-parent-1.2.0-SNAPSHOT.pom(get from <a
                  moz-do-not-send="true"
href="http://ec2-50-18-79-139.us-west-1.compute.amazonaws.com/data/spark_2.10-1.2-SNAPSHOT/org/apache/spark/spark-parent/1.2.0-SNAPSHOT/"
                  target="_blank">http://ec2-50-18-79-139.us-west-1.compute.amazonaws.com/data/spark_2.10-1.2-SNAPSHOT/org/apache/spark/spark-parent/1.2.0-SNAPSHOT/</a>),and

                there is only difference is spark-parent name,and built
                command is :<br>
                <pre style="padding:9.5px;font-family:Menlo,'Lucida Console',monospace;font-size:13px;color:rgb(51,51,51);border-radius:4px;display:block;margin:0px 0px 10px;line-height:20px;word-break:break-all;word-wrap:break-word;white-space:pre-wrap;border:1px solid rgba(0,0,0,0.14902);font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;word-spacing:0px;background-color:rgb(245,245,245)"><code style="padding:0px;font-family:Menlo,'Lucida Console',monospace;font-size:12px;color:inherit;border-radius:3px;border:0px;background:transparent">mvn -Pyarn -Phadoop-2.4 -Dhadoop.version<span style="color:rgb(102,102,102)">=</span>2.4.0 -Phive -DskipTests clean package</code></pre>
                3)comand i execute in hive-shell:<br>
                ./hive --auxpath
                /opt/hispark/spark/assembly/target/scala-2.10/spark-assembly-1.2.0-hadoop2.4.0.jar(copy

                this jar to hive dir lib already)<br>
                create table student(sno int,sname string,sage int,ssex
                string) row format delimited FIELDS TERMINATED BY ',';<br>
                create table score(sno int,cno int,sage int) row format
                delimited FIELDS TERMINATED BY ',';<br>
                load data local inpath
                '/home/hive-on-spark/temp/spark-1.2.0/examples/src/main/resources/student.txt'

                into table student;<br>
                load data local inpath
                '/home/hive-on-spark/temp/spark-1.2.0/examples/src/main/resources/score.txt'

                into table score; <br>
                set hive.execution.engine=spark;<br>
                set spark.master=spark://10.175.xxx.xxx:7077;<br>
                set spark.eventLog.enabled=true; <br>
                set spark.executor.memory=9086m;<br>
                set
                spark.serializer=org.apache.spark.serializer.KryoSerializer;<br>
                select distinct st.sno,sname from student st join score
                sc on(st.sno=sc.sno) where sc.cno IN(11,12,13) and
                st.sage &gt; 28;(work in mr)<br>
                4)<br>
                studdent.txt file<br>
                1,rsh,27,female<br>
                2,kupo,28,male<br>
                3,astin,29,female<br>
                4,beike,30,male<br>
                5,aili,31,famle<br>
                <br>
                score.txt file<br>
                1,10,80<br>
                2,11,85<br>
                3,12,90<br>
                4,13,95<br>
                5,14,100
                <div>
                  <div class="h5"><br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    <br>
                    On 2014/12/2 23:28, Xuefu Zhang wrote:<br>
                  </div>
                </div>
              </div>
              <div>
                <div class="h5">
                  <blockquote type="cite">
                    <div dir="ltr">
                      <div>Could you provide details on how to reproduce
                        the issue? such as the exact spark branch, the
                        command to build Spark, how you build Hive, and
                        what queries/commands you run.<br>
                        <br>
                      </div>
                      <div>We are running Hive on Spark all the time.
                        Our pre-commit test runs without any issue.<br>
                        <br>
                      </div>
                      <div>Thanks,<br>
                      </div>
                      <div>Xuefu<br>
                      </div>
                    </div>
                    <div class="gmail_extra"><br>
                      <div class="gmail_quote">On Tue, Dec 2, 2014 at
                        4:13 AM, yuemeng1 <span dir="ltr">&lt;<a
                            moz-do-not-send="true"
                            href="mailto:yuemeng1@huawei.com"
                            target="_blank">yuemeng1@huawei.com</a>&gt;</span>
                        wrote:<br>
                        <blockquote class="gmail_quote" style="margin:0
                          0 0 .8ex;border-left:1px #ccc
                          solid;padding-left:1ex">
                          <div text="#000000" bgcolor="#FFFFFF">
                            <div>hi,XueFu<br>
                              i checkout a spark branch from
                              sparkgithub(tags:v1.2.0-snapshot0)and i
                              compare this spark's pom.xml with
                              spark-parent-1.2.0-SNAPSHOT.pom(get from <a
                                moz-do-not-send="true"
href="http://ec2-50-18-79-139.us-west-1.compute.amazonaws.com/data/spark_2.10-1.2-SNAPSHOT/org/apache/spark/spark-parent/1.2.0-SNAPSHOT/"
                                target="_blank">http://ec2-50-18-79-139.us-west-1.compute.amazonaws.com/data/spark_2.10-1.2-SNAPSHOT/org/apache/spark/spark-parent/1.2.0-SNAPSHOT/</a>),and


                              there is only difference is follow:<br>
                              in spark-parent-1.2.0-SNAPSHOT.pom<br>
                               
                              &lt;artifactId&gt;spark-parent&lt;/artifactId&gt;<br>
                               
                              &lt;version&gt;1.2.0-SNAPSHOT&lt;/version&gt;<br>
                              and in v1.2.0-snapshot0<br>
&lt;artifactId&gt;spark-parent&lt;/artifactId&gt;<br>
                                &lt;version&gt;1.2.0&lt;/version&gt;<br>
                              i think there is no essence diff,and i
                              built v1.2.0-snapshot0 and deploy it as my
                              spark clusters<br>
                              when i run query about join two table ,it
                              still give some error what i show u
                              earlier<span><br>
                                <br>
                                <span>Job aborted due to stage failure:
                                  Task 0 in stage 1.0 failed 4 times,
                                  most recent failure: Lost task 0.3 in
                                  stage 1.0 (TID 7, datasight18):
                                  java.lang.NullPointerException</span><span>+details</span>
                                <div>
                                  <pre style="padding:9.5px;font-family:Monaco,Menlo,Consolas,'Courier New',monospace;font-size:0.8em;color:rgb(51,51,51);border-radius:4px;display:block;margin:0px 0px 10px;line-height:20px;word-break:break-all;word-wrap:break-word;white-space:pre-wrap;border:1px solid rgba(0,0,0,0.14902);background-color:rgb(245,245,245)">Job aborted due to stage failure: Task 0 in stage 1.0 failed 4 times, most recent failure: Lost task 0.3 in stage 1.0 (TID 7, datasight18): java.lang.NullPointerException
	at org.apache.hadoop.hive.ql.io.HiveInputFormat.init(HiveInputFormat.java:255)
	at org.apache.hadoop.hive.ql.io.HiveInputFormat.pushProjectionsAndFilters(HiveInputFormat.java:437)
	at org.apache.hadoop.hive.ql.io.HiveInputFormat.pushProjectionsAndFilters(HiveInputFormat.java:430)
	at org.apache.hadoop.hive.ql.io.CombineHiveInputFormat.getRecordReader(CombineHiveInputFormat.java:587)
	at org.apache.spark.rdd.HadoopRDD$$anon$1.&lt;init&gt;(HadoopRDD.scala:233)
	at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:210)
	at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:99)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:35)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:68)
	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
	at org.apache.spark.scheduler.Task.run(Task.scala:56)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:196)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)
	at java.lang.Thread.run(Thread.java:722)

Driver stacktrace:</pre>
                                </div>
                                <br>
                                <br>
                              </span> i think my spark clusters did't
                              had any problem,but why always give me
                              such error<span><br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                <br>
                                On 2014/12/2 13:39, Xuefu Zhang wrote:<br>
                              </span></div>
                            <div>
                              <div>
                                <blockquote type="cite">
                                  <div dir="ltr">
                                    <div>You need to build your spark
                                      assembly from spark 1.2 branch.
                                      this should give your both a spark
                                      build as well as spark-assembly
                                      jar, which you need to copy to
                                      Hive lib directory. Snapshot is
                                      fine, and spark 1.2 hasn't been
                                      released yet.<br>
                                      <br>
                                    </div>
                                    --Xuefu<br>
                                  </div>
                                  <div class="gmail_extra"><br>
                                    <div class="gmail_quote">On Mon, Dec
                                      1, 2014 at 7:41 PM, yuemeng1 <span
                                        dir="ltr">&lt;<a
                                          moz-do-not-send="true"
                                          href="mailto:yuemeng1@huawei.com"
                                          target="_blank">yuemeng1@huawei.com</a>&gt;</span>
                                      wrote:<br>
                                      <blockquote class="gmail_quote"
                                        style="margin:0 0 0
                                        .8ex;border-left:1px #ccc
                                        solid;padding-left:1ex">
                                        <div text="#000000"
                                          bgcolor="#FFFFFF">
                                          <div><br>
                                            <br>
                                            hi.XueFu,<br>
                                            thanks a lot for your
                                            inforamtion,but as far as i
                                            know ,the latest spark
                                            version on github is
                                            spark-snapshot-1.3,but there
                                            is no spark-1.2,only have a
                                            branch-1.2 with
                                            spark-snapshot-1.2,can u
                                            tell me which spark version
                                            i should built,and for
                                            now,that's
                                            spark-assembly-1.2.0-SNAPSHOT-hadoop2.4.0.jar
                                            produce error like that
                                            <div>
                                              <div><br>
                                                <br>
                                                On 2014/12/2 11:03,
                                                Xuefu Zhang wrote:<br>
                                              </div>
                                            </div>
                                          </div>
                                          <div>
                                            <div>
                                              <blockquote type="cite">
                                                <div dir="ltr">
                                                  <div>It seems that
                                                    wrong class,
                                                    HiveInputFormat, is
                                                    loaded. The
                                                    stacktrace is way
                                                    off the current Hive
                                                    code. You need to
                                                    build Spark 1.2 and
                                                    copy spark-assembly
                                                    jar to Hive's lib
                                                    directory and that
                                                    it.<br>
                                                    <br>
                                                  </div>
                                                  --Xuefu<br>
                                                </div>
                                                <div class="gmail_extra"><br>
                                                  <div
                                                    class="gmail_quote">On
                                                    Mon, Dec 1, 2014 at
                                                    6:22 PM, yuemeng1 <span
                                                      dir="ltr">&lt;<a
                                                        moz-do-not-send="true"
href="mailto:yuemeng1@huawei.com" target="_blank">yuemeng1@huawei.com</a>&gt;</span>
                                                    wrote:<br>
                                                    <blockquote
                                                      class="gmail_quote"
                                                      style="margin:0 0
                                                      0
                                                      .8ex;border-left:1px
                                                      #ccc
                                                      solid;padding-left:1ex">
                                                      <div
                                                        text="#000000"
                                                        bgcolor="#FFFFFF">
                                                        hi,i built a
                                                        hive on spark
                                                        package and my
                                                        spark assembly
                                                        jar is
                                                        spark-assembly-1.2.0-SNAPSHOT-hadoop2.4.0.jar,when
                                                        i run a query in
                                                        hive
                                                        shell,before
                                                        execute this
                                                        query,<br>
                                                        i set all the 
                                                        require which
                                                        hive need with 
                                                        spark.and i
                                                        execute a join
                                                        query :<br>
                                                        select distinct
                                                        st.sno,sname
                                                        from student st
                                                        join score sc
                                                        on(st.sno=sc.sno)
                                                        where sc.cno
                                                        IN(11,12,13) and
                                                        st.sage &gt; 28;<br>
                                                        but it failed,<br>
                                                        get follow error
                                                        in spark webUI:<br>
                                                        <span>Job
                                                          aborted due to
                                                          stage failure:
                                                          Task 0 in
                                                          stage 1.0
                                                          failed 4
                                                          times, most
                                                          recent
                                                          failure: Lost
                                                          task 0.3 in
                                                          stage 1.0 (TID
                                                          7,
                                                          datasight18):
java.lang.NullPointerException</span><span>+details</span>
                                                        <div>
                                                          <pre style="padding:9.5px;font-family:Monaco,Menlo,Consolas,'Courier New',monospace;font-size:0.8em;color:rgb(51,51,51);border-radius:4px;display:block;margin:0px 0px 10px;line-height:20px;word-break:break-all;word-wrap:break-word;white-space:pre-wrap;border:1px solid rgba(0,0,0,0.14902);background-color:rgb(245,245,245)">Job aborted due to stage failure: Task 0 in stage 1.0 failed 4 times, most recent failure: Lost task 0.3 in stage 1.0 (TID 7, datasight18): java.lang.NullPointerException
	at org.apache.hadoop.hive.ql.io.HiveInputFormat.init(HiveInputFormat.java:255)
	at org.apache.hadoop.hive.ql.io.HiveInputFormat.pushProjectionsAndFilters(HiveInputFormat.java:437)
	at org.apache.hadoop.hive.ql.io.HiveInputFormat.pushProjectionsAndFilters(HiveInputFormat.java:430)
	at org.apache.hadoop.hive.ql.io.CombineHiveInputFormat.getRecordReader(CombineHiveInputFormat.java:587)
	at org.apache.spark.rdd.HadoopRDD$$anon$1.&lt;init&gt;(HadoopRDD.scala:233)
	at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:210)
	at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:99)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:35)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:68)
	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
	at org.apache.spark.scheduler.Task.run(Task.scala:56)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:196)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)
	at java.lang.Thread.run(Thread.java:722)

Driver stacktrace:

</pre>
                                                        </div>
                                                        can u give me a
                                                        help to deal
                                                        this probelm,and
                                                        i think my built
                                                        was succussed!<br>
                                                      </div>
                                                    </blockquote>
                                                  </div>
                                                  <br>
                                                </div>
                                              </blockquote>
                                              <br>
                                            </div>
                                          </div>
                                        </div>
                                      </blockquote>
                                    </div>
                                    <br>
                                  </div>
                                </blockquote>
                                <br>
                              </div>
                            </div>
                          </div>
                        </blockquote>
                      </div>
                      <br>
                    </div>
                  </blockquote>
                  <br>
                </div>
              </div>
            </div>
          </blockquote>
        </div>
        <br>
      </div>
    </blockquote>
    <br>
  </body>
</html>

--------------010807040804050106070509--