Mailing-List: contact user-help@cassandra.apache.org; run by ezmlm
Precedence: bulk
Reply-To: user@cassandra.apache.org
Received-SPF: pass (nike.apache.org: domain of memoleaf@gmail.com designates
 209.85.210.172 as permitted sender)
MIME-Version: 1.0
In-Reply-To: 
 <CAAwryDVvx4QAiBr4LMaGqAk5J7+mxhsB9oiytvBwZW=2dnL4uQ@mail.gmail.com>
References: 
 <CAAwryDW_NQXXhpU25BX2GfBDx42MF6W+9-uow_tFFt3KL7d-7Q@mail.gmail.com>
 <CALdd-zgq7wgaG_nUVJWaB9wWju3g=Ufa2O2kGo9zUEUCdWOKUw@mail.gmail.com>
 <CAAwryDVvx4QAiBr4LMaGqAk5J7+mxhsB9oiytvBwZW=2dnL4uQ@mail.gmail.com>
From: Ji Cheng <memoleaf@gmail.com>
Date: Mon, 5 Sep 2011 21:07:38 +0800
Message-ID: 
 <CA+NTZApiW1Yn0C5UK0+qjL9ma2wdOvSr48Bmt0fXT0yAXCc4hw@mail.gmail.com>
Subject: Re: java.io.IOException: Could not get input splits
To: user@cassandra.apache.org
Content-Type: multipart/alternative; boundary=0015176f0464fe0a5804ac31663f

--0015176f0464fe0a5804ac31663f
Content-Type: text/plain; charset=UTF-8

Hi. We got the same problem here. Even the wordcount map/reduce example in
the source tar works fine with one node, but fails with the same exception
on a two node cluster. CASSANDRA-3044 mentioned that a temporary work around
is to disable node auto discovery. Can anyone tell me how to do that in the
wordcount example? Thanks.


On Fri, Sep 2, 2011 at 12:10 AM, Jian Fang <jian.fang.subscribe@gmail.com>wrote:

> Thanks. How soon 0.8.5 will be out? Is there any 0.8.5 snapshot version
> available?
>
>
> On Thu, Sep 1, 2011 at 11:57 AM, Jonathan Ellis <jbellis@gmail.com> wrote:
>
>> Sounds like https://issues.apache.org/jira/browse/CASSANDRA-3044,
>> fixed for 0.8.5
>>
>> On Thu, Sep 1, 2011 at 10:54 AM, Jian Fang
>> <jian.fang.subscribe@gmail.com> wrote:
>> > Hi,
>> >
>> > I upgraded Cassandra from 0.8.2 to 0.8.4 and run a hadoop job to read
>> data
>> > from Cassandra, but
>> > got the following errors:
>> >
>> > 11/09/01 11:42:46 INFO hadoop.SalesRankLoader: Start Cassandra reader...
>> > Exception in thread "main" java.io.IOException: Could not get input
>> splits
>> >     at
>> >
>> org.apache.cassandra.hadoop.ColumnFamilyInputFormat.getSplits(ColumnFamilyInputFormat.java:157)
>> >     at
>> org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:885)
>> >     at
>> > org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:779)
>> >     at org.apache.hadoop.mapreduce.Job.submit(Job.java:432)
>> >     at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:447)
>> >     at
>> > com.barnesandnoble.hadoop.SalesRankLoader.run(SalesRankLoader.java:359)
>> >     at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
>> >     at
>> > com.barnesandnoble.hadoop.SalesRankLoader.main(SalesRankLoader.java:408)
>> >     at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
>> >     at
>> >
>> sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
>> >     at
>> >
>> sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
>> >     at java.lang.reflect.Method.invoke(Method.java:597)
>> >     at org.apache.hadoop.util.RunJar.main(RunJar.java:156)
>> > Caused by: java.util.concurrent.ExecutionException:
>> > java.lang.IllegalArgumentException: protocol = socket host = null
>> >     at
>> java.util.concurrent.FutureTask$Sync.innerGet(FutureTask.java:222)
>> >     at java.util.concurrent.FutureTask.get(FutureTask.java:83)
>> >     at
>> >
>> org.apache.cassandra.hadoop.ColumnFamilyInputFormat.getSplits(ColumnFamilyInputFormat.java:153)
>> >     ... 12 more
>> > Caused by: java.lang.IllegalArgumentException: protocol = socket host =
>> null
>> >     at
>> > sun.net.spi.DefaultProxySelector.select(DefaultProxySelector.java:151)
>> >     at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:358)
>> >     at java.net.Socket.connect(Socket.java:529)
>> >     at org.apache.thrift.transport.TSocket.open(TSocket.java:178)
>> >     at
>> >
>> org.apache.thrift.transport.TFramedTransport.open(TFramedTransport.java:81)
>> >     at
>> >
>> org.apache.cassandra.hadoop.ColumnFamilyInputFormat.createConnection(ColumnFamilyInputFormat.java:243)
>> >     at
>> >
>> org.apache.cassandra.hadoop.ColumnFamilyInputFormat.getSubSplits(ColumnFamilyInputFormat.java:217)
>> >     at
>> >
>> org.apache.cassandra.hadoop.ColumnFamilyInputFormat.access$200(ColumnFamilyInputFormat.java:70)
>> >     at
>> >
>> org.apache.cassandra.hadoop.ColumnFamilyInputFormat$SplitCallable.call(ColumnFamilyInputFormat.java:190)
>> >     at
>> >
>> org.apache.cassandra.hadoop.ColumnFamilyInputFormat$SplitCallable.call(ColumnFamilyInputFormat.java:175)
>> >     at
>> java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:303)
>> >     at java.util.concurrent.FutureTask.run(FutureTask.java:138)
>> >     at
>> >
>> java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886)
>> >     at
>> >
>> java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908)
>> >     at java.lang.Thread.run(Thread.java:662)
>> >
>> > The code used to work for 0.8.2 and it is really strange to see the host
>> =
>> > null. My code is very similar to the word count example,
>> >
>> >         logger.info("Start Cassandra reader...");
>> >         Job job2 = new Job(getConf(), "SalesRankCassandraReader");
>> >         job2.setJarByClass(SalesRankLoader.class);
>> >         job2.setMapperClass(CassandraReaderMapper.class);
>> >         job2.setReducerClass(CassandraToFilesystem.class);
>> >         job2.setOutputKeyClass(Text.class);
>> >         job2.setOutputValueClass(IntWritable.class);
>> >         job2.setMapOutputKeyClass(Text.class);
>> >         job2.setMapOutputValueClass(IntWritable.class);
>> >         FileOutputFormat.setOutputPath(job2, new Path(outPath));
>> >
>> >         job2.setInputFormatClass(ColumnFamilyInputFormat.class);
>> >
>> >         ConfigHelper.setRpcPort(job2.getConfiguration(), "9260");
>> >         ConfigHelper.setInitialAddress(job2.getConfiguration(),
>> > "dnjsrcha02");
>> >         ConfigHelper.setPartitioner(job2.getConfiguration(),
>> > "org.apache.cassandra.dht.RandomPartitioner");
>> >         ConfigHelper.setInputColumnFamily(job2.getConfiguration(),
>> KEYSPACE,
>> > columnFamily);
>> > //        ConfigHelper.setInputSplitSize(job2.getConfiguration(), 5000);
>> >         ConfigHelper.setRangeBatchSize(job2.getConfiguration(),
>> batchSize);
>> >         SlicePredicate predicate = new
>> >
>> SlicePredicate().setColumn_names(Arrays.asList(ByteBufferUtil.bytes(columnName)));
>> >         ConfigHelper.setInputSlicePredicate(job2.getConfiguration(),
>> > predicate);
>> >
>> >         job2.waitForCompletion(true);
>> >
>> > The Cassandra cluster includes 6 nodes and I am pretty sure they work
>> fine.
>> >
>> > Please help.
>> >
>> > Thanks,
>> >
>> > John
>> >
>> >
>> >
>>
>>
>>
>> --
>> Jonathan Ellis
>> Project Chair, Apache Cassandra
>> co-founder of DataStax, the source for professional Cassandra support
>> http://www.datastax.com
>>
>
>

--0015176f0464fe0a5804ac31663f
Content-Type: text/html; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

Hi.=C2=A0We got the same problem here. Even the wordcount map/reduce exampl=
e in the source tar works fine with one node, but fails with the same excep=
tion on a two node cluster. CASSANDRA-3044 mentioned that a temporary work =
around is to disable node auto discovery. Can anyone tell me how to do that=
 in the wordcount example? Thanks.<div>

<br><div>

<br></div><div><div class=3D"gmail_quote">On Fri, Sep 2, 2011 at 12:10 AM, =
Jian Fang <span dir=3D"ltr">&lt;<a href=3D"mailto:jian.fang.subscribe@gmail=
.com" target=3D"_blank">jian.fang.subscribe@gmail.com</a>&gt;</span> wrote:=
<br>


<blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1p=
x #ccc solid;padding-left:1ex">
Thanks. How soon 0.8.5 will be out? Is there any 0.8.5 snapshot version ava=
ilable?<div><div></div><div><br><br><div class=3D"gmail_quote">On Thu, Sep =
1, 2011 at 11:57 AM, Jonathan Ellis <span dir=3D"ltr">&lt;<a href=3D"mailto=
:jbellis@gmail.com" target=3D"_blank">jbellis@gmail.com</a>&gt;</span> wrot=
e:<br>


<blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1p=
x #ccc solid;padding-left:1ex">Sounds like <a href=3D"https://issues.apache=
.org/jira/browse/CASSANDRA-3044" target=3D"_blank">https://issues.apache.or=
g/jira/browse/CASSANDRA-3044</a>,<br>


fixed for 0.8.5<br>
<div><div></div><div><br>
On Thu, Sep 1, 2011 at 10:54 AM, Jian Fang<br>
&lt;<a href=3D"mailto:jian.fang.subscribe@gmail.com" target=3D"_blank">jian=
.fang.subscribe@gmail.com</a>&gt; wrote:<br>
&gt; Hi,<br>
&gt;<br>
&gt; I upgraded Cassandra from 0.8.2 to 0.8.4 and run a hadoop job to read =
data<br>
&gt; from Cassandra, but<br>
&gt; got the following errors:<br>
&gt;<br>
&gt; 11/09/01 11:42:46 INFO hadoop.SalesRankLoader: Start Cassandra reader.=
..<br>
&gt; Exception in thread &quot;main&quot; java.io.IOException: Could not ge=
t input splits<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; org.apache.cassandra.hadoop.ColumnFamilyInputFormat.getSplits(ColumnFa=
milyInputFormat.java:157)<br>
&gt; =C2=A0=C2=A0=C2=A0 at org.apache.hadoop.mapred.JobClient.writeNewSplit=
s(JobClient.java:885)<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:77=
9)<br>
&gt; =C2=A0=C2=A0=C2=A0 at org.apache.hadoop.mapreduce.Job.submit(Job.java:=
432)<br>
&gt; =C2=A0=C2=A0=C2=A0 at org.apache.hadoop.mapreduce.Job.waitForCompletio=
n(Job.java:447)<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; com.barnesandnoble.hadoop.SalesRankLoader.run(SalesRankLoader.java:359=
)<br>
&gt; =C2=A0=C2=A0=C2=A0 at org.apache.hadoop.util.ToolRunner.run(ToolRunner=
.java:65)<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; com.barnesandnoble.hadoop.SalesRankLoader.main(SalesRankLoader.java:40=
8)<br>
&gt; =C2=A0=C2=A0=C2=A0 at sun.reflect.NativeMethodAccessorImpl.invoke0(Nat=
ive Method)<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.j=
ava:39)<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccess=
orImpl.java:25)<br>
&gt; =C2=A0=C2=A0=C2=A0 at java.lang.reflect.Method.invoke(Method.java:597)=
<br>
&gt; =C2=A0=C2=A0=C2=A0 at org.apache.hadoop.util.RunJar.main(RunJar.java:1=
56)<br>
&gt; Caused by: java.util.concurrent.ExecutionException:<br>
&gt; java.lang.IllegalArgumentException: protocol =3D socket host =3D null<=
br>
&gt; =C2=A0=C2=A0=C2=A0 at java.util.concurrent.FutureTask$Sync.innerGet(Fu=
tureTask.java:222)<br>
&gt; =C2=A0=C2=A0=C2=A0 at java.util.concurrent.FutureTask.get(FutureTask.j=
ava:83)<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; org.apache.cassandra.hadoop.ColumnFamilyInputFormat.getSplits(ColumnFa=
milyInputFormat.java:153)<br>
&gt; =C2=A0=C2=A0=C2=A0 ... 12 more<br>
&gt; Caused by: java.lang.IllegalArgumentException: protocol =3D socket hos=
t =3D null<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; sun.net.spi.DefaultProxySelector.select(DefaultProxySelector.java:151)=
<br>
&gt; =C2=A0=C2=A0=C2=A0 at java.net.SocksSocketImpl.connect(SocksSocketImpl=
.java:358)<br>
&gt; =C2=A0=C2=A0=C2=A0 at java.net.Socket.connect(Socket.java:529)<br>
&gt; =C2=A0=C2=A0=C2=A0 at org.apache.thrift.transport.TSocket.open(TSocket=
.java:178)<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; org.apache.thrift.transport.TFramedTransport.open(TFramedTransport.jav=
a:81)<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; org.apache.cassandra.hadoop.ColumnFamilyInputFormat.createConnection(C=
olumnFamilyInputFormat.java:243)<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; org.apache.cassandra.hadoop.ColumnFamilyInputFormat.getSubSplits(Colum=
nFamilyInputFormat.java:217)<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; org.apache.cassandra.hadoop.ColumnFamilyInputFormat.access$200(ColumnF=
amilyInputFormat.java:70)<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; org.apache.cassandra.hadoop.ColumnFamilyInputFormat$SplitCallable.call=
(ColumnFamilyInputFormat.java:190)<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; org.apache.cassandra.hadoop.ColumnFamilyInputFormat$SplitCallable.call=
(ColumnFamilyInputFormat.java:175)<br>
&gt; =C2=A0=C2=A0=C2=A0 at java.util.concurrent.FutureTask$Sync.innerRun(Fu=
tureTask.java:303)<br>
&gt; =C2=A0=C2=A0=C2=A0 at java.util.concurrent.FutureTask.run(FutureTask.j=
ava:138)<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecu=
tor.java:886)<br>
&gt; =C2=A0=C2=A0=C2=A0 at<br>
&gt; java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.=
java:908)<br>
&gt; =C2=A0=C2=A0=C2=A0 at java.lang.Thread.run(Thread.java:662)<br>
&gt;<br>
&gt; The code used to work for 0.8.2 and it is really strange to see the ho=
st =3D<br>
&gt; null. My code is very similar to the word count example,<br>
&gt;<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 <a href=3D"http://logger.in=
fo" target=3D"_blank">logger.info</a>(&quot;Start Cassandra reader...&quot;=
);<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 Job job2 =3D new Job(getCon=
f(), &quot;SalesRankCassandraReader&quot;);<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 job2.setJarByClass(SalesRan=
kLoader.class);<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 job2.setMapperClass(Cassand=
raReaderMapper.class);<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 job2.setReducerClass(Cassan=
draToFilesystem.class);<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 job2.setOutputKeyClass(Text=
.class);<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 job2.setOutputValueClass(In=
tWritable.class);<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 job2.setMapOutputKeyClass(T=
ext.class);<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 job2.setMapOutputValueClass=
(IntWritable.class);<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 FileOutputFormat.setOutputP=
ath(job2, new Path(outPath));<br>
&gt;<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 job2.setInputFormatClass(Co=
lumnFamilyInputFormat.class);<br>
&gt;<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 ConfigHelper.setRpcPort(job=
2.getConfiguration(), &quot;9260&quot;);<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 ConfigHelper.setInitialAddr=
ess(job2.getConfiguration(),<br>
&gt; &quot;dnjsrcha02&quot;);<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 ConfigHelper.setPartitioner=
(job2.getConfiguration(),<br>
&gt; &quot;org.apache.cassandra.dht.RandomPartitioner&quot;);<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 ConfigHelper.setInputColumn=
Family(job2.getConfiguration(), KEYSPACE,<br>
&gt; columnFamily);<br>
&gt; //=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 ConfigHelper.setInputSpli=
tSize(job2.getConfiguration(), 5000);<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 ConfigHelper.setRangeBatchS=
ize(job2.getConfiguration(), batchSize);<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 SlicePredicate predicate =
=3D new<br>
&gt; SlicePredicate().setColumn_names(Arrays.asList(ByteBufferUtil.bytes(co=
lumnName)));<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 ConfigHelper.setInputSliceP=
redicate(job2.getConfiguration(),<br>
&gt; predicate);<br>
&gt;<br>
&gt; =C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0=C2=A0 job2.waitForCompletion(true=
);<br>
&gt;<br>
&gt; The Cassandra cluster includes 6 nodes and I am pretty sure they work =
fine.<br>
&gt;<br>
&gt; Please help.<br>
&gt;<br>
&gt; Thanks,<br>
&gt;<br>
&gt; John<br>
&gt;<br>
&gt;<br>
&gt;<br>
<br>
<br>
<br>
</div></div><font color=3D"#888888">--<br>
Jonathan Ellis<br>
Project Chair, Apache Cassandra<br>
co-founder of DataStax, the source for professional Cassandra support<br>
<a href=3D"http://www.datastax.com" target=3D"_blank">http://www.datastax.c=
om</a><br>
</font></blockquote></div><br>
</div></div></blockquote></div><br></div>
</div>

--0015176f0464fe0a5804ac31663f--