Mailing-List: contact user-help@cassandra.apache.org; run by ezmlm
Precedence: bulk
Reply-To: user@cassandra.apache.org
Received-SPF: pass (nike.apache.org: domain of arodrime@gmail.com designates
 209.85.215.46 as permitted sender)
MIME-Version: 1.0
In-Reply-To: <CD673EF1.23A9D%Dean.Hiller@nrel.gov>
References: 
 <CA+VSrLoHgJ6K5e6q57yOKYPxDSy6d6AXspqNqr+ZE0++A8ooLA@mail.gmail.com>
 <CD673EF1.23A9D%Dean.Hiller@nrel.gov>
From: Alain RODRIGUEZ <arodrime@gmail.com>
Date: Thu, 14 Mar 2013 16:09:54 +0100
Message-ID: 
 <CA+VSrLpe_Wf1BykwGQ2kFRenf9J55Qnr4swT7VZ52MXc5uq-yw@mail.gmail.com>
Subject: Re: Failed migration from 1.1.6 to 1.2.2
To: user@cassandra.apache.org
Content-Type: multipart/alternative; boundary=f46d04016b3b844c5c04d7e3ebc5

--f46d04016b3b844c5c04d7e3ebc5
Content-Type: text/plain; charset=windows-1252
Content-Transfer-Encoding: quoted-printable

@Dean

"It is expensive?"

I was talking about a full time QA environment equal or similar to a prod
env.

I didn't thought about using a temp QA, and you are right I should have.

"And sorry for not providing the detail on the rolling restart not
working=85.my bad"

No problem, my point was just to remember you that other member of the
community can use this kind of information.

"but also I think people on the list assume you are going to do some basic
testing if at least to get comfortable with the process"

I did, but on a local machine. That's the hardware I had, so I just tested
it on one machine and made sure the clients were compatible... But I wasn't
aware of ccm. I will use it next time for sure :-).

@Michal

Thanks about ccm.

"on my workstation with a < 0.01% sample of production"

Is there a simple way of getting that ?

@all

Any idea why my node is not restarting now ?

Same result with or without -Dcassandra.load_ring_state=3Dfalse.

Last log lines before C* process end :

INFO [SSTableBatchOpen:1] 2013-03-14 14:36:09,813 SSTableReader.java (line
169) Opening
/raid0/cassandra/data/system/LocationInfo/system-LocationInfo-hf-70 (621
bytes)
INFO [SSTableBatchOpen:1] 2013-03-14 14:36:09,819 SSTableReader.java (line
169) Opening
/raid0/cassandra/data/system/HintsColumnFamily/system-HintsColumnFamily-hf-=
465
(66 bytes)

Should I $rm /raid0/cassandra/data/system/HintsColumnFamily/* ?


2013/3/14 Hiller, Dean <Dean.Hiller@nrel.gov>

> It is expensive?=85=85personally, sorry, I don't really buy that since I =
spent
> less than 400 bucks on 100 servers at amazon to play with for 1 or 2 hour=
s
> or maybe it was 8 hours=85I can't remember AND you can use small instance=
s
> for a test like this.  You can write EC2 scripts to startup a QA system f=
or
> your needs very easily.  Now, if your company is not allowing amazon, tha=
t
> is a different story and it is expensive.  We have the same issue as
> you=85.lack of time though we did get some VM's and put roughly 10MB in e=
ach
> to test out an upgrade.
>
> So a basic QA test equipment wise would cost only about 50 bucks and be
> well worth the testing=85.the time effort would cost a bit more but usual=
ly
> companies are already paying the salaries and that was already budgeted f=
or.
>
> And sorry for not providing the detail on the rolling restart not
> working=85.my bad, but also I think people on the list assume you are goi=
ng
> to do some basic testing if at least to get comfortable with the process.
>
> Dean
>
> From: Alain RODRIGUEZ <arodrime@gmail.com<mailto:arodrime@gmail.com>>
> Reply-To: "user@cassandra.apache.org<mailto:user@cassandra.apache.org>" <
> user@cassandra.apache.org<mailto:user@cassandra.apache.org>>
> Date: Thursday, March 14, 2013 7:41 AM
> To: "user@cassandra.apache.org<mailto:user@cassandra.apache.org>" <
> user@cassandra.apache.org<mailto:user@cassandra.apache.org>>
> Subject: Re: Failed migration from 1.1.6 to 1.2.2
>
> @Aaron
>
> "You can try to reset the cluster ring state by doing a rolling restart
> passing -Dcassandra.load_ring_state=3Dfalse as a JVM param in
> cassandra-env.sh"
>
> Now my can't restart properly. I stop restarting and last logged message
> is:
>
> INFO [SSTableBatchOpen:1] 2013-03-14 14:36:09,813 SSTableReader.java (lin=
e
> 169) Opening
> /raid0/cassandra/data/system/LocationInfo/system-LocationInfo-hf-70 (621
> bytes)
> INFO [SSTableBatchOpen:1] 2013-03-14 14:36:09,819 SSTableReader.java (lin=
e
> 169) Opening
> /raid0/cassandra/data/system/HintsColumnFamily/system-HintsColumnFamily-h=
f-465
> (66 bytes)
>
> Shoul I $rm /raid0/cassandra/data/system/HintsColumnFamily/* ?
>
> @Dean
>
> "You should really be testing this stuff in QA"
>
> We have no such environment. It is expensive, we can't afford this for no=
w.
>
> "We had the exact same issue from 1.1.4 to 1.2.2."
>
> Well, I think you could have warned. I thought it was safe upgrading
> because I saw that you and 2 more people did it with no major issues...
>
>
> 2013/3/14 Hiller, Dean <Dean.Hiller@nrel.gov<mailto:Dean.Hiller@nrel.gov>=
>
> You should really be testing this stuff in QA.  We had the exact same
> issue from 1.1.4 to 1.2.2.  In QA, we decided we could take an outage so =
we
> tested taking every node down, upgrading every node and bringing the
> cluster back online.  This worked perfectly so we rolled it into
> production=85.production took 45 minutes to start for us(especially one n=
ode
> under pressure)=85.that was only initially though=85now everything seems =
fine.
>  Another option in QA was we could have tested upgrading to 1.1.9 first
> then to 1.2.2.  I have no idea if it will work but I am sure they test
> closer release scenarios on upgrading more so than the big jump releases
>
> Aaron, it would be really neat if some releases were tagged with LT(long
> term) or something so upgrades are tested from LT to LT releases so we kn=
ow
> we can always safely first upgrade to an LT release and then upgrade to
> another LT release from that one=85just a thought. This would also get mo=
re
> people using/testing the same upgrade paths which would help everyone.
>
> Dean
>
> From: Alain RODRIGUEZ <arodrime@gmail.com<mailto:arodrime@gmail.com
> ><mailto:arodrime@gmail.com<mailto:arodrime@gmail.com>>>
> Reply-To: "user@cassandra.apache.org<mailto:user@cassandra.apache.org
> ><mailto:user@cassandra.apache.org<mailto:user@cassandra.apache.org>>" <
> user@cassandra.apache.org<mailto:user@cassandra.apache.org><mailto:
> user@cassandra.apache.org<mailto:user@cassandra.apache.org>>>
> Date: Thursday, March 14, 2013 5:31 AM
> To: "user@cassandra.apache.org<mailto:user@cassandra.apache.org><mailto:
> user@cassandra.apache.org<mailto:user@cassandra.apache.org>>" <
> user@cassandra.apache.org<mailto:user@cassandra.apache.org><mailto:
> user@cassandra.apache.org<mailto:user@cassandra.apache.org>>>
> Subject: Re: Failed migration from 1.1.6 to 1.2.2
>
> We have it set to 0.0.0.0 but anyway, as told before, I don't think our
> problem come from this bug.
>
>
> 2013/3/14 Michal Michalski <michalm@opera.com<mailto:michalm@opera.com
> ><mailto:michalm@opera.com<mailto:michalm@opera.com>>>
>
> It will happen if your rpc_address is set to 0.0.0.0.
>
> Ops, it's not what I meant ;-)
> It will happen, if your rpc_address is set to IP that is not defined in
> your cluster's config (e.g. in cassandra-topology.properties for
> PropertyFileSnitch)
>
>
> M.
>
>
> M.
>
> W dniu 14.03.2013 13:03, Alain RODRIGUEZ pisze:
> Thanks for this pointer but I don't think this is the source of our
> problem
> since we use 1 data center and Ec2Snitch.
>
>
>
> 2013/3/14 Jean-Armel Luce <jaluce06@gmail.com<mailto:jaluce06@gmail.com
> ><mailto:jaluce06@gmail.com<mailto:jaluce06@gmail.com>>>
>
> Hi Alain,
>
> Maybe it is due to https://issues.apache.org/jira/browse/CASSANDRA-5299
>
> A patch is provided with this ticket.
>
> Regards.
>
> Jean Armel
>
>
> 2013/3/14 Alain RODRIGUEZ <arodrime@gmail.com<mailto:arodrime@gmail.com
> ><mailto:arodrime@gmail.com<mailto:arodrime@gmail.com>>>
>
> Hi
>
> We just tried to migrate our production cluster from C* 1.1.6 to 1.2.2.
>
> This has been a disaster. I just switch one node to 1.2.2, updated its
> configuration (cassandra.yaml / cassandra-env.sh) and restart it.
>
> It resulted on error on all the 5 remaining 1.1.6 nodes :
>
> ERROR [RequestResponseStage:2] 2013-03-14 09:53:25,750
> AbstractCassandraDaemon.java (line 135) Exception in thread
> Thread[RequestResponseStage:2,5,main]
> java.io.IOError: java.io.EOFException
>          at
>
> org.apache.cassandra.service.AbstractRowResolver.preprocess(AbstractRowRe=
solver.java:71)
>
>          at
> org.apache.cassandra.service.ReadCallback.response(ReadCallback.java:155)
>
>          at
> org.apache.cassandra.net<http://org.apache.cassandra.net><
> http://org.apache.cassandra.net
> >.ResponseVerbHandler.doVerb(ResponseVerbHandler.java:45)
>
>          at
> org.apache.cassandra.net<http://org.apache.cassandra.net><
> http://org.apache.cassandra.net
> >.MessageDeliveryTask.run(MessageDeliveryTask.java:59)
>
>          at
>
> java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor=
.java:886)
>
>          at
>
> java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.jav=
a:908)
>
>          at java.lang.Thread.run(Thread.java:662)
> Caused by: java.io.EOFException
>          at java.io.DataInputStream.readFully(DataInputStream.java:180)
>          at
>
> org.apache.cassandra.db.ReadResponseSerializer.deserialize(ReadResponse.j=
ava:100)
>
>          at
>
> org.apache.cassandra.db.ReadResponseSerializer.deserialize(ReadResponse.j=
ava:81)
>
>          at
>
> org.apache.cassandra.service.AbstractRowResolver.preprocess(AbstractRowRe=
solver.java:64)
>
>          ... 6 more
>
> I had this a lot of times, and my entire cluster wasn't reachable by
> our
> 4 clients (phpCassa, Hector, Cassie, Helenus)
>
> I decommissioned the 1.2.2 node to get our cluster answering
> queries. It
> worked.
>
> Then I tried to replace this node by a new C*1.1.6 one with the same
> token as the previous node decommissioned. The node joined the ring and
> before getting any data switch to normal status.
>
> In all the other nodes I had :
>
> ERROR [MutationStage:8] 2013-03-14 10:21:01,288
> AbstractCassandraDaemon.java (line 135) Exception in thread
> Thread[MutationStage:8,5,main]
> java.lang.AssertionError
>          at
> org.apache.cassandra.locator.TokenMetadata.getToken(TokenMetadata.java:30=
4)
>
>          at
>
> org.apache.cassandra.service.StorageProxy$5.runMayThrow(StorageProxy.java=
:371)
>
>          at
> org.apache.cassandra.utils.WrappedRunnable.run(WrappedRunnable.java:30)
>          at
> java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:439)
>          at
> java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:303)
>          at java.util.concurrent.FutureTask.run(FutureTask.java:138)
>          at
>
> java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor=
.java:886)
>
>          at
>
> java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.jav=
a:908)
>
>          at java.lang.Thread.run(Thread.java:662)
>
> So I decommissioned this new 1.1.6 node and we are now running with 5
> servers, not balanced along the ring, without any possibility of adding
> nodes, nor upgradinc C* version.
>
> We are quite desperate over here.
>
> If someone has any idea of what could happened and how to stabilize the
> cluster, it will be very appreciated.
>
> It's quite an emergency since we can't add nodes and are under heavy
> load.
>
>
>
>
>
>
>
>

--f46d04016b3b844c5c04d7e3ebc5
Content-Type: text/html; charset=windows-1252
Content-Transfer-Encoding: quoted-printable

<div dir=3D"ltr"><div style>@Dean</div><div><br></div>&quot;<span style=3D"=
font-family:arial,sans-serif;font-size:13px">It is expensive?&quot;</span><=
div><span style=3D"font-family:arial,sans-serif;font-size:13px"><br></span>=
</div>

<div style><font face=3D"arial, sans-serif">I was talking about a full time=
 QA=A0environment=A0equal or similar to a prod env.</font></div><div style>=
<font face=3D"arial, sans-serif"><br></font></div><div style><font face=3D"=
arial, sans-serif">I didn&#39;t thought about using a temp QA, and you are =
right I should have.</font></div>

<div style><font face=3D"arial, sans-serif"><br></font></div><div style><sp=
an style=3D"font-family:arial,sans-serif;font-size:13px">&quot;And sorry fo=
r not providing the detail on the rolling restart not working=85.my bad&quo=
t;</span><font face=3D"arial, sans-serif"><br>

</font></div><div style><span style=3D"font-family:arial,sans-serif;font-si=
ze:13px"><br></span></div><div style><span style=3D"font-family:arial,sans-=
serif;font-size:13px">No problem, my point was just to remember you that ot=
her member of the community can use this kind of information.</span></div>

<div style><span style=3D"font-family:arial,sans-serif;font-size:13px"><br>=
</span></div><div style><span style=3D"font-family:arial,sans-serif;font-si=
ze:13px">&quot;but also I think people on the list assume you are going to =
do some basic testing if at least to get comfortable with the process&quot;=
</span><span style=3D"font-family:arial,sans-serif;font-size:13px"><br>

</span></div><div style><span style=3D"font-family:arial,sans-serif;font-si=
ze:13px"><br></span></div><div style><span style=3D"font-family:arial,sans-=
serif;font-size:13px">I did, but on a local machine. That&#39;s the hardwar=
e I had, so I just tested it on one machine and made sure the clients were =
compatible... But I wasn&#39;t aware of ccm. I will use it next time for su=
re :-).</span></div>

<div style><span style=3D"font-family:arial,sans-serif;font-size:13px"><br>=
</span></div><div style><span style=3D"font-family:arial,sans-serif;font-si=
ze:13px">@Michal</span></div><div style><span style=3D"font-family:arial,sa=
ns-serif;font-size:13px"><br>

</span></div><div style><span style=3D"font-family:arial,sans-serif;font-si=
ze:13px">Thanks about ccm.</span></div><div style><span style=3D"font-famil=
y:arial,sans-serif;font-size:13px"><br></span></div><div style><span style=
=3D"font-family:arial,sans-serif;font-size:13px">&quot;</span><span style=
=3D"font-family:arial,sans-serif;font-size:13px">on my workstation with a &=
lt; 0.01% sample of production&quot;</span></div>

<div style><span style=3D"font-family:arial,sans-serif;font-size:13px"><br>=
</span></div><div style><span style=3D"font-family:arial,sans-serif;font-si=
ze:13px">Is there a simple way of getting that ?</span></div><div style><sp=
an style=3D"font-family:arial,sans-serif;font-size:13px"><br>

</span></div><div style><span style=3D"font-family:arial,sans-serif;font-si=
ze:13px">@all</span></div><div style><span style=3D"font-family:arial,sans-=
serif;font-size:13px"><br></span></div><div style><span style=3D"font-famil=
y:arial,sans-serif;font-size:13px">Any idea why my node is not restarting n=
ow ?</span></div>

<div style><span style=3D"font-family:arial,sans-serif;font-size:13px"><br>=
</span></div><div style><span style=3D"font-family:arial,sans-serif;font-si=
ze:13px">Same result with or without=A0</span><span style=3D"font-size:13px=
;font-family:arial,sans-serif">-Dcassandra.load_ring_state=3D</span><span s=
tyle=3D"font-size:13px;font-family:arial,sans-serif">false.</span></div>

<div style><span style=3D"font-family:arial,sans-serif;font-size:13px"><br>=
</span></div><div style><span style=3D"font-family:arial,sans-serif;font-si=
ze:13px">Last log lines before C* process end :</span></div><div style><spa=
n style=3D"font-family:arial,sans-serif;font-size:13px"><br>

</span></div><div style><div style=3D"font-family:arial,sans-serif;font-siz=
e:13px"><font face=3D"arial, sans-serif">INFO [SSTableBatchOpen:1] 2013-03-=
14 14:36:09,813 SSTableReader.java (line 169) Opening /raid0/cassandra/data=
/system/LocationInfo/system-LocationInfo-hf-70 (621 bytes)</font></div>

<div style=3D"font-family:arial,sans-serif;font-size:13px"><font face=3D"ar=
ial, sans-serif">INFO [SSTableBatchOpen:1] 2013-03-14 14:36:09,819 SSTableR=
eader.java (line 169) Opening /raid0/cassandra/data/system/HintsColumnFamil=
y/system-HintsColumnFamily-hf-465 (66 bytes)</font></div>

<div style=3D"font-family:arial,sans-serif;font-size:13px"><font face=3D"ar=
ial, sans-serif"><br></font></div><div style=3D"font-family:arial,sans-seri=
f;font-size:13px"><font face=3D"arial, sans-serif">Should I $rm=A0</font>/r=
aid0/cassandra/data/system/HintsColumnFamily/* ?</div>

<div><br></div></div><div style><span style=3D"font-family:arial,sans-serif=
;font-size:13px"><br></span></div><div style><span style=3D"font-family:ari=
al,sans-serif;font-size:13px"><br></span></div><div style><span style=3D"fo=
nt-family:arial,sans-serif;font-size:13px"><br>

</span></div><div style><span style=3D"font-family:arial,sans-serif;font-si=
ze:13px"><br></span></div></div><div class=3D"gmail_extra"><br><br><div cla=
ss=3D"gmail_quote">2013/3/14 Hiller, Dean <span dir=3D"ltr">&lt;<a href=3D"=
mailto:Dean.Hiller@nrel.gov" target=3D"_blank">Dean.Hiller@nrel.gov</a>&gt;=
</span><br>

<blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1p=
x #ccc solid;padding-left:1ex">It is expensive?=85=85personally, sorry, I d=
on&#39;t really buy that since I spent less than 400 bucks on 100 servers a=
t amazon to play with for 1 or 2 hours or maybe it was 8 hours=85I can&#39;=
t remember AND you can use small instances for a test like this. =A0You can=
 write EC2 scripts to startup a QA system for your needs very easily. =A0No=
w, if your company is not allowing amazon, that is a different story and it=
 is expensive. =A0We have the same issue as you=85.lack of time though we d=
id get some VM&#39;s and put roughly 10MB in each to test out an upgrade.<b=
r>


<br>
So a basic QA test equipment wise would cost only about 50 bucks and be wel=
l worth the testing=85.the time effort would cost a bit more but usually co=
mpanies are already paying the salaries and that was already budgeted for.<=
br>


<br>
And sorry for not providing the detail on the rolling restart not working=
=85.my bad, but also I think people on the list assume you are going to do =
some basic testing if at least to get comfortable with the process.<br>
<div class=3D"im"><br>
Dean<br>
<br>
From: Alain RODRIGUEZ &lt;<a href=3D"mailto:arodrime@gmail.com">arodrime@gm=
ail.com</a>&lt;mailto:<a href=3D"mailto:arodrime@gmail.com">arodrime@gmail.=
com</a>&gt;&gt;<br>
Reply-To: &quot;<a href=3D"mailto:user@cassandra.apache.org">user@cassandra=
.apache.org</a>&lt;mailto:<a href=3D"mailto:user@cassandra.apache.org">user=
@cassandra.apache.org</a>&gt;&quot; &lt;<a href=3D"mailto:user@cassandra.ap=
ache.org">user@cassandra.apache.org</a>&lt;mailto:<a href=3D"mailto:user@ca=
ssandra.apache.org">user@cassandra.apache.org</a>&gt;&gt;<br>


</div>Date: Thursday, March 14, 2013 7:41 AM<br>
<div class=3D"im">To: &quot;<a href=3D"mailto:user@cassandra.apache.org">us=
er@cassandra.apache.org</a>&lt;mailto:<a href=3D"mailto:user@cassandra.apac=
he.org">user@cassandra.apache.org</a>&gt;&quot; &lt;<a href=3D"mailto:user@=
cassandra.apache.org">user@cassandra.apache.org</a>&lt;mailto:<a href=3D"ma=
ilto:user@cassandra.apache.org">user@cassandra.apache.org</a>&gt;&gt;<br>


Subject: Re: Failed migration from 1.1.6 to 1.2.2<br>
<br>
</div><div class=3D"im">@Aaron<br>
<br>
&quot;You can try to reset the cluster ring state by doing a rolling restar=
t passing -Dcassandra.load_ring_state=3Dfalse as a JVM param in cassandra-e=
nv.sh&quot;<br>
<br>
Now my can&#39;t restart properly. I stop restarting and last logged messag=
e is:<br>
<br>
INFO [SSTableBatchOpen:1] 2013-03-14 14:36:09,813 SSTableReader.java (line =
169) Opening /raid0/cassandra/data/system/LocationInfo/system-LocationInfo-=
hf-70 (621 bytes)<br>
INFO [SSTableBatchOpen:1] 2013-03-14 14:36:09,819 SSTableReader.java (line =
169) Opening /raid0/cassandra/data/system/HintsColumnFamily/system-HintsCol=
umnFamily-hf-465 (66 bytes)<br>
<br>
Shoul I $rm /raid0/cassandra/data/system/HintsColumnFamily/* ?<br>
<br>
@Dean<br>
<br>
&quot;You should really be testing this stuff in QA&quot;<br>
<br>
We have no such environment. It is expensive, we can&#39;t afford this for =
now.<br>
<br>
&quot;We had the exact same issue from 1.1.4 to 1.2.2.&quot;<br>
<br>
Well, I think you could have warned. I thought it was safe upgrading becaus=
e I saw that you and 2 more people did it with no major issues...<br>
<br>
<br>
</div>2013/3/14 Hiller, Dean &lt;<a href=3D"mailto:Dean.Hiller@nrel.gov">De=
an.Hiller@nrel.gov</a>&lt;mailto:<a href=3D"mailto:Dean.Hiller@nrel.gov">De=
an.Hiller@nrel.gov</a>&gt;&gt;<br>
<div class=3D"im">You should really be testing this stuff in QA. =A0We had =
the exact same issue from 1.1.4 to 1.2.2. =A0In QA, we decided we could tak=
e an outage so we tested taking every node down, upgrading every node and b=
ringing the cluster back online. =A0This worked perfectly so we rolled it i=
nto production=85.production took 45 minutes to start for us(especially one=
 node under pressure)=85.that was only initially though=85now everything se=
ems fine. =A0Another option in QA was we could have tested upgrading to 1.1=
.9 first then to 1.2.2. =A0I have no idea if it will work but I am sure the=
y test closer release scenarios on upgrading more so than the big jump rele=
ases<br>


<br>
Aaron, it would be really neat if some releases were tagged with LT(long te=
rm) or something so upgrades are tested from LT to LT releases so we know w=
e can always safely first upgrade to an LT release and then upgrade to anot=
her LT release from that one=85just a thought. This would also get more peo=
ple using/testing the same upgrade paths which would help everyone.<br>


<br>
Dean<br>
<br>
</div>From: Alain RODRIGUEZ &lt;<a href=3D"mailto:arodrime@gmail.com">arodr=
ime@gmail.com</a>&lt;mailto:<a href=3D"mailto:arodrime@gmail.com">arodrime@=
gmail.com</a>&gt;&lt;mailto:<a href=3D"mailto:arodrime@gmail.com">arodrime@=
gmail.com</a>&lt;mailto:<a href=3D"mailto:arodrime@gmail.com">arodrime@gmai=
l.com</a>&gt;&gt;&gt;<br>


Reply-To: &quot;<a href=3D"mailto:user@cassandra.apache.org">user@cassandra=
.apache.org</a>&lt;mailto:<a href=3D"mailto:user@cassandra.apache.org">user=
@cassandra.apache.org</a>&gt;&lt;mailto:<a href=3D"mailto:user@cassandra.ap=
ache.org">user@cassandra.apache.org</a>&lt;mailto:<a href=3D"mailto:user@ca=
ssandra.apache.org">user@cassandra.apache.org</a>&gt;&gt;&quot; &lt;<a href=
=3D"mailto:user@cassandra.apache.org">user@cassandra.apache.org</a>&lt;mail=
to:<a href=3D"mailto:user@cassandra.apache.org">user@cassandra.apache.org</=
a>&gt;&lt;mailto:<a href=3D"mailto:user@cassandra.apache.org">user@cassandr=
a.apache.org</a>&lt;mailto:<a href=3D"mailto:user@cassandra.apache.org">use=
r@cassandra.apache.org</a>&gt;&gt;&gt;<br>


<div class=3D"im">Date: Thursday, March 14, 2013 5:31 AM<br>
</div>To: &quot;<a href=3D"mailto:user@cassandra.apache.org">user@cassandra=
.apache.org</a>&lt;mailto:<a href=3D"mailto:user@cassandra.apache.org">user=
@cassandra.apache.org</a>&gt;&lt;mailto:<a href=3D"mailto:user@cassandra.ap=
ache.org">user@cassandra.apache.org</a>&lt;mailto:<a href=3D"mailto:user@ca=
ssandra.apache.org">user@cassandra.apache.org</a>&gt;&gt;&quot; &lt;<a href=
=3D"mailto:user@cassandra.apache.org">user@cassandra.apache.org</a>&lt;mail=
to:<a href=3D"mailto:user@cassandra.apache.org">user@cassandra.apache.org</=
a>&gt;&lt;mailto:<a href=3D"mailto:user@cassandra.apache.org">user@cassandr=
a.apache.org</a>&lt;mailto:<a href=3D"mailto:user@cassandra.apache.org">use=
r@cassandra.apache.org</a>&gt;&gt;&gt;<br>


<div class=3D"im">Subject: Re: Failed migration from 1.1.6 to 1.2.2<br>
<br>
We have it set to 0.0.0.0 but anyway, as told before, I don&#39;t think our=
 problem come from this bug.<br>
<br>
<br>
</div>2013/3/14 Michal Michalski &lt;<a href=3D"mailto:michalm@opera.com">m=
ichalm@opera.com</a>&lt;mailto:<a href=3D"mailto:michalm@opera.com">michalm=
@opera.com</a>&gt;&lt;mailto:<a href=3D"mailto:michalm@opera.com">michalm@o=
pera.com</a>&lt;mailto:<a href=3D"mailto:michalm@opera.com">michalm@opera.c=
om</a>&gt;&gt;&gt;<br>


<div class=3D"im"><br>
It will happen if your rpc_address is set to 0.0.0.0.<br>
<br>
Ops, it&#39;s not what I meant ;-)<br>
It will happen, if your rpc_address is set to IP that is not defined in you=
r cluster&#39;s config (e.g. in cassandra-topology.properties for PropertyF=
ileSnitch)<br>
<br>
<br>
M.<br>
<br>
<br>
M.<br>
<br>
W dniu 14.03.2013 13:03, Alain RODRIGUEZ pisze:<br>
Thanks for this pointer but I don&#39;t think this is the source of our<br>
problem<br>
since we use 1 data center and Ec2Snitch.<br>
<br>
<br>
<br>
</div>2013/3/14 Jean-Armel Luce &lt;<a href=3D"mailto:jaluce06@gmail.com">j=
aluce06@gmail.com</a>&lt;mailto:<a href=3D"mailto:jaluce06@gmail.com">jaluc=
e06@gmail.com</a>&gt;&lt;mailto:<a href=3D"mailto:jaluce06@gmail.com">jaluc=
e06@gmail.com</a>&lt;mailto:<a href=3D"mailto:jaluce06@gmail.com">jaluce06@=
gmail.com</a>&gt;&gt;&gt;<br>


<div class=3D"im"><br>
Hi Alain,<br>
<br>
Maybe it is due to <a href=3D"https://issues.apache.org/jira/browse/CASSAND=
RA-5299" target=3D"_blank">https://issues.apache.org/jira/browse/CASSANDRA-=
5299</a><br>
<br>
A patch is provided with this ticket.<br>
<br>
Regards.<br>
<br>
Jean Armel<br>
<br>
<br>
</div>2013/3/14 Alain RODRIGUEZ &lt;<a href=3D"mailto:arodrime@gmail.com">a=
rodrime@gmail.com</a>&lt;mailto:<a href=3D"mailto:arodrime@gmail.com">arodr=
ime@gmail.com</a>&gt;&lt;mailto:<a href=3D"mailto:arodrime@gmail.com">arodr=
ime@gmail.com</a>&lt;mailto:<a href=3D"mailto:arodrime@gmail.com">arodrime@=
gmail.com</a>&gt;&gt;&gt;<br>


<div class=3D"im"><br>
Hi<br>
<br>
We just tried to migrate our production cluster from C* 1.1.6 to 1.2.2.<br>
<br>
This has been a disaster. I just switch one node to 1.2.2, updated its<br>
configuration (cassandra.yaml / cassandra-env.sh) and restart it.<br>
<br>
It resulted on error on all the 5 remaining 1.1.6 nodes :<br>
<br>
ERROR [RequestResponseStage:2] 2013-03-14 09:53:25,750<br>
AbstractCassandraDaemon.java (line 135) Exception in thread<br>
Thread[RequestResponseStage:2,5,main]<br>
java.io.IOError: java.io.EOFException<br>
=A0 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.service.AbstractRowResolver.preprocess(AbstractRowReso=
lver.java:71)<br>
<br>
=A0 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.service.ReadCallback.response(ReadCallback.java:155)<b=
r>
<br>
=A0 =A0 =A0 =A0 =A0at<br>
</div><a href=3D"http://org.apache.cassandra.net" target=3D"_blank">org.apa=
che.cassandra.net</a>&lt;<a href=3D"http://org.apache.cassandra.net" target=
=3D"_blank">http://org.apache.cassandra.net</a>&gt;&lt;<a href=3D"http://or=
g.apache.cassandra.net" target=3D"_blank">http://org.apache.cassandra.net</=
a>&gt;.ResponseVerbHandler.doVerb(ResponseVerbHandler.java:45)<br>


<br>
=A0 =A0 =A0 =A0 =A0at<br>
<a href=3D"http://org.apache.cassandra.net" target=3D"_blank">org.apache.ca=
ssandra.net</a>&lt;<a href=3D"http://org.apache.cassandra.net" target=3D"_b=
lank">http://org.apache.cassandra.net</a>&gt;&lt;<a href=3D"http://org.apac=
he.cassandra.net" target=3D"_blank">http://org.apache.cassandra.net</a>&gt;=
.MessageDeliveryTask.run(MessageDeliveryTask.java:59)<br>


<div class=3D"HOEnZb"><div class=3D"h5"><br>
=A0 =A0 =A0 =A0 =A0at<br>
java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.j=
ava:886)<br>
<br>
=A0 =A0 =A0 =A0 =A0at<br>
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:=
908)<br>
<br>
=A0 =A0 =A0 =A0 =A0at java.lang.Thread.run(Thread.java:662)<br>
Caused by: java.io.EOFException<br>
=A0 =A0 =A0 =A0 =A0at java.io.DataInputStream.readFully(DataInputStream.jav=
a:180)<br>
=A0 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.db.ReadResponseSerializer.deserialize(ReadResponse.jav=
a:100)<br>
<br>
=A0 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.db.ReadResponseSerializer.deserialize(ReadResponse.jav=
a:81)<br>
<br>
=A0 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.service.AbstractRowResolver.preprocess(AbstractRowReso=
lver.java:64)<br>
<br>
=A0 =A0 =A0 =A0 =A0... 6 more<br>
<br>
I had this a lot of times, and my entire cluster wasn&#39;t reachable by<br=
>
our<br>
4 clients (phpCassa, Hector, Cassie, Helenus)<br>
<br>
I decommissioned the 1.2.2 node to get our cluster answering<br>
queries. It<br>
worked.<br>
<br>
Then I tried to replace this node by a new C*1.1.6 one with the same<br>
token as the previous node decommissioned. The node joined the ring and<br>
before getting any data switch to normal status.<br>
<br>
In all the other nodes I had :<br>
<br>
ERROR [MutationStage:8] 2013-03-14 10:21:01,288<br>
AbstractCassandraDaemon.java (line 135) Exception in thread<br>
Thread[MutationStage:8,5,main]<br>
java.lang.AssertionError<br>
=A0 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.locator.TokenMetadata.getToken(TokenMetadata.java:304)=
<br>
<br>
=A0 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.service.StorageProxy$5.runMayThrow(StorageProxy.java:3=
71)<br>
<br>
=A0 =A0 =A0 =A0 =A0at<br>
org.apache.cassandra.utils.WrappedRunnable.run(WrappedRunnable.java:30)<br>
=A0 =A0 =A0 =A0 =A0at<br>
java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:439)<br>
=A0 =A0 =A0 =A0 =A0at<br>
java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:303)<br>
=A0 =A0 =A0 =A0 =A0at java.util.concurrent.FutureTask.run(FutureTask.java:1=
38)<br>
=A0 =A0 =A0 =A0 =A0at<br>
java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.j=
ava:886)<br>
<br>
=A0 =A0 =A0 =A0 =A0at<br>
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:=
908)<br>
<br>
=A0 =A0 =A0 =A0 =A0at java.lang.Thread.run(Thread.java:662)<br>
<br>
So I decommissioned this new 1.1.6 node and we are now running with 5<br>
servers, not balanced along the ring, without any possibility of adding<br>
nodes, nor upgradinc C* version.<br>
<br>
We are quite desperate over here.<br>
<br>
If someone has any idea of what could happened and how to stabilize the<br>
cluster, it will be very appreciated.<br>
<br>
It&#39;s quite an emergency since we can&#39;t add nodes and are under heav=
y<br>
load.<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
</div></div></blockquote></div><br></div>

--f46d04016b3b844c5c04d7e3ebc5--