Mailing-List: contact chukwa-user-help@hadoop.apache.org; run by ezmlm
Precedence: bulk
Reply-To: chukwa-user@hadoop.apache.org
Received-SPF: neutral (athena.apache.org: 64.71.238.64 is neither permitted
 nor denied by domain of corbin@tynt.com)
From: Corbin Hoenes <corbin@tynt.com>
Mime-Version: 1.0 (Apple Message framework v1078)
Content-Type: multipart/alternative; boundary=Apple-Mail-16--964863226
Subject: Re: SocketTeeWriter
Date: Wed, 12 May 2010 14:11:20 -0600
In-Reply-To: <C80EF1E0.A219%jboulon@netflix.com>
To: chukwa-user@hadoop.apache.org
References: <C80EF1E0.A219%jboulon@netflix.com>
Message-Id: <9D31A8D9-41DC-4BD5-9C00-4F4E21314A51@tynt.com>


--Apple-Mail-16--964863226
Content-Transfer-Encoding: quoted-printable
Content-Type: text/plain;
	charset=us-ascii

Jerome,

I would like to take a look at your partitioner if possible to see if =
it'll work for us.   I am not sure what would be best to partition on.  =
I am thinking a hash of the ChukwaArchiveKey.getTimePartition() would be =
a decent partitioner--but I'm still a noob so not sure of the criteria =
for a good paritioner.

Did you just modify ChukwaRecordPartitioner?

On May 11, 2010, at 12:37 PM, Jerome Boulon wrote:

> Hey Corbin,
>=20
> What kind of partitioner do you need?
> I'm using one based on a hashing function of the key.
> Let me know if that would work for you?
>=20
> Regarding the TeeWriter, I would like to also get feedback on it, Ari?
>=20
> /Jerome.
>=20
> On 5/11/10 11:24 AM, "Corbin Hoenes" <corbin@tynt.com> wrote:
>=20
>> Eric,
>>=20
>> Thanks you guys are spot on with your analysis of our demux =
issue--right now
>> we have a single data type.  We can probably split that into two =
different
>> types later but still won't help much until the partitioning is =
either
>> pluggable or somewhat configurable as CHUKWA-481 states.
>>=20
>> My questions about the Tee are more related to low latency =
requirements of
>> creating more realtime like feeds of our data.  My initial thought is =
that if
>> I could get data out of hadoop in 10 or 5 minute intervals that it =
might be
>> "good enough" for this so I was interested in speeding up demux a =
bit.  But
>> now I think the right thing will be using the Tee and getting the =
data into a
>> different system to create these feeds and let hadoop handle the =
large scale
>> analysis only.
>>=20
>> The Tee seems perfect...will have to try it out hoping to get =
feedback from
>> people that are using it like this.  Sounds like Ari does.
>>=20
>> On May 11, 2010, at 12:03 PM, Eric Yang wrote:
>>=20
>>> Corbin,
>>>=20
>>> Multiple collectors will improve the mapper processing speed, but =
the
>>> reducer is still the long tail of the demux processing. It sounds =
like you
>>> have large amount of same type of data.  It will definitely speed up =
your
>>> processing once CHUKWA-481 is addressed.
>>>=20
>>> Regards,
>>> Eric=20
>>>=20
>>>=20
>>> On 5/10/10 7:34 PM, "Corbin Hoenes" <corbin@tynt.com> wrote:
>>>=20
>>>> We are processing apache log files.    The current scale is 70-80GB =
per
>>>> day...but we'd like it to have a story for scaling up to move. Just =
checking
>>>> my collector logs it appears the data rate is still ranges from =
600KB-1.2
>>>> MB.
>>>> This is all from one collector.  Does your setup use multiple =
collectors?
>>>> My
>>>> thought is that multiple collectors could be used to scale out once =
we reach
>>>> a
>>>> data rate that caused issues for a single collector.
>>>>=20
>>>> Any chance you know where that data rate is?
>>>>=20
>>>> On May 10, 2010, at 5:37 PM, Ariel Rabkin wrote:
>>>>=20
>>>>> That's how we use it at Berkeley, to process metrics from hundreds =
of
>>>>> machines; total data rate less than a megabyte per second, though.
>>>>> What scale of data are you looking at?
>>>>>=20
>>>>> The intent of SocketTee was if you need some subset of the data =
now,
>>>>> while write-to-HDFS-and-process-with-Hadoop is still the default =
path.
>>>>> What sort of low-latency processing do you need?
>>>>>=20
>>>>> --Ari
>>>>>=20
>>>>> On Mon, May 10, 2010 at 4:28 PM, Corbin Hoenes <corbin@tynt.com> =
wrote:
>>>>>> Has anyone used the "Tee" in a larger scale deployment to try to =
get
>>>>>> real-time/low latency data?  Interested in how feasible it would =
be to use
>>>>>> it to pipe data into another system to handle these low latency =
requests
>>>>>> and
>>>>>> leave the long term analysis to hadoop.
>>>>>>=20
>>>>>>=20
>>>>>=20
>>>>>=20
>>>>>=20
>>>>> --=20
>>>>> Ari Rabkin asrabkin@gmail.com
>>>>> UC Berkeley Computer Science Department
>>>>=20
>>>=20
>>=20
>>=20
>=20


--Apple-Mail-16--964863226
Content-Transfer-Encoding: quoted-printable
Content-Type: text/html;
	charset=us-ascii

<html><head></head><body style=3D"word-wrap: break-word; =
-webkit-nbsp-mode: space; -webkit-line-break: after-white-space; =
">Jerome,<div><br></div><div>I would like to take a look at your =
partitioner if possible to see if it'll work for us. &nbsp; I am not =
sure what would be best to partition on. &nbsp;I am thinking a hash of =
the ChukwaArchiveKey.getTimePartition() would be a decent =
partitioner--but I'm still a noob so not sure of the criteria for a good =
paritioner.</div><div><br></div><div>Did you just modify&nbsp;<span =
class=3D"Apple-style-span" style=3D"font-family: Monaco; font-size: =
11px; ">ChukwaRecordPartitioner?</span></div><div><font =
class=3D"Apple-style-span" face=3D"Monaco" size=3D"3"><span =
class=3D"Apple-style-span" style=3D"font-size: =
11px;"><br></span></font></div><div><div><div>On May 11, 2010, at 12:37 =
PM, Jerome Boulon wrote:</div><br =
class=3D"Apple-interchange-newline"><blockquote type=3D"cite"><div>Hey =
Corbin,<br><br>What kind of partitioner do you need?<br>I'm using one =
based on a hashing function of the key.<br>Let me know if that would =
work for you?<br><br>Regarding the TeeWriter, I would like to also get =
feedback on it, Ari?<br><br>/Jerome.<br><br>On 5/11/10 11:24 AM, "Corbin =
Hoenes" &lt;<a href=3D"mailto:corbin@tynt.com">corbin@tynt.com</a>&gt; =
wrote:<br><br><blockquote type=3D"cite">Eric,<br></blockquote><blockquote =
type=3D"cite"><br></blockquote><blockquote type=3D"cite">Thanks you guys =
are spot on with your analysis of our demux issue--right =
now<br></blockquote><blockquote type=3D"cite">we have a single data =
type. &nbsp;We can probably split that into two =
different<br></blockquote><blockquote type=3D"cite">types later but =
still won't help much until the partitioning is =
either<br></blockquote><blockquote type=3D"cite">pluggable or somewhat =
configurable as CHUKWA-481 states.<br></blockquote><blockquote =
type=3D"cite"><br></blockquote><blockquote type=3D"cite">My questions =
about the Tee are more related to low latency requirements =
of<br></blockquote><blockquote type=3D"cite">creating more realtime like =
feeds of our data. &nbsp;My initial thought is that =
if<br></blockquote><blockquote type=3D"cite">I could get data out of =
hadoop in 10 or 5 minute intervals that it might =
be<br></blockquote><blockquote type=3D"cite">"good enough" for this so I =
was interested in speeding up demux a bit. =
&nbsp;But<br></blockquote><blockquote type=3D"cite">now I think the =
right thing will be using the Tee and getting the data into =
a<br></blockquote><blockquote type=3D"cite">different system to create =
these feeds and let hadoop handle the large =
scale<br></blockquote><blockquote type=3D"cite">analysis =
only.<br></blockquote><blockquote =
type=3D"cite"><br></blockquote><blockquote type=3D"cite">The Tee seems =
perfect...will have to try it out hoping to get feedback =
from<br></blockquote><blockquote type=3D"cite">people that are using it =
like this. &nbsp;Sounds like Ari does.<br></blockquote><blockquote =
type=3D"cite"><br></blockquote><blockquote type=3D"cite">On May 11, =
2010, at 12:03 PM, Eric Yang wrote:<br></blockquote><blockquote =
type=3D"cite"><br></blockquote><blockquote type=3D"cite"><blockquote =
type=3D"cite">Corbin,<br></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite">Multiple collectors will improve =
the mapper processing speed, but =
the<br></blockquote></blockquote><blockquote type=3D"cite"><blockquote =
type=3D"cite">reducer is still the long tail of the demux processing. It =
sounds like you<br></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite">have large amount of same type =
of data. &nbsp;It will definitely speed up =
your<br></blockquote></blockquote><blockquote type=3D"cite"><blockquote =
type=3D"cite">processing once CHUKWA-481 is =
addressed.<br></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote =
type=3D"cite">Regards,<br></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite">Eric =
<br></blockquote></blockquote><blockquote type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite">On 5/10/10 7:34 PM, "Corbin =
Hoenes" &lt;<a href=3D"mailto:corbin@tynt.com">corbin@tynt.com</a>&gt; =
wrote:<br></blockquote></blockquote><blockquote type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote type=3D"cite">We are =
processing apache log files. &nbsp;&nbsp;&nbsp;The current scale is =
70-80GB per<br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite">day...but we'd like it to have a story for scaling up to =
move. Just =
checking<br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote type=3D"cite">my =
collector logs it appears the data rate is still ranges from =
600KB-1.2<br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite">MB.<br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote type=3D"cite">This =
is all from one collector. &nbsp;Does your setup use multiple =
collectors?<br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite">My<br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote type=3D"cite">thought =
is that multiple collectors could be used to scale out once we =
reach<br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite">a<br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote type=3D"cite">data =
rate that caused issues for a single =
collector.<br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote type=3D"cite">Any =
chance you know where that data rate =
is?<br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote type=3D"cite">On May =
10, 2010, at 5:37 PM, Ariel Rabkin =
wrote:<br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite">That's how we use it at =
Berkeley, to process metrics from hundreds =
of<br></blockquote></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite">machines; total data rate less =
than a megabyte per second, =
though.<br></blockquote></blockquote></blockquote></blockquote><blockquote=
 type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite">What scale of data are you =
looking =
at?<br></blockquote></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote></blockquote></blockquote><blo=
ckquote type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite">The intent of SocketTee was if =
you need some subset of the data =
now,<br></blockquote></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite">while =
write-to-HDFS-and-process-with-Hadoop is still the default =
path.<br></blockquote></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite">What sort of low-latency =
processing do you =
need?<br></blockquote></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote></blockquote></blockquote><blo=
ckquote type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote =
type=3D"cite">--Ari<br></blockquote></blockquote></blockquote></blockquote=
><blockquote type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote></blockquote></blockquote><blo=
ckquote type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite">On Mon, May 10, 2010 at 4:28 PM, =
Corbin Hoenes &lt;<a =
href=3D"mailto:corbin@tynt.com">corbin@tynt.com</a>&gt; =
wrote:<br></blockquote></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote type=3D"cite">Has =
anyone used the "Tee" in a larger scale deployment to try to =
get<br></blockquote></blockquote></blockquote></blockquote></blockquote><b=
lockquote type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite">real-time/low latency data? &nbsp;Interested in how =
feasible it would be to =
use<br></blockquote></blockquote></blockquote></blockquote></blockquote><b=
lockquote type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote type=3D"cite">it to =
pipe data into another system to handle these low latency =
requests<br></blockquote></blockquote></blockquote></blockquote></blockquo=
te><blockquote type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite">and<br></blockquote></blockquote></blockquote></blockquote><=
/blockquote><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite">leave the long term analysis to =
hadoop.<br></blockquote></blockquote></blockquote></blockquote></blockquot=
e><blockquote type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote></blockquote></blockquote></bl=
ockquote><blockquote type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote></blockquote></blockquote></bl=
ockquote><blockquote type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote></blockquote></blockquote><blo=
ckquote type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote></blockquote></blockquote><blo=
ckquote type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote></blockquote></blockquote><blo=
ckquote type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite">-- =
<br></blockquote></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite">Ari Rabkin <a =
href=3D"mailto:asrabkin@gmail.com">asrabkin@gmail.com</a><br></blockquote>=
</blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><blockquote type=3D"cite">UC Berkeley Computer Science =
Department<br></blockquote></blockquote></blockquote></blockquote><blockqu=
ote type=3D"cite"><blockquote type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote></blockquote><blockquote =
type=3D"cite"><blockquote =
type=3D"cite"><br></blockquote></blockquote><blockquote =
type=3D"cite"><br></blockquote><blockquote =
type=3D"cite"><br></blockquote><br></div></blockquote></div><br></div></bo=
dy></html>=

--Apple-Mail-16--964863226--