From user-return-22619-archive-asf-public=cust-asf.ponee.io@flink.apache.org  Tue Sep  4 07:22:12 2018
Return-Path: <user-return-22619-archive-asf-public=cust-asf.ponee.io@flink.apache.org>
X-Original-To: archive-asf-public@cust-asf.ponee.io
Delivered-To: archive-asf-public@cust-asf.ponee.io
Received: from mail.apache.org (hermes.apache.org [140.211.11.3])
	by mx-eu-01.ponee.io (Postfix) with SMTP id A60FE180629
	for <archive-asf-public@cust-asf.ponee.io>; Tue,  4 Sep 2018 07:22:11 +0200 (CEST)
Received: (qmail 77732 invoked by uid 500); 4 Sep 2018 05:22:10 -0000
Mailing-List: contact user-help@flink.apache.org; run by ezmlm
Precedence: bulk
List-Help: <mailto:user-help@flink.apache.org>
List-Unsubscribe: <mailto:user-unsubscribe@flink.apache.org>
List-Post: <mailto:user@flink.apache.org>
List-Id: <user.flink.apache.org>
Delivered-To: mailing list user@flink.apache.org
Received: (qmail 77722 invoked by uid 99); 4 Sep 2018 05:22:10 -0000
Received: from pnap-us-west-generic-nat.apache.org (HELO spamd4-us-west.apache.org) (209.188.14.142)
    by apache.org (qpsmtpd/0.29) with ESMTP; Tue, 04 Sep 2018 05:22:10 +0000
Received: from localhost (localhost [127.0.0.1])
	by spamd4-us-west.apache.org (ASF Mail Server at spamd4-us-west.apache.org) with ESMTP id 08512C057F
	for <user@flink.apache.org>; Tue,  4 Sep 2018 05:22:10 +0000 (UTC)
X-Virus-Scanned: Debian amavisd-new at spamd4-us-west.apache.org
X-Spam-Flag: NO
X-Spam-Score: 1.969
X-Spam-Level: *
X-Spam-Status: No, score=1.969 tagged_above=-999 required=6.31
	tests=[DKIM_SIGNED=0.1, DKIM_VALID=-0.1, HTML_MESSAGE=2,
	RCVD_IN_DNSWL_NONE=-0.0001, RCVD_IN_MSPIKE_H3=-0.01,
	RCVD_IN_MSPIKE_WL=-0.01, SPF_PASS=-0.001, T_DKIMWL_WL_MED=-0.01]
	autolearn=disabled
Authentication-Results: spamd4-us-west.apache.org (amavisd-new);
	dkim=pass (2048-bit key)
	header.d=data-artisans-com.20150623.gappssmtp.com
Received: from mx1-lw-us.apache.org ([10.40.0.8])
	by localhost (spamd4-us-west.apache.org [10.40.0.11]) (amavisd-new, port 10024)
	with ESMTP id mxfZza8y9dhy for <user@flink.apache.org>;
	Tue,  4 Sep 2018 05:22:08 +0000 (UTC)
Received: from mail-it0-f51.google.com (mail-it0-f51.google.com [209.85.214.51])
	by mx1-lw-us.apache.org (ASF Mail Server at mx1-lw-us.apache.org) with ESMTPS id 102945F1B3
	for <user@flink.apache.org>; Tue,  4 Sep 2018 05:22:08 +0000 (UTC)
Received: by mail-it0-f51.google.com with SMTP id u13-v6so3318649iti.1
        for <user@flink.apache.org>; Mon, 03 Sep 2018 22:22:08 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
        d=data-artisans-com.20150623.gappssmtp.com; s=20150623;
        h=mime-version:in-reply-to:references:from:date:message-id:subject:to
         :cc;
        bh=UB9L0IOYNGrz3dl57u9jT790PeVjuVghNeFhxPdWg3Y=;
        b=vUxqW05Om1K+pUGRabdRJFSgNCbWxTgnWL4JC/3FYnh3B8qvHDL91lUqTfa1DX03vg
         ZVzUknR/KMkg35M3A0lNpoPUwo/VgUkfyOcFn/xzD4l7a9l/Grp91s657GaH/7WOOGVm
         YzfmCzbQBAwG5+OStY3LBtO6G0o5oPbiHaEjb+oBJGmQ8/5XjWe2ktLAIfux6ksq4BV8
         BkxkQV+clghTHhANHQ3bRAxoVgT491W6t6fIvAbN4GVB7m/VyomVL3PUy0jkxun0WtXy
         gWnjJO5kHnJ040p6qS60Eyh8YqLO9SesHwKiDzmszLVMPUaC9CxAoI8sNBwZMV39MWtt
         YviQ==
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
        d=1e100.net; s=20161025;
        h=x-gm-message-state:mime-version:in-reply-to:references:from:date
         :message-id:subject:to:cc;
        bh=UB9L0IOYNGrz3dl57u9jT790PeVjuVghNeFhxPdWg3Y=;
        b=kZ7VEpHAKHDJfrXk8Dp2iQWgXxLzmzP46mOdz/7vWCyyW/urqi4hwKFf7VN33pFnXP
         YMQYuHL7UVIRIXrwvN7TtsrCTcuEnrko4aTkAb9NGrne2dd8VAh1KuT6kttZhGo07MM0
         les1RSVjMrFEsfyNiM0yjoNIQBzHcyjFptNKohqiGP+UxmuOP93vBWu6e3ptffW2ncto
         Ay6dfT92IcIR/szXsQcY1N0M8ZDjnQZwc615c4lTua4HNzzff/ak8OZs19yZI9X2naz/
         nzgHoxRsoKftdkA1wOCbrFO9NL95VGB3OyaV0Qbv8+Ru03Q03kGsPX4A8T5rlB5gaDNa
         MIrg==
X-Gm-Message-State: APzg51DsZapahzMsxW0hqDKd7Asn3Uz2q9Atf4OsjjxOTSpdmeFEgs0q
	ED5hBg059qw1CfQ22rSvC11mz9i5xRKlT5Ts544bNw==
X-Google-Smtp-Source: ANB0VdaUw2I5klmkeVcUdiSQdBEDkxLRqA09ux5142YbdBvDQI9nzvJtC9lFqJtCgepOrdsnP+MTm+FBDzk2623yRDw=
X-Received: by 2002:a24:4d8d:: with SMTP id l135-v6mr7244670itb.49.1536038527466;
 Mon, 03 Sep 2018 22:22:07 -0700 (PDT)
MIME-Version: 1.0
Received: by 2002:ac0:aeb0:0:0:0:0:0 with HTTP; Mon, 3 Sep 2018 22:22:06 -0700 (PDT)
In-Reply-To: <4B828566-FA46-4425-9C54-0B4C59808D38@coupang.com>
References: <713A5FF5-1984-42B8-A24B-974CAA441FCE@coupang.com>
 <CAC2R294DV142WWqbyg41Eeq0sg8PZm3Mf4LnJ4Cq4gGJt+VP+Q@mail.gmail.com>
 <DD27CFF6-F043-49B8-9B57-EFC670E1B218@coupang.com> <4B828566-FA46-4425-9C54-0B4C59808D38@coupang.com>
From: Gary Yao <gary@data-artisans.com>
Date: Tue, 4 Sep 2018 07:22:06 +0200
Message-ID: <CAC2R296S0hkkdZu-g20ZNVNRFhgOg6Jj3XeKw4d9PvZXuhrcyQ@mail.gmail.com>
Subject: Re: Flink on Yarn, restart job will not destroy original task manager
To: "James (Jian Wu) [FDS Data Platform]" <james.wu@coupang.com>
Cc: "user@flink.apache.org" <user@flink.apache.org>
Content-Type: multipart/alternative; boundary="000000000000ca95ae057504d6ee"

--000000000000ca95ae057504d6ee
Content-Type: text/plain; charset="UTF-8"
Content-Transfer-Encoding: quoted-printable

Hi James,

Local recovery is disabled by default. You do not need to configure anythin=
g
in addition.

Did you run into problems again or does it work now? If you are stil
experiencing task spread out, can you configure logging on DEBUG level, and
share the jobmanager logs with us?

Best,
Gary

On Tue, Sep 4, 2018 at 5:42 AM, James (Jian Wu) [FDS Data Platform] <
james.wu@coupang.com> wrote:

> Hi Gary:
>
>
>
> From 1.5/1.6 document:
>
>
>
> Configuring task-local recovery
>
> Task-local recovery is *deactivated by default* and can be activated
> through Flink=E2=80=99s configuration with the key state.backend.local-re=
covery as
> specified in CheckpointingOptions.LOCAL_RECOVERY. The value for this
> setting can either be *true* to enable or *false*(default) to disable
> local recovery.
>
>
>
> By default, local recovery is deactive. In 1.5.0, I=E2=80=99ve not enable=
 local
> recovery.
>
>
>
> So whether I need manual disable local recovery via flink.conf?
>
>
>
> Regards
>
>
>
> James
>
>
>
> *From: *"James (Jian Wu) [FDS Data Platform]" <james.wu@coupang.com>
> *Date: *Monday, September 3, 2018 at 4:13 PM
> *To: *Gary Yao <gary@data-artisans.com>
>
> *Cc: *"user@flink.apache.org" <user@flink.apache.org>
> *Subject: *Re: Flink on Yarn, restart job will not destroy original task
> manager
>
>
>
> My Flink version is 1.5, I will rebuild new version flink
>
>
>
> Regards
>
>
>
> James
>
>
>
> *From: *Gary Yao <gary@data-artisans.com>
> *Date: *Monday, September 3, 2018 at 3:57 PM
> *To: *"James (Jian Wu) [FDS Data Platform]" <james.wu@coupang.com>
> *Cc: *"user@flink.apache.org" <user@flink.apache.org>
> *Subject: *Re: Flink on Yarn, restart job will not destroy original task
> manager
>
>
>
> Hi James,
>
> What version of Flink are you running? In 1.5.0, tasks can spread out due
> to
> changes that were introduced to support "local recovery". There is a
> mitigation in 1.5.1 that prevents task spread out but local recovery must
> be
> disabled [2].
>
> Best,
> Gary
>
> [1] https://issues.apache.org/jira/browse/FLINK-9635
> [2] https://issues.apache.org/jira/browse/FLINK-9634
>
>
>
> On Mon, Sep 3, 2018 at 9:20 AM, James (Jian Wu) [FDS Data Platform] <
> james.wu@coupang.com> wrote:
>
> Hi:
>
>
>
>   I launch flink application on yarn with 5 task manager, every task
> manager has 5 slots with such script
>
>
>
> #!/bin/sh
>
> CLASSNAME=3D$1
>
> JARNAME=3D$2
>
> ARUGMENTS=3D$3
>
>
>
> export JVM_ARGS=3D"${JVM_ARGS} -Dmill.env.active=3Daws"
>
> /usr/bin/flink run -m yarn-cluster --parallelism 15  -yn 5 -ys 3 -yjm 819=
2
> -ytm 8192  -ynm flink-order-detection -yD env.java.opts.jobmanager=3D'-Dm=
ill.env.active=3Daws'
> -yD env.java.opts.taskmanager=3D'-Dmill.env.active=3Daws'  -c $CLASSNAME =
  \
>
> $JARNAME $ARUGMENTS
>
>
>
>
>
> The original flink app occupy 5 containers and 15 vcores, run for 3+ days=
,
> one of task manage killed by yarn because of memory leak and job manager
> start new task managers. Currently my flink app running normally on yarn,
>  but occupy 10 containers, 28 vcores. (Application Master shows my flink
> job running for 75 hours, click into running job in flink web ui, it show=
s
> my job running for 28hours because of restart)
>
>
>
> In my opinion, job manager will attempt to start the failed task manager,
> and in the final app still use 5 containers and 15 vcores, why after
> restart job by yarn will occupy double resource.
>
>
>
> Any one can give me some suggestion?
>
>
>
> Regards
>
>
>
> James
>
>
>

--000000000000ca95ae057504d6ee
Content-Type: text/html; charset="UTF-8"
Content-Transfer-Encoding: quoted-printable

<div dir=3D"ltr"><div dir=3D"ltr"><div dir=3D"ltr"><div dir=3D"ltr"><div di=
r=3D"ltr"><div dir=3D"ltr">Hi James,<br><br>Local recovery is disabled by d=
efault. You do not need to configure anything<br>in addition.<br><br>Did yo=
u run into problems again or does it work now? If you are stil<br>experienc=
ing task spread out, can you configure logging on DEBUG level, and<br>share=
 the jobmanager logs with us?<br><br>Best,<br>Gary<br></div></div><div clas=
s=3D"gmail_extra"><br><div class=3D"gmail_quote">On Tue, Sep 4, 2018 at 5:4=
2 AM, James (Jian Wu) [FDS Data Platform] <span dir=3D"ltr">&lt;<a href=3D"=
mailto:james.wu@coupang.com" target=3D"_blank">james.wu@coupang.com</a>&gt;=
</span> wrote:<br><blockquote class=3D"gmail_quote" style=3D"margin:0px 0px=
 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">


<div bgcolor=3D"white" lang=3D"EN-US">
<div class=3D"gmail-m_560956901579199567WordSection1">
<p class=3D"MsoNormal">Hi Gary:<u></u><u></u></p>
<p class=3D"MsoNormal"><u></u>=C2=A0<u></u></p>
<p class=3D"MsoNormal" style=3D"text-indent:11.25pt">From 1.5/1.6 document:=
<u></u><u></u></p>
<p class=3D"MsoNormal" style=3D"text-indent:11.25pt"><u></u>=C2=A0<u></u></=
p>
<p class=3D"MsoNormal" style=3D"text-indent:11.25pt">Configuring task-local=
 recovery<u></u><u></u></p>
<p class=3D"MsoNormal" style=3D"text-indent:11.25pt">Task-local recovery is=
=C2=A0<i>deactivated by default</i>=C2=A0and can be activated through Flink=
=E2=80=99s configuration with the key=C2=A0state.backend.local-<wbr>recover=
y=C2=A0as specified in=C2=A0CheckpointingOptions.LOCAL_<wbr>RECOVERY. The v=
alue
 for this setting can either be=C2=A0<i>true</i>=C2=A0to enable or=C2=A0<i>=
false</i>(default) to disable local recovery.<u></u><u></u></p>
<p class=3D"MsoNormal" style=3D"text-indent:11.25pt"><u></u>=C2=A0<u></u></=
p>
<p class=3D"MsoNormal" style=3D"text-indent:11.25pt">By default, local reco=
very is deactive. In 1.5.0, I=E2=80=99ve not enable local recovery.<u></u><=
u></u></p>
<p class=3D"MsoNormal" style=3D"text-indent:11.25pt"><u></u>=C2=A0<u></u></=
p>
<p class=3D"MsoNormal" style=3D"text-indent:11.25pt">So whether I need manu=
al disable local recovery via flink.conf?<u></u><u></u></p>
<p class=3D"MsoNormal" style=3D"text-indent:11.25pt"><u></u>=C2=A0<u></u></=
p>
<p class=3D"MsoNormal" style=3D"text-indent:11.25pt">Regards<u></u><u></u><=
/p>
<p class=3D"MsoNormal" style=3D"text-indent:11.25pt"><u></u>=C2=A0<u></u></=
p>
<p class=3D"MsoNormal" style=3D"text-indent:11.25pt">James <u></u><u></u></=
p>
<p class=3D"MsoNormal"><u></u>=C2=A0<u></u></p>
<div style=3D"border-color:rgb(181,196,223) currentcolor currentcolor;borde=
r-style:solid none none;border-width:1pt medium medium;padding:3pt 0in 0in"=
>
<p class=3D"MsoNormal"><b><span style=3D"font-size:12pt;color:black">From: =
</span></b><span style=3D"font-size:12pt;color:black">&quot;James (Jian Wu)=
 [FDS Data Platform]&quot; &lt;<a href=3D"mailto:james.wu@coupang.com" targ=
et=3D"_blank">james.wu@coupang.com</a>&gt;<br>
<b>Date: </b>Monday, September 3, 2018 at 4:13 PM<br>
<b>To: </b>Gary Yao &lt;<a href=3D"mailto:gary@data-artisans.com" target=3D=
"_blank">gary@data-artisans.com</a>&gt;</span></p><div><div class=3D"gmail-=
h5"><br>
<b>Cc: </b>&quot;<a href=3D"mailto:user@flink.apache.org" target=3D"_blank"=
>user@flink.apache.org</a>&quot; &lt;<a href=3D"mailto:user@flink.apache.or=
g" target=3D"_blank">user@flink.apache.org</a>&gt;<br>
<b>Subject: </b>Re: Flink on Yarn, restart job will not destroy original ta=
sk manager<u></u><u></u></div></div><p></p>
</div><div><div class=3D"gmail-h5">
<div>
<p class=3D"MsoNormal"><u></u>=C2=A0<u></u></p>
</div>
<p class=3D"MsoNormal">My Flink version is 1.5, I will rebuild new version =
flink<u></u><u></u></p>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
<p class=3D"MsoNormal">Regards<u></u><u></u></p>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
<p class=3D"MsoNormal">James<u></u><u></u></p>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
<div style=3D"border-color:rgb(181,196,223) currentcolor currentcolor;borde=
r-style:solid none none;border-width:1pt medium medium;padding:3pt 0in 0in"=
>
<p class=3D"MsoNormal"><b><span style=3D"font-size:12pt;color:black">From: =
</span></b><span style=3D"font-size:12pt;color:black">Gary Yao &lt;<a href=
=3D"mailto:gary@data-artisans.com" target=3D"_blank">gary@data-artisans.com=
</a>&gt;<br>
<b>Date: </b>Monday, September 3, 2018 at 3:57 PM<br>
<b>To: </b>&quot;James (Jian Wu) [FDS Data Platform]&quot; &lt;<a href=3D"m=
ailto:james.wu@coupang.com" target=3D"_blank">james.wu@coupang.com</a>&gt;<=
br>
<b>Cc: </b>&quot;<a href=3D"mailto:user@flink.apache.org" target=3D"_blank"=
>user@flink.apache.org</a>&quot; &lt;<a href=3D"mailto:user@flink.apache.or=
g" target=3D"_blank">user@flink.apache.org</a>&gt;<br>
<b>Subject: </b>Re: Flink on Yarn, restart job will not destroy original ta=
sk manager</span><u></u><u></u></p>
</div>
<div>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
</div>
<div>
<div>
<p class=3D"MsoNormal">Hi James,<br>
<br>
What version of Flink are you running? In 1.5.0, tasks can spread out due t=
o<br>
changes that were introduced to support &quot;local recovery&quot;. There i=
s a<br>
mitigation in 1.5.1 that prevents task spread out but local recovery must b=
e<br>
disabled [2].<br>
<br>
Best,<br>
Gary<br>
<br>
[1] <a href=3D"https://issues.apache.org/jira/browse/FLINK-9635" target=3D"=
_blank">https://issues.apache.org/<wbr>jira/browse/FLINK-9635</a><br>
[2] <a href=3D"https://issues.apache.org/jira/browse/FLINK-9634" target=3D"=
_blank">https://issues.apache.org/<wbr>jira/browse/FLINK-9634</a><u></u><u>=
</u></p>
</div>
</div>
<div>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
<div>
<p class=3D"MsoNormal">On Mon, Sep 3, 2018 at 9:20 AM, James (Jian Wu) [FDS=
 Data Platform] &lt;<a href=3D"mailto:james.wu@coupang.com" target=3D"_blan=
k">james.wu@coupang.com</a>&gt; wrote:<u></u><u></u></p>
<blockquote style=3D"border-color:currentcolor currentcolor currentcolor rg=
b(204,204,204);border-style:none none none solid;border-width:medium medium=
 medium 1pt;padding:0in 0in 0in 6pt;margin:5pt 0in 5pt 4.8pt">
<div>
<div>
<p class=3D"MsoNormal">Hi:<u></u><u></u></p>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
<p class=3D"MsoNormal">=C2=A0 I launch flink application on yarn with 5 tas=
k manager, every task manager has 5 slots with such script<u></u><u></u></p=
>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
<p class=3D"MsoNormal">#!/bin/sh<u></u><u></u></p>
<p class=3D"MsoNormal">CLASSNAME=3D$1<u></u><u></u></p>
<p class=3D"MsoNormal">JARNAME=3D$2<u></u><u></u></p>
<p class=3D"MsoNormal">ARUGMENTS=3D$3<u></u><u></u></p>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
<p class=3D"MsoNormal">export JVM_ARGS=3D&quot;${JVM_ARGS} -Dmill.env.activ=
e=3Daws&quot;<u></u><u></u></p>
<p class=3D"MsoNormal">/usr/bin/flink run -m yarn-cluster --parallelism 15=
=C2=A0 -yn 5 -ys 3 -yjm 8192 -ytm 8192=C2=A0 -ynm flink-order-detection -yD=
 env.java.opts.jobmanager=3D&#39;-<wbr>Dmill.env.active=3Daws&#39;=C2=A0 -y=
D env.java.opts.taskmanager=3D&#39;-<wbr>Dmill.env.active=3Daws&#39;=C2=A0
 -c $CLASSNAME=C2=A0=C2=A0 \<u></u><u></u></p>
<p class=3D"MsoNormal">$JARNAME $ARUGMENTS<u></u><u></u></p>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
<p class=3D"MsoNormal">The original flink app occupy 5 containers and 15 vc=
ores, run for 3+ days, one of task manage killed by yarn because of memory =
leak and job manager start new task managers. Currently
 my flink app running normally on yarn, =C2=A0but occupy 10 containers, 28 =
vcores. (Application Master shows my flink job running for 75 hours, click =
into running job in flink web ui, it shows my job running for 28hours becau=
se of restart)<u></u><u></u></p>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
<p class=3D"MsoNormal">In my opinion, job manager will attempt to start the=
 failed task manager, and in the final app still use 5 containers and 15 vc=
ores, why after restart job by yarn will occupy double
 resource. <u></u><u></u></p>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
<p class=3D"MsoNormal">Any one can give me some suggestion?<u></u><u></u></=
p>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
<p class=3D"MsoNormal">Regards<u></u><u></u></p>
<p class=3D"MsoNormal"><span style=3D"color:rgb(136,136,136)">=C2=A0</span>=
<u></u><u></u></p>
<p class=3D"MsoNormal"><span style=3D"color:rgb(136,136,136)">James</span><=
u></u><u></u></p>
</div>
</div>
</blockquote>
</div>
<p class=3D"MsoNormal">=C2=A0<u></u><u></u></p>
</div>
</div></div></div>
</div>

</blockquote></div><br></div></div></div></div></div>

--000000000000ca95ae057504d6ee--