Mailing-List: contact user-help@gobblin.incubator.apache.org; run by ezmlm
Precedence: bulk
Reply-To: user@gobblin.incubator.apache.org
From: Hung Tran <hutran@linkedin.com>
To: "user@gobblin.incubator.apache.org" <user@gobblin.incubator.apache.org>,
	"dev@gobblin.incubator.apache.org" <dev@gobblin.incubator.apache.org>
Subject: Re: Corrupted state file when Jobs are being run in parallel.
Thread-Topic: Corrupted state file when Jobs are being run in parallel.
Thread-Index: AQHTWvVH7nDFW0zd3Eum7kNDOrpRd6MPugfR
Date: Sat, 11 Nov 2017 22:02:19 +0000
Message-ID: <DM5PR2101MB08054452805A80E27D3AA081A7550@DM5PR2101MB0805.namprd21.prod.outlook.com>
References: <CAPaCpY-5eK5tMGrCHLp4jzTRw-izV3JDEWtDczdPkCS2zEvdzA@mail.gmail.com>
In-Reply-To: <CAPaCpY-5eK5tMGrCHLp4jzTRw-izV3JDEWtDczdPkCS2zEvdzA@mail.gmail.com>
Accept-Language: en-US
Content-Language: en-US
received-spf: None (protection.outlook.com: linkedin.com does not designate
 permitted sender hosts)
spamdiagnosticoutput: 1:99
spamdiagnosticmetadata: NSPM
Content-Type: multipart/alternative;
	boundary="_000_DM5PR2101MB08054452805A80E27D3AA081A7550DM5PR2101MB0805_"
MIME-Version: 1.0
X-MS-Exchange-CrossTenant-Network-Message-Id: 661d9f87-3729-42d6-427e-08d5294fe0cc
X-MS-Exchange-CrossTenant-originalarrivaltime: 11 Nov 2017 22:02:19.1868
 (UTC)
X-MS-Exchange-CrossTenant-fromentityheader: Hosted
X-MS-Exchange-CrossTenant-id: 72f988bf-86f1-41af-91ab-2d7cd011db47
X-MS-Exchange-Transport-CrossTenantHeadersStamped: DM5PR2101MB0805
archived-at: Sat, 11 Nov 2017 22:02:48 -0000

--_000_DM5PR2101MB08054452805A80E27D3AA081A7550DM5PR2101MB0805_
Content-Type: text/plain; charset="us-ascii"
Content-Transfer-Encoding: quoted-printable

Hi Vicky,


What's the underlying file system you are using?


Have you checked to make sure there are not multiple instances of the job r=
unning concurrently or make use of the job lock?


Also, the state store and state are separate things. You can still pass sta=
te from the source to the extractor without the state store enabled. The st=
ate store is used to transfer state across executions, like cases where a w=
atermark is used to resume an incremental pull.


Hung.

________________________________
From: Vicky Kak <vicky.kak@gmail.com>
Sent: Saturday, November 11, 2017 5:58:59 AM
To: user@gobblin.incubator.apache.org; dev@gobblin.incubator.apache.org
Subject: Corrupted state file when Jobs are being run in parallel.

Hi Guys,

I have been running the stress tests and am seeing the following errors

Error 1
***************************************************************************=
******************************************************
017-11-11 11:20:56 UTC INFO  [pool-11-thread-421]
org.apache.hadoop.fs.FSInputChecker  284 - Found checksum error: b[0,
512]=3D53455106196f72672e6170616368652e6861646f6f702e696f2e5465787425676f62=
626c696e2e72756e74696d652e4a6f6253746174652444617461736574537461746501012a6=
f72672e6170616368652e6861646f6f702e696f2e636f6d70726573732e44656661756c7443=
6f6465630000000044e218b9e6aad3f1aa97f2210fb5c7f0ffffffff44e218b9e6aad3f1aa9=
7f2210fb5c7f00109789c6304000002000209789c630000000100010b789cebb3d502000251=
00f68e0ab4789ced5b7b73dbc611971c3b8d5ff233b6d324ad861337e9d804013e445169264=
3d1924c51a26489962da71ece013890270238f870904479fc1592ffdb4fd1e9f4b364a6dfa3=
ff770f0fbe244384eca6c998d2f081bbddc5deede2f6777bcbcf974da275d8266ae1a543ce9=
0c629dbf44cb3a9e48ae93daa3663fa9b4a419195ac5c2a147373a5a9a9e9e6df4adf3c0a3e=
e7ff39e5ff5da7172b1bebebd54663097aa6a6c52b995c9923b7333e79530e15f93954e41f8=
122d7fe0d6f8f6fe0805bb291855d0769f8aee14b961c102da17d4625576b630b5d7ae561d6=
954c64b7ce75d81742098639b4f036c348772835250b1dbae4084f672fba1c1a2d89e85f159=
031870d944fe7545d4be70b46313d5f9071ba24e772459445322aea331479bc2df96f1e33bf=
6d73eeb80b998c4d74506c1f3349a356c627ca4a72467c520637fa9e
org.apache.hadoop.fs.ChecksumException: Checksum error:
file:/home/Installable/gobblin-dist/working-dir/state-store/FlickrPageExtra=
ctorPull_137/current.jst
at 0 exp: 36820587 got: 91149211
        at
org.apache.hadoop.fs.FSInputChecker.verifySums(FSInputChecker.java:322)
        at
org.apache.hadoop.fs.FSInputChecker.readChecksumChunk(FSInputChecker.java:2=
78)
        at org.apache.hadoop.fs.FSInputChecker.fill(FSInputChecker.java:213=
)
        at
org.apache.hadoop.fs.FSInputChecker.read1(FSInputChecker.java:231)
        at org.apache.hadoop.fs.FSInputChecker.read(FSInputChecker.java:195=
)
        at java.io.DataInputStream.readFully(DataInputStream.java:195)
        at java.io.DataInputStream.readFully(DataInputStream.java:169)
        at
org.apache.hadoop.io.SequenceFile$Reader.init(SequenceFile.java:1845)
        at
org.apache.hadoop.io.SequenceFile$Reader.initialize(SequenceFile.java:1810)
        at
org.apache.hadoop.io.SequenceFile$Reader.<init>(SequenceFile.java:1759)
        at
org.apache.hadoop.io.SequenceFile$Reader.<init>(SequenceFile.java:1773)
        at
gobblin.runtime.FsDatasetStateStore.getAll(FsDatasetStateStore.java:119)
        at
gobblin.runtime.FsDatasetStateStore.getLatestDatasetStatesByUrns(FsDatasetS=
tateStore.java:173)
        at gobblin.runtime.JobContext.<init>(JobContext.java:136)
        at
gobblin.runtime.AbstractJobLauncher.<init>(AbstractJobLauncher.java:131)
        at
gobblin.runtime.local.LocalJobLauncher.<init>(LocalJobLauncher.java:62)
        at
gobblin.runtime.JobLauncherFactory.newJobLauncher(JobLauncherFactory.java:8=
0)
        at
gobblin.runtime.JobLauncherFactory.newJobLauncher(JobLauncherFactory.java:5=
9)
        at com.bph.JobLauncherResource.search(JobLauncherResource.java:107)
        at sun.reflect.GeneratedMethodAccessor8.invoke(Unknown Source)
        at
sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImp=
l.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at
com.linkedin.restli.internal.server.RestLiMethodInvoker.doInvoke(RestLiMeth=
odInvoker.java:186)
        at
com.linkedin.restli.internal.server.RestLiMethodInvoker.invoke(RestLiMethod=
Invoker.java:141)
        at
com.linkedin.restli.server.RestLiServer.handleResourceRequest(RestLiServer.=
java:286)
        at
com.linkedin.restli.server.RestLiServer.doHandleRequest(RestLiServer.java:1=
67)
        at
com.linkedin.restli.server.BaseRestServer.handleRequest(BaseRestServer.java=
:56)
        at
com.linkedin.restli.server.DelegatingTransportDispatcher.handleRestRequest(=
DelegatingTransportDispatcher.java:56)
        at
com.linkedin.r2.filter.transport.DispatcherRequestFilter.onRestRequest(Disp=
atcherRequestFilter.java:81)
        at
com.linkedin.r2.filter.FilterChainImpl$RestRequestFilterAdapter.onRequest(F=
ilterChainImpl.java:328)
        at
com.linkedin.r2.filter.ComposedFilter.onRequest(ComposedFilter.java:55)
        at
com.linkedin.r2.filter.FilterChainIterator.onRequest(FilterChainIterator.ja=
va:50)
        at
com.linkedin.r2.filter.compression.ServerCompressionFilter.onRestRequest(Se=
rverCompressionFilter.java:126)
        at
com.linkedin.r2.filter.FilterChainImpl$RestRequestFilterAdapter.onRequest(F=
ilterChainImpl.java:328)
        at
com.linkedin.r2.filter.ComposedFilter.onRequest(ComposedFilter.java:55)
        at
com.linkedin.r2.filter.FilterChainIterator.onRequest(FilterChainIterator.ja=
va:50)
        at
com.linkedin.r2.filter.ComposedFilter.onRequest(ComposedFilter.java:59)
        at
com.linkedin.r2.filter.FilterChainIterator.onRequest(FilterChainIterator.ja=
va:50)
        at
com.linkedin.r2.filter.FilterChainImpl.onRestRequest(FilterChainImpl.java:1=
03)
        at
com.linkedin.r2.filter.transport.FilterChainDispatcher.handleRestRequest(Fi=
lterChainDispatcher.java:74)
        at
com.linkedin.r2.transport.http.server.HttpDispatcher.handleRequest(HttpDisp=
atcher.java:95)
        at
com.linkedin.r2.transport.http.server.HttpDispatcher.handleRequest(HttpDisp=
atcher.java:62)
        at
com.linkedin.r2.transport.http.server.HttpNettyServer$Handler.messageReceiv=
ed(HttpNettyServer.java:171)
        at
org.jboss.netty.channel.SimpleChannelUpstreamHandler.handleUpstream(SimpleC=
hannelUpstreamHandler.java:80)
        at
org.jboss.netty.channel.DefaultChannelPipeline.sendUpstream(DefaultChannelP=
ipeline.java:545)
        at
org.jboss.netty.channel.DefaultChannelPipeline$DefaultChannelHandlerContext=
.sendUpstream(DefaultChannelPipeline.java:754)
        at
org.jboss.netty.handler.execution.ChannelEventRunnable.run(ChannelEventRunn=
able.java:69)
        at
org.jboss.netty.handler.execution.OrderedMemoryAwareThreadPoolExecutor$Chil=
dExecutor.run(OrderedMemoryAwareThreadPoolExecutor.java:316)
        at
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1=
142)
        at
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:=
617)
        at java.lang.Thread.run(Thread.java:745)
2017-11-11 11:20:56 UTC ERROR [pool-11-thread-421]
com.bph.JobLauncherResource  110 -  Job Id fk_137 failed while searching
key beryls Failed to create job launcher:
org.apache.hadoop.fs.ChecksumException: Checksum error:
file:/home/Installable/gobblin-dist/working-dir/state-store/FlickrPageExtra=
ctorPull_137/current.jst
at 0 exp: 36820587 got: 91149211
2017-11-11 11:20:56 UTC INFO  [pool-11-thread-402]
gobblin.util.ExecutorsUtils  125 - Attempting to shutdown ExecutorService:
java.util.concurrent.ThreadPoolExecutor@6bce96a5[Shutting down, pool size =
=3D
1, active threads =3D 0, queued tasks =3D 0, completed tasks =3D 1]
2017-11-11 11:20:56 UTC INFO  [pool-11-thread-402]
gobblin.util.ExecutorsUtils  144 - Successfully shutdown ExecutorService:
java.util.concurrent.ThreadPoolExecutor@6bce96a5[Terminated, pool size =3D =
0,
active threads =3D 0, queued tasks =3D 0, completed tasks =3D 1]

***************************************************************************=
******************************************************

Error 2:
***************************************************************************=
******************************************************

2017-11-10 10:24:10 UTC WARN  [pool-11-thread-13]
org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSInputChecker  154 -
Problem opening checksum file:
file:/home/Installable/gobblin-dist/working-dir/state-store/YoutubePageExtr=
actorPull_138/current.jst.
Ignoring exception:
java.io.EOFException
        at java.io.DataInputStream.readFully(DataInputStream.java:197)
        at java.io.DataInputStream.readFully(DataInputStream.java:169)
        at
org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSInputChecker.<init>(Check=
sumFileSystem.java:146)
        at
org.apache.hadoop.fs.ChecksumFileSystem.open(ChecksumFileSystem.java:339)
        at
org.apache.hadoop.io.SequenceFile$Reader.openFile(SequenceFile.java:1832)
        at
org.apache.hadoop.io.SequenceFile$Reader.<init>(SequenceFile.java:1752)
        at
org.apache.hadoop.io.SequenceFile$Reader.<init>(SequenceFile.java:1773)
        at
gobblin.runtime.FsDatasetStateStore.getAll(FsDatasetStateStore.java:119)
        at
gobblin.runtime.FsDatasetStateStore.getLatestDatasetStatesByUrns(FsDatasetS=
tateStore.java:173)
        at gobblin.runtime.JobContext.<init>(JobContext.java:136)
        at
gobblin.runtime.AbstractJobLauncher.<init>(AbstractJobLauncher.java:131)
        at
gobblin.runtime.local.LocalJobLauncher.<init>(LocalJobLauncher.java:62)
        at
gobblin.runtime.JobLauncherFactory.newJobLauncher(JobLauncherFactory.java:8=
0)
        at
gobblin.runtime.JobLauncherFactory.newJobLauncher(JobLauncherFactory.java:5=
9)
        at com.bph.JobLauncherResource.search(JobLauncherResource.java:107)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at
sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:6=
2)
        at
sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImp=
l.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at
com.linkedin.restli.internal.server.RestLiMethodInvoker.doInvoke(RestLiMeth=
odInvoker.java:186)
        at
com.linkedin.restli.internal.server.RestLiMethodInvoker.invoke(RestLiMethod=
Invoker.java:141)
        at
com.linkedin.restli.server.RestLiServer.handleResourceRequest(RestLiServer.=
java:286)
        at
com.linkedin.restli.server.RestLiServer.doHandleRequest(RestLiServer.java:1=
67)
        at
com.linkedin.restli.server.BaseRestServer.handleRequest(BaseRestServer.java=
:56)
        at
com.linkedin.restli.server.DelegatingTransportDispatcher.handleRestRequest(=
DelegatingTransportDispatcher.java:56)
        at
com.linkedin.r2.filter.transport.DispatcherRequestFilter.onRestRequest(Disp=
atcherRequestFilter.java:81)
        at
com.linkedin.r2.filter.FilterChainImpl$RestRequestFilterAdapter.onRequest(F=
ilterChainImpl.java:328)
        at
com.linkedin.r2.filter.ComposedFilter.onRequest(ComposedFilter.java:55)
        at
com.linkedin.r2.filter.FilterChainIterator.onRequest(FilterChainIterator.ja=
va:50)
        at
com.linkedin.r2.filter.compression.ServerCompressionFilter.onRestRequest(Se=
rverCompressionFilter.java:126)
        at
com.linkedin.r2.filter.FilterChainImpl$RestRequestFilterAdapter.onRequest(F=
ilterChainImpl.java:328)
        at
com.linkedin.r2.filter.ComposedFilter.onRequest(ComposedFilter.java:55)
        at
com.linkedin.r2.filter.FilterChainIterator.onRequest(FilterChainIterator.ja=
va:50)
        at
com.linkedin.r2.filter.ComposedFilter.onRequest(ComposedFilter.java:59)
        at
com.linkedin.r2.filter.FilterChainIterator.onRequest(FilterChainIterator.ja=
va:50)
        at
com.linkedin.r2.filter.FilterChainImpl.onRestRequest(FilterChainImpl.java:1=
03)
        at
com.linkedin.r2.filter.transport.FilterChainDispatcher.handleRestRequest(Fi=
lterChainDispatcher.java:74)
        at
com.linkedin.r2.transport.http.server.HttpDispatcher.handleRequest(HttpDisp=
atcher.java:95)
        at
com.linkedin.r2.transport.http.server.HttpDispatcher.handleRequest(HttpDisp=
atcher.java:62)
        at
com.linkedin.r2.transport.http.server.HttpNettyServer$Handler.messageReceiv=
ed(HttpNettyServer.java:171)
        at
org.jboss.netty.channel.SimpleChannelUpstreamHandler.handleUpstream(SimpleC=
hannelUpstreamHandler.java:80)
        at
org.jboss.netty.channel.DefaultChannelPipeline.sendUpstream(DefaultChannelP=
ipeline.java:545)
        at
org.jboss.netty.channel.DefaultChannelPipeline$DefaultChannelHandlerContext=
.sendUpstream(DefaultChannelPipeline.java:754)
        at
org.jboss.netty.handler.execution.ChannelEventRunnable.run(ChannelEventRunn=
able.java:69)
        at
org.jboss.netty.handler.execution.OrderedMemoryAwareThreadPoolExecutor$Chil=
dExecutor.run(OrderedMemoryAwareThreadPoolExecutor.java:316)
        at
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1=
142)
        at
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:=
617)
        at java.lang.Thread.run(Thread.java:745)
2017-11-10 10:24:11 UTC ERROR [pool-11-thread-13]
com.bph.JobLauncherResource  110 -  Job Id yt_138 failed while searching
key ostfold Failed to create job launcher: java.io.EOFException

***************************************************************************=
******************************************************

Error 3
***************************************************************************=
******************************************************
2017-11-10 13:38:49 UTC ERROR [Commit-thread-0]
gobblin.runtime.SafeDatasetCommit  118 - Failed to persist dataset state
for dataset  of job job_TwitterPageExtractorPull_135_1510321111647
java.io.FileNotFoundException: Failed to rename
/home/Installable/gobblin-dist/working-dir/state-store/TwitterPageExtractor=
Pull_135/_tmp_/current.jst
to
/home/Installable/gobblin-dist/working-dir/state-store/TwitterPageExtractor=
Pull_135/current.jst:
src not found
at gobblin.util.HadoopUtils.renamePath(HadoopUtils.java:173)
at gobblin.util.HadoopUtils.renamePath(HadoopUtils.java:164)
at gobblin.util.HadoopUtils.copyFile(HadoopUtils.java:333)
at gobblin.metastore.FsStateStore.createAlias(FsStateStore.java:283)
at
gobblin.runtime.FsDatasetStateStore.persistDatasetState(FsDatasetStateStore=
.java:221)
at
gobblin.runtime.SafeDatasetCommit.persistDatasetState(SafeDatasetCommit.jav=
a:255)
at gobblin.runtime.SafeDatasetCommit.call(SafeDatasetCommit.java:115)
at gobblin.runtime.SafeDatasetCommit.call(SafeDatasetCommit.java:43)
at java.util.concurrent.FutureTask.run(FutureTask.java:266)
at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
at java.util.concurrent.FutureTask.run(FutureTask.java:266)
at
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1=
142)
at
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:=
617)
at java.lang.Thread.run(Thread.java:745)
***************************************************************************=
******************************************************

There errors are seeing during the stress tests for the same Jobs. For our
use case we can't afford the jobs to fail due to system issue like above. I
did some basic investigation and could find the issue could be happening to
to non atomic operations on the state file which is of extension .jst. It
seems we could disable the statestore, I looked at the following code in
gobblin.runtime.JobContext::createStateStore
***************************************************************************=
******************************************************
if (jobProps.containsKey(ConfigurationKeys.STATE_STORE_ENABLED) &&

!Boolean.parseBoolean(jobProps.getProperty(ConfigurationKeys.STATE_STORE_EN=
ABLED)))
{
      return new NoopDatasetStateStore(stateStoreFs, stateStoreRootDir);
    } else {
      return new FsDatasetStateStore(stateStoreFs, stateStoreRootDir);
    }
***************************************************************************=
******************************************************

It seems that by disabling the statestore we may get over this issue, but
for our case the source implementation is passing the information to the
Extractor via the WorkUnitStoreState.


We don't want the Job Retry features and hence did disable it as explained
here
https://gobblin.readthedocs.io/en/latest/user-guide/Configuration-Propertie=
s-Glossary/#retry-properties

I was expecting the disabling happening by setting the follwing only
workunit.retry.enabled=3Dfalse
we have to set this also
task.maxretries=3D0
As we don't rely on retries would it not be good to have a flag what will
ignore the the following calls when we have have
workunit.retry.enabled=3Dfalse

1) Reading the initial value from the store
2) Commit the final state to the store.

As mentioned about we can't disable the state store as we are generating
some data in the Source implementation and passed to the corresponding
Extractor implementation via State.

I do anticipate of having these issues in GAAS too.

I will be working to fix this issue as this is a critical issue for us.

Thanks,
Vicky

--_000_DM5PR2101MB08054452805A80E27D3AA081A7550DM5PR2101MB0805_
Content-Type: text/html; charset="us-ascii"
Content-Transfer-Encoding: quoted-printable

<html>
<head>
<meta http-equiv=3D"Content-Type" content=3D"text/html; charset=3Dus-ascii"=
>
<style type=3D"text/css" style=3D"display:none;"><!-- P {margin-top:0;margi=
n-bottom:0;} --></style>
</head>
<body dir=3D"ltr">
<div id=3D"divtagdefaultwrapper" style=3D"font-size:12pt;color:#000000;font=
-family:Calibri,Helvetica,sans-serif;" dir=3D"ltr">
<p>Hi&nbsp;Vicky,</p>
<p><br>
</p>
<p>What's the underlying file system you are using?</p>
<p><br>
</p>
<p>Have you checked to make sure there are not multiple instances of the jo=
b running concurrently or make use of the job lock?</p>
<p><br>
</p>
<p>Also, the state store and state are separate things. You can still pass =
state from the source to the extractor without the state store enabled. The=
 state store is used to transfer state across executions, like cases where =
a watermark is used to resume an
 incremental pull.</p>
<p><br>
</p>
<p>Hung.</p>
</div>
<hr style=3D"display:inline-block;width:98%" tabindex=3D"-1">
<div id=3D"divRplyFwdMsg" dir=3D"ltr"><font face=3D"Calibri, sans-serif" st=
yle=3D"font-size:11pt" color=3D"#000000"><b>From:</b> Vicky Kak &lt;vicky.k=
ak@gmail.com&gt;<br>
<b>Sent:</b> Saturday, November 11, 2017 5:58:59 AM<br>
<b>To:</b> user@gobblin.incubator.apache.org; dev@gobblin.incubator.apache.=
org<br>
<b>Subject:</b> Corrupted state file when Jobs are being run in parallel.</=
font>
<div>&nbsp;</div>
</div>
<div class=3D"BodyFragment"><font size=3D"2"><span style=3D"font-size:10pt;=
">
<div class=3D"PlainText">Hi Guys,<br>
<br>
I have been running the stress tests and am seeing the following errors<br>
<br>
Error 1<br>
***************************************************************************=
******************************************************<br>
017-11-11 11:20:56 UTC INFO&nbsp; [pool-11-thread-421]<br>
org.apache.hadoop.fs.FSInputChecker&nbsp; 284 - Found checksum error: b[0,<=
br>
512]=3D53455106196f72672e6170616368652e6861646f6f702e696f2e5465787425676f62=
626c696e2e72756e74696d652e4a6f6253746174652444617461736574537461746501012a6=
f72672e6170616368652e6861646f6f702e696f2e636f6d70726573732e44656661756c7443=
6f6465630000000044e218b9e6aad3f1aa97f2210fb5c7f0ffffffff44e218b9e6aad3f1aa9=
7f2210fb5c7f00109789c6304000002000209789c630000000100010b789cebb3d502000251=
00f68e0ab4789ced5b7b73dbc611971c3b8d5ff233b6d324ad861337e9d804013e445169264=
3d1924c51a26489962da71ece013890270238f870904479fc1592ffdb4fd1e9f4b364a6dfa3=
ff770f0fbe244384eca6c998d2f081bbddc5deede2f6777bcbcf974da275d8266ae1a543ce9=
0c629dbf44cb3a9e48ae93daa3663fa9b4a419195ac5c2a147373a5a9a9e9e6df4adf3c0a3e=
e7ff39e5ff5da7172b1bebebd54663097aa6a6c52b995c9923b7333e79530e15f93954e41f8=
122d7fe0d6f8f6fe0805bb291855d0769f8aee14b961c102da17d4625576b630b5d7ae561d6=
954c64b7ce75d81742098639b4f036c348772835250b1dbae4084f672fba1c1a2d89e85f159=
031870d944fe7545d4be70b46313d5f9071ba24e772459445322aea331479bc2df96f1e33bf=
6d73eeb80b998c4d74506c1f3349a356c627ca4a72467c520637fa9e<br>
org.apache.hadoop.fs.ChecksumException: Checksum error:<br>
file:/home/Installable/gobblin-dist/working-dir/state-store/FlickrPageExtra=
ctorPull_137/current.jst<br>
at 0 exp: 36820587 got: 91149211<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.apache.hadoop.fs.FSInputChecker.verifySums(FSInputChecker.java:322)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.apache.hadoop.fs.FSInputChecker.readChecksumChunk(FSInputChecker.java:2=
78)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at org.apache.hadoop.fs.FSInputC=
hecker.fill(FSInputChecker.java:213)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.apache.hadoop.fs.FSInputChecker.read1(FSInputChecker.java:231)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at org.apache.hadoop.fs.FSInputC=
hecker.read(FSInputChecker.java:195)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at java.io.DataInputStream.readF=
ully(DataInputStream.java:195)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at java.io.DataInputStream.readF=
ully(DataInputStream.java:169)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.apache.hadoop.io.SequenceFile$Reader.init(SequenceFile.java:1845)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.apache.hadoop.io.SequenceFile$Reader.initialize(SequenceFile.java:1810)=
<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.apache.hadoop.io.SequenceFile$Reader.&lt;init&gt;(SequenceFile.java:175=
9)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.apache.hadoop.io.SequenceFile$Reader.&lt;init&gt;(SequenceFile.java:177=
3)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
gobblin.runtime.FsDatasetStateStore.getAll(FsDatasetStateStore.java:119)<br=
>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
gobblin.runtime.FsDatasetStateStore.getLatestDatasetStatesByUrns(FsDatasetS=
tateStore.java:173)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at gobblin.runtime.JobContext.&l=
t;init&gt;(JobContext.java:136)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
gobblin.runtime.AbstractJobLauncher.&lt;init&gt;(AbstractJobLauncher.java:1=
31)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
gobblin.runtime.local.LocalJobLauncher.&lt;init&gt;(LocalJobLauncher.java:6=
2)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
gobblin.runtime.JobLauncherFactory.newJobLauncher(JobLauncherFactory.java:8=
0)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
gobblin.runtime.JobLauncherFactory.newJobLauncher(JobLauncherFactory.java:5=
9)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at com.bph.JobLauncherResource.s=
earch(JobLauncherResource.java:107)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at sun.reflect.GeneratedMethodAc=
cessor8.invoke(Unknown Source)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImp=
l.java:43)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at java.lang.reflect.Method.invo=
ke(Method.java:498)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.restli.internal.server.RestLiMethodInvoker.doInvoke(RestLiMeth=
odInvoker.java:186)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.restli.internal.server.RestLiMethodInvoker.invoke(RestLiMethod=
Invoker.java:141)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.restli.server.RestLiServer.handleResourceRequest(RestLiServer.=
java:286)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.restli.server.RestLiServer.doHandleRequest(RestLiServer.java:1=
67)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.restli.server.BaseRestServer.handleRequest(BaseRestServer.java=
:56)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.restli.server.DelegatingTransportDispatcher.handleRestRequest(=
DelegatingTransportDispatcher.java:56)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.transport.DispatcherRequestFilter.onRestRequest(Disp=
atcherRequestFilter.java:81)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.FilterChainImpl$RestRequestFilterAdapter.onRequest(F=
ilterChainImpl.java:328)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.ComposedFilter.onRequest(ComposedFilter.java:55)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.FilterChainIterator.onRequest(FilterChainIterator.ja=
va:50)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.compression.ServerCompressionFilter.onRestRequest(Se=
rverCompressionFilter.java:126)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.FilterChainImpl$RestRequestFilterAdapter.onRequest(F=
ilterChainImpl.java:328)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.ComposedFilter.onRequest(ComposedFilter.java:55)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.FilterChainIterator.onRequest(FilterChainIterator.ja=
va:50)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.ComposedFilter.onRequest(ComposedFilter.java:59)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.FilterChainIterator.onRequest(FilterChainIterator.ja=
va:50)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.FilterChainImpl.onRestRequest(FilterChainImpl.java:1=
03)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.transport.FilterChainDispatcher.handleRestRequest(Fi=
lterChainDispatcher.java:74)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.transport.http.server.HttpDispatcher.handleRequest(HttpDisp=
atcher.java:95)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.transport.http.server.HttpDispatcher.handleRequest(HttpDisp=
atcher.java:62)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.transport.http.server.HttpNettyServer$Handler.messageReceiv=
ed(HttpNettyServer.java:171)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.jboss.netty.channel.SimpleChannelUpstreamHandler.handleUpstream(SimpleC=
hannelUpstreamHandler.java:80)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.jboss.netty.channel.DefaultChannelPipeline.sendUpstream(DefaultChannelP=
ipeline.java:545)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.jboss.netty.channel.DefaultChannelPipeline$DefaultChannelHandlerContext=
.sendUpstream(DefaultChannelPipeline.java:754)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.jboss.netty.handler.execution.ChannelEventRunnable.run(ChannelEventRunn=
able.java:69)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.jboss.netty.handler.execution.OrderedMemoryAwareThreadPoolExecutor$Chil=
dExecutor.run(OrderedMemoryAwareThreadPoolExecutor.java:316)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1=
142)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:=
617)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at java.lang.Thread.run(Thread.j=
ava:745)<br>
2017-11-11 11:20:56 UTC ERROR [pool-11-thread-421]<br>
com.bph.JobLauncherResource&nbsp; 110 -&nbsp; Job Id fk_137 failed while se=
arching<br>
key beryls Failed to create job launcher:<br>
org.apache.hadoop.fs.ChecksumException: Checksum error:<br>
file:/home/Installable/gobblin-dist/working-dir/state-store/FlickrPageExtra=
ctorPull_137/current.jst<br>
at 0 exp: 36820587 got: 91149211<br>
2017-11-11 11:20:56 UTC INFO&nbsp; [pool-11-thread-402]<br>
gobblin.util.ExecutorsUtils&nbsp; 125 - Attempting to shutdown ExecutorServ=
ice:<br>
java.util.concurrent.ThreadPoolExecutor@6bce96a5[Shutting down, pool size =
=3D<br>
1, active threads =3D 0, queued tasks =3D 0, completed tasks =3D 1]<br>
2017-11-11 11:20:56 UTC INFO&nbsp; [pool-11-thread-402]<br>
gobblin.util.ExecutorsUtils&nbsp; 144 - Successfully shutdown ExecutorServi=
ce:<br>
java.util.concurrent.ThreadPoolExecutor@6bce96a5[Terminated, pool size =3D =
0,<br>
active threads =3D 0, queued tasks =3D 0, completed tasks =3D 1]<br>
<br>
***************************************************************************=
******************************************************<br>
<br>
Error 2:<br>
***************************************************************************=
******************************************************<br>
<br>
2017-11-10 10:24:10 UTC WARN&nbsp; [pool-11-thread-13]<br>
org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSInputChecker&nbsp; 154 -<=
br>
Problem opening checksum file:<br>
file:/home/Installable/gobblin-dist/working-dir/state-store/YoutubePageExtr=
actorPull_138/current.jst.<br>
Ignoring exception:<br>
java.io.EOFException<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at java.io.DataInputStream.readF=
ully(DataInputStream.java:197)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at java.io.DataInputStream.readF=
ully(DataInputStream.java:169)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSInputChecker.&lt;init&gt;=
(ChecksumFileSystem.java:146)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.apache.hadoop.fs.ChecksumFileSystem.open(ChecksumFileSystem.java:339)<b=
r>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.apache.hadoop.io.SequenceFile$Reader.openFile(SequenceFile.java:1832)<b=
r>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.apache.hadoop.io.SequenceFile$Reader.&lt;init&gt;(SequenceFile.java:175=
2)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.apache.hadoop.io.SequenceFile$Reader.&lt;init&gt;(SequenceFile.java:177=
3)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
gobblin.runtime.FsDatasetStateStore.getAll(FsDatasetStateStore.java:119)<br=
>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
gobblin.runtime.FsDatasetStateStore.getLatestDatasetStatesByUrns(FsDatasetS=
tateStore.java:173)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at gobblin.runtime.JobContext.&l=
t;init&gt;(JobContext.java:136)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
gobblin.runtime.AbstractJobLauncher.&lt;init&gt;(AbstractJobLauncher.java:1=
31)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
gobblin.runtime.local.LocalJobLauncher.&lt;init&gt;(LocalJobLauncher.java:6=
2)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
gobblin.runtime.JobLauncherFactory.newJobLauncher(JobLauncherFactory.java:8=
0)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
gobblin.runtime.JobLauncherFactory.newJobLauncher(JobLauncherFactory.java:5=
9)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at com.bph.JobLauncherResource.s=
earch(JobLauncherResource.java:107)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at sun.reflect.NativeMethodAcces=
sorImpl.invoke0(Native Method)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:6=
2)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImp=
l.java:43)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at java.lang.reflect.Method.invo=
ke(Method.java:498)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.restli.internal.server.RestLiMethodInvoker.doInvoke(RestLiMeth=
odInvoker.java:186)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.restli.internal.server.RestLiMethodInvoker.invoke(RestLiMethod=
Invoker.java:141)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.restli.server.RestLiServer.handleResourceRequest(RestLiServer.=
java:286)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.restli.server.RestLiServer.doHandleRequest(RestLiServer.java:1=
67)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.restli.server.BaseRestServer.handleRequest(BaseRestServer.java=
:56)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.restli.server.DelegatingTransportDispatcher.handleRestRequest(=
DelegatingTransportDispatcher.java:56)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.transport.DispatcherRequestFilter.onRestRequest(Disp=
atcherRequestFilter.java:81)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.FilterChainImpl$RestRequestFilterAdapter.onRequest(F=
ilterChainImpl.java:328)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.ComposedFilter.onRequest(ComposedFilter.java:55)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.FilterChainIterator.onRequest(FilterChainIterator.ja=
va:50)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.compression.ServerCompressionFilter.onRestRequest(Se=
rverCompressionFilter.java:126)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.FilterChainImpl$RestRequestFilterAdapter.onRequest(F=
ilterChainImpl.java:328)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.ComposedFilter.onRequest(ComposedFilter.java:55)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.FilterChainIterator.onRequest(FilterChainIterator.ja=
va:50)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.ComposedFilter.onRequest(ComposedFilter.java:59)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.FilterChainIterator.onRequest(FilterChainIterator.ja=
va:50)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.FilterChainImpl.onRestRequest(FilterChainImpl.java:1=
03)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.filter.transport.FilterChainDispatcher.handleRestRequest(Fi=
lterChainDispatcher.java:74)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.transport.http.server.HttpDispatcher.handleRequest(HttpDisp=
atcher.java:95)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.transport.http.server.HttpDispatcher.handleRequest(HttpDisp=
atcher.java:62)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
com.linkedin.r2.transport.http.server.HttpNettyServer$Handler.messageReceiv=
ed(HttpNettyServer.java:171)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.jboss.netty.channel.SimpleChannelUpstreamHandler.handleUpstream(SimpleC=
hannelUpstreamHandler.java:80)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.jboss.netty.channel.DefaultChannelPipeline.sendUpstream(DefaultChannelP=
ipeline.java:545)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.jboss.netty.channel.DefaultChannelPipeline$DefaultChannelHandlerContext=
.sendUpstream(DefaultChannelPipeline.java:754)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.jboss.netty.handler.execution.ChannelEventRunnable.run(ChannelEventRunn=
able.java:69)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
org.jboss.netty.handler.execution.OrderedMemoryAwareThreadPoolExecutor$Chil=
dExecutor.run(OrderedMemoryAwareThreadPoolExecutor.java:316)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1=
142)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at<br>
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:=
617)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at java.lang.Thread.run(Thread.j=
ava:745)<br>
2017-11-10 10:24:11 UTC ERROR [pool-11-thread-13]<br>
com.bph.JobLauncherResource&nbsp; 110 -&nbsp; Job Id yt_138 failed while se=
arching<br>
key ostfold Failed to create job launcher: java.io.EOFException<br>
<br>
***************************************************************************=
******************************************************<br>
<br>
Error 3<br>
***************************************************************************=
******************************************************<br>
2017-11-10 13:38:49 UTC ERROR [Commit-thread-0]<br>
gobblin.runtime.SafeDatasetCommit&nbsp; 118 - Failed to persist dataset sta=
te<br>
for dataset&nbsp; of job job_TwitterPageExtractorPull_135_1510321111647<br>
java.io.FileNotFoundException: Failed to rename<br>
/home/Installable/gobblin-dist/working-dir/state-store/TwitterPageExtractor=
Pull_135/_tmp_/current.jst<br>
to<br>
/home/Installable/gobblin-dist/working-dir/state-store/TwitterPageExtractor=
Pull_135/current.jst:<br>
src not found<br>
at gobblin.util.HadoopUtils.renamePath(HadoopUtils.java:173)<br>
at gobblin.util.HadoopUtils.renamePath(HadoopUtils.java:164)<br>
at gobblin.util.HadoopUtils.copyFile(HadoopUtils.java:333)<br>
at gobblin.metastore.FsStateStore.createAlias(FsStateStore.java:283)<br>
at<br>
gobblin.runtime.FsDatasetStateStore.persistDatasetState(FsDatasetStateStore=
.java:221)<br>
at<br>
gobblin.runtime.SafeDatasetCommit.persistDatasetState(SafeDatasetCommit.jav=
a:255)<br>
at gobblin.runtime.SafeDatasetCommit.call(SafeDatasetCommit.java:115)<br>
at gobblin.runtime.SafeDatasetCommit.call(SafeDatasetCommit.java:43)<br>
at java.util.concurrent.FutureTask.run(FutureTask.java:266)<br>
at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)<=
br>
at java.util.concurrent.FutureTask.run(FutureTask.java:266)<br>
at<br>
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1=
142)<br>
at<br>
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:=
617)<br>
at java.lang.Thread.run(Thread.java:745)<br>
***************************************************************************=
******************************************************<br>
<br>
There errors are seeing during the stress tests for the same Jobs. For our<=
br>
use case we can't afford the jobs to fail due to system issue like above. I=
<br>
did some basic investigation and could find the issue could be happening to=
<br>
to non atomic operations on the state file which is of extension .jst. It<b=
r>
seems we could disable the statestore, I looked at the following code in<br=
>
gobblin.runtime.JobContext::createStateStore<br>
***************************************************************************=
******************************************************<br>
if (jobProps.containsKey(ConfigurationKeys.STATE_STORE_ENABLED) &amp;&amp;<=
br>
<br>
!Boolean.parseBoolean(jobProps.getProperty(ConfigurationKeys.STATE_STORE_EN=
ABLED)))<br>
{<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return new NoopDatasetStateStore(stateStoreF=
s, stateStoreRootDir);<br>
&nbsp;&nbsp;&nbsp; } else {<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return new FsDatasetStateStore(stateStoreFs,=
 stateStoreRootDir);<br>
&nbsp;&nbsp;&nbsp; }<br>
***************************************************************************=
******************************************************<br>
<br>
It seems that by disabling the statestore we may get over this issue, but<b=
r>
for our case the source implementation is passing the information to the<br=
>
Extractor via the WorkUnitStoreState.<br>
<br>
<br>
We don't want the Job Retry features and hence did disable it as explained<=
br>
here<br>
<a href=3D"https://gobblin.readthedocs.io/en/latest/user-guide/Configuratio=
n-Properties-Glossary/#retry-properties">https://gobblin.readthedocs.io/en/=
latest/user-guide/Configuration-Properties-Glossary/#retry-properties</a><b=
r>
<br>
I was expecting the disabling happening by setting the follwing only<br>
workunit.retry.enabled=3Dfalse<br>
we have to set this also<br>
task.maxretries=3D0<br>
As we don't rely on retries would it not be good to have a flag what will<b=
r>
ignore the the following calls when we have have<br>
workunit.retry.enabled=3Dfalse<br>
<br>
1) Reading the initial value from the store<br>
2) Commit the final state to the store.<br>
<br>
As mentioned about we can't disable the state store as we are generating<br=
>
some data in the Source implementation and passed to the corresponding<br>
Extractor implementation via State.<br>
<br>
I do anticipate of having these issues in GAAS too.<br>
<br>
I will be working to fix this issue as this is a critical issue for us.<br>
<br>
Thanks,<br>
Vicky<br>
</div>
</span></font></div>
</body>
</html>

--_000_DM5PR2101MB08054452805A80E27D3AA081A7550DM5PR2101MB0805_--