flink-user-zh mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From tison <wander4...@gmail.com>
Subject Re: 双流Join 基于IngressTime计算后在按照Keyby sum聚集后每次计算结果不一致的问题
Date Wed, 15 Apr 2020 14:18:01 GMT
IngestionTime 多次运行结果不一样很正常啊,试试 event time?

Best,
tison.


xuefli <xuefli@aliyun.com.invalid> 于2020年4月15日周三 下午10:10写道:

> 遇到一个非常头痛的问题
>
> Flink1.10的集群,用hdfs做backend
>
> 一个流aStream准备了10亿的数据,另外一个流bStream百万
> 如果如下操作
>
> 我遇到一个问题 双流Join 带windows,使用IngressTime,在一个流的数据限制在几十万级别时,每次重算结果一致。但数据量换成10亿级别,另外一个流不便。在同样的情况,多次运行,每次运行结果不一样,我抽样一个特定的数据的结果每次不同
。 aStream.join(bStream) -->windows-->apply(flatMap)得到cStream后 再对cStream进行keyBy-->timeWindow-->sum.
> 我用fromcollection也是没有问题,但数据量很大时,就结果不对,每次运行的结果都有差异。
> 用dataStream.fromcollection这样的更小的数据也是没有问题,每次重算
> 但数据量很大时,就会这样。
>
>
> 每次计算的结果不一样,这个对业务系统挑战巨大
>
>
> 发送自 Windows 10 版邮件应用
>
>
Mime
  • Unnamed multipart/alternative (inline, None, 0 bytes)
View raw message