flink-user-zh mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From "Yuan,Youjun" <yuanyou...@baidu.com>
Subject 回复: Flink DataStream KeyedStream 与 AggregateFunction
Date Sat, 09 Nov 2019 11:46:00 GMT
1, 是
2,没有标准答案,是否可以本地先聚合?
3,AggFunc是指定做何种聚合,是sum, 还是avg, 还是count。不指定的话,Flink哪里指导你要计算啥?

-----邮件原件-----
发件人: 王佩 <wangpei@cmcm.com> 
发送时间: Saturday, November 9, 2019 11:45 AM
收件人: user-zh <user-zh@flink.apache.org>
主题: Flink DataStream KeyedStream 与 AggregateFunction

请教下:

1、DataStream 如按用户ID KeyBy后,同一个用户ID的数据最终会被分到一个Partition中吗?

2、假设1成立,这样就会有数据倾斜的问题。该如何解决?

3、假设1成立,如: DataStream
                               .keyBy(userID)
                               .timeWindow(....)
                               .aggregate(new
AggregateFunction(.......)),这里的AggregateFunction
为啥还需要merge呢。因为同一个Key的数据只会在同一个Partition中被计算,觉得不需要merge啊。

这三个问题有点疑惑,大神们帮忙看下!
感谢!
Mime
View raw message