flink-user-zh mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From "浪人" <1543332...@qq.com>
Subject 回复:数据量问题
Date Thu, 21 Feb 2019 08:47:01 GMT
如果事件不是通过拷贝到多个窗口来实现滑动的效果,性能是可以接受的,现在主要是很多需求是窗口很大,滑动步数很小,拷贝分数太多,导致数据指数增长很容易引起性能问题。




------------------ 原始邮件 ------------------
发件人: "天边的云"<lyuan023@126.com>;
发送时间: 2019年2月21日(星期四) 下午4:39
收件人: "user-zh@flink.apache.org"<user-zh@flink.apache.org>;
抄送: "user-zh@flink.apache.org"<user-zh@flink.apache.org>; 
主题: 回复:数据量问题



滑动窗口的性能问题看社区一直在讨论。但目前看来没有一个通用的性能优化方案
https://issues.apache.org/jira/browse/FLINK-7001
在2019年2月21日 16:34,浪人<1543332110@qq.com> 写道:
像这种需求,推荐使用continuesTrigger或是使用更加底层API processfunction去处理,不要使用常规的滑动窗口去操作,性能低,资源消耗大。




------------------ 原始邮件 ------------------
发件人: "cousin-gmail"<a773807943@gmail.com>;
发送时间: 2019年2月21日(星期四) 下午4:31
收件人: "user-zh"<user-zh@flink.apache.org>;

主题: 数据量问题



嘿,各位,我想问问,如果一天1.5亿数据量的记录,要查询最近一小时内的
聚集数量,那么,有什么比较好的方案?如果是用1小时窗口,10秒滑动一次,这样子
貌似需要维持360个窗口了,这样子的话,大概需要多少内存呢?
Mime
  • Unnamed multipart/alternative (inline, 8-Bit, 0 bytes)
View raw message