flink-user-zh mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From "Jimmy Wong" <wangzmk...@163.com>
Subject 窗口去重
Date Tue, 10 Dec 2019 08:39:40 GMT
Hi,All:
请教一个问题,现在有个实时场景:需要对每 5 分钟内数据进行去重,然后
Sink。
比如:
数据
{ts: 2019-12-10 16:24:00 id: 1}
{ts: 2019-12-10 16:22:00 id: 1}
{ts: 2019-12-10 16:23:00 id: 2}
{ts: 2019-12-10 16:21:00 id: 1}
{ts: 2019-12-10 16:29:00 id: 2}
{ts: 2019-12-10 16:27:00 id: 3}
{ts: 2019-12-10 16:26:00 id: 2}


第一种情景,不考虑时间去重,结果如下:
{ts: 2019-12-10 16:24:00 id: 1}
{ts: 2019-12-10 16:23:00 id: 2}
{ts: 2019-12-10 16:29:00 id: 2}
{ts: 2019-12-10 16:27:00 id: 3}


第二种情景,考虑时间去重,结果如下:
{ts: 2019-12-10 16:21:00 id: 1}
{ts: 2019-12-10 16:23:00 id: 2}
{ts: 2019-12-10 16:26:00 id: 2}
{ts: 2019-12-10 16:27:00 id: 3}


请教下,对于上面两种情景,分别有什么高效实时的解决方案么, 谢谢?我想了一下用
5min 窗口,和 ProcessWindowFunction 可以解决,但是 ProcessWindowFunction 要缓存
5min 的窗口数据,但是有延迟。




| |
Jimmy Wong
|
|
wangzmking@163.com
|
签名由网易邮箱大师定制

Mime
  • Unnamed multipart/alternative (inline, None, 0 bytes)
View raw message