flink-user-zh mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From "1048262223" <1048262...@qq.com>
Subject 回复:flink 历史数据join
Date Sat, 16 May 2020 15:00:32 GMT
如果都是历史数据,可能使用dataset api会更加方便,语义更加清楚?



------------------&nbsp;原始邮件&nbsp;------------------
发件人: "jimandlice"<jimandlice@163.com&gt;; 
发送时间: 2020年5月16日(星期六) 晚上10:53
收件人: "user-zh"<user-zh@flink.apache.org&gt;; 
主题: 回复:flink 历史数据join



使用sql api的方式




| |
jimandlice
|
|
邮箱:jimandlice@163.com
|

Signature is customized by Netease Mail Master

在2020年05月16日 22:51,jimandlice 写道:
大佬 你好 ! kafka 写入hive 您这边demo么 我这边 只完成了hdfs <br/&gt;应该可以写到hive上去
能提供一个demo么
在 2020-05-15 19:41:59,"zhisheng" <zhisheng2018@gmail.com&gt; 写道:
&gt;看看 Flink UI 上 作业 task 的 sent 和 receive
&gt;的数据是否还在变更一般可以知道作业是否还在进行,等不动了,则意味着你这两个表固定的数据都已经
join 完了,等 checkpoint 也
&gt;complete 完成了即可以停掉作业。
&gt;
&gt;实在不放心,不知道啥时候跑完,可以晚上开始跑,第二天白天再去看看就好了
&gt;
&gt;jimandlice <jimandlice@163.com&gt; 于2020年5月15日周五 下午7:38写道:
&gt;
&gt;&gt; 是的 我想用datastrem 来做&nbsp; join停的话 需要注意什么
&gt;&gt;
&gt;&gt;
&gt;&gt;
&gt;&gt;
&gt;&gt; | |
&gt;&gt; jimandlice
&gt;&gt; |
&gt;&gt; |
&gt;&gt; 邮箱:jimandlice@163.com
&gt;&gt; |
&gt;&gt;
&gt;&gt; Signature is customized by Netease Mail Master
&gt;&gt;
&gt;&gt; 在2020年05月15日 19:36,zhisheng 写道:
&gt;&gt; 所以现在纠结的是使用 DataStream 还是 DataSet ?
&gt;&gt;
&gt;&gt; 可以使用 DataStream,作业 join 完了停掉作业就行了。
&gt;&gt;
&gt;&gt; 小黑 <qqpc0hy@dingtalk.com.invalid&gt; 于2020年5月15日周五
下午3:28写道:
&gt;&gt;
&gt;&gt; &gt;
&gt;&gt; &gt; 先工作上有一个需求&nbsp; 2个数据源 一个是mysql
一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了
都是历史数据
&gt;&gt; &gt; 现在要把这2个数据源的某两张张表 进行join 生成之后的数据
存在放在hdfs上 导入到hive上去现在就是不知道
&gt;&gt; &gt; 是用datatream还是dataset&nbsp; 没有一个很好的 解决方案
望给与回复
&gt;&gt; &gt;
&gt;&gt; &gt;
&gt;&gt; &gt;
&gt;&gt; &gt;
&gt;&gt; &gt;
&gt;&gt;
Mime
  • Unnamed multipart/alternative (inline, 8-Bit, 0 bytes)
View raw message