flink-user-zh mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From ChangTong He <jfjfh...@gmail.com>
Subject Re: Re:[进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
Date Wed, 20 Mar 2019 15:39:22 GMT
>    - *各位在使用哪个版本的Hive?有计划升级Hive吗?*

目前我维护的两套批处理系统分别是CDH5.10.0
和CDH5.13.1,均是hive-1.1.0;去年底搭了一套CDH6给开发做测试,但是目前我们调度大概有5000多个,有可能今年我们做IDC迁移的时候,顺便把集群都升到6的话,应该会升到对应的hive-2.1.1;

>    - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*

没有计划,由于我们平台是启用了sentry,所以不知道Flink和sentry的契合度怎么样,批处理的话大部分任务都集中在夜间3-5点,也是最容易出问题的时段,如果Flink能够提供更好的failover能力以及对资源的把控性能更好,应该会考虑

>    - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*

当初我了解Flink-Hive的动机,确实是希望只维护一套数据处理系统,目前我维护公司两个部门的大数据平台,他们批处理各一套,实时又各一套,hive还会通过phoenix写到另外一套hbase集群,脑壳疼

>    - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*

大部分都MR2,hive on spark的任务较少但是不稳定,数据量TB级,读写都有

>    - *有多少Hive UDF?都是什么类型?*

有80多个UDF,看了一下他们的命名感觉大部分都是一些业务逻辑的判断

>    - *对项目有什么问题或者建议?*

主要还是追求稳定,以及对hive低版本的兼容吧(之前在给公司做spark-sql
cli测试的时候,可以很明显的感觉到,开发其实是不愿意去改之前的代码的,他们希望的是能不动现有代码的情况下就能平滑的切换到新引擎)
>

王志明 <wangzmking@163.com>于2019年3月20日周三 下午8:47写道:

> Hi,
>      “Integrating Flink with Hive”确实是一个很大、很好的话题。针对以下几点,我结合自己的工作,pao'zhua
> - *各位在使用哪个版本的Hive?有计划升级Hive吗?*
> 目前用的是Apache Hive1.2,暂无升级Hive的计划
>
> - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
> 一个是夜间会大批量跑任务,如果Flink读写Hive速度快,可处理数据量大,就会考虑用。
>
> - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
> 希望流处理和批处理的核心代码是一套,方便开发,维护、以及数据准确性。
>
> - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
> 希望是用 Flink on Hive 的方式,数据量有TB级,读写都有
>
>
>
>
>
>
>
>
> 在 2019-03-20 09:28:55,"董鹏" <dongpeng@imdada.cn> 写道:
> >1、首先对flink纳入阿里麾下表示很兴奋,针对以下问题,根据我的一些经验,抛砖引玉:
> >hive太重要了,稳定,夜间跑任务,可以满足。
> >   - *各位在使用哪个版本的Hive?有计划升级Hive吗?*// cdh5版本
无计划升级
> >   -
> *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*//尝试spark引擎跑夜间任务,不稳定。对于性能,不是特别追求,稳定了,就会尝试flink
> on hive
> >   -
> *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*//技术迭代,当然理想的状况是批流统一,只维护一套数据处理系统。spark的性能已经很棒了,所以追求更好的性能这个对我们不需要。
> >   - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*//大的表
数据量不小,主要是读
> >   - *有多少Hive UDF?都是什么类型?*//挺多
> >   - *对项目有什么问题或者建议?*//1)flink on hive
> 准实时场景下,对性能要求越高越好,相对的数据量不大。2)离线场景下,稳定,而后是性能。3)社区的活跃,排查问题的手段
> >
> >
> >------------------ Original ------------------
> >From:  "Bowen Li"<bowenli86@gmail.com>;
> >Date:  Wed, Mar 20, 2019 08:09 AM
> >To:  "user-zh"<user-zh@flink.apache.org>;
> >
> >Subject:  [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
> >
> >
> >Flink中文频道的童鞋们,大家好,
> >
> >*我们想收集下大家对Flink兼容Hive方面的需求和意见*。
> >
> >背景:去年12月的Flink Forward 中国站上,社区宣布了将推动Flink兼容Hive。今年2.21,在西雅图
Flink Meetup
> >上我们做了 “Integrating Flink with Hive”
> >的演讲,并进行了现场演示,收到很好的反响。现在已到三月中,我们已经在内部完成了构建Flink崭新的catalog架构,对Hive
> >元数据的兼容,和常见的通过Flink 读写
>
> >Hive数据的工作。我们已开始提交相关的PR和设计文档,将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中,如评审设计文档和PR,参与开发和测试。
> >
> >*当前最重要的事,是我们希望社区的同学们能分享各自对Hive的用法,并给我们的项目提供反馈和建议。*
>
> >我们已开始深入的在某些领域使Flink兼容Hive,各位的反馈和建议可以帮助我们更好地评估各个工作的优先度,从而使我们的用户能更快地得到各位需要的功能。比如,如果绝大多数用户都是以读Hive数据为主,我们就会高优优化读功能。
> >
> >快速回顾下我们内部已经完成的工作:
> >
> >   - Flink/Hive 元数据兼容
> >      - 统一的、可查简化的catalog架构,用以管理catalog,database,tables,
views, functions,
> >      partitions, table/partition stats 等元数据
> >      - 三种catalog实现:一种默认的内存catalog;HiveCatalog
> >      用以兼容Hive生态的元数据;GenericHiveMetastoreCatalog 用以在Hive
metastore中持久化
> Flink
> >      流和批的元数据
> >      - 在SQL和table api中支持基于 <catalog>.<database>.<元数据名称>
的引用方式
> >      - 统一的function catalog,并支持Hive 简单的 UDF
> >   - Flink/Hive 数据兼容
> >      - Hive connector 支持:读取分区和非分去表,partition pruning,Hive简单和复杂数据类型,简单的写
> >   - 集成了了上述功能的SQL 客户端
> >
> >*我们想要了解的是:各位现在如何使用Hive?我们怎么能帮助各位解决问题?各位期待
Flink在兼容Hive中提供哪些功能?比如,*
> >
> >   - *各位在使用哪个版本的Hive?有计划升级Hive吗?*
> >   - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
> >   - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
> >   - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
> >   - *有多少Hive UDF?都是什么类型?*
> >   - *对项目有什么问题或者建议?*
> >
> >大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷,更全面的收集各位的反馈和建议。
> >
> >Bowen
>
Mime
  • Unnamed multipart/alternative (inline, None, 0 bytes)
View raw message