kylin-dev mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From "金双贤" <jinshuangx...@qq.com>
Subject 是否可以在kylin中使用hive jdbc替换hive client,beeline方式访问hive,spark呢
Date Wed, 19 Feb 2020 09:53:02 GMT
问题原因:hive client调用get columns时aws glue返回的数据中主键列表是空指针,导致hive
client报空指针。
排查过程:
排查、解决这个问题比较的艰辛,整个过程kylin连hive这块感觉像个黑盒子,
因为有使用hive client和beeline,hive的配置设计到了多个配置文件hive-site.xml,kylin_hive_conf.xml,kylin.properties中的配置,比较烧脑。

排查过程中也参社区的https://kylin.apache.org/docs31/install/kylin_aws_emr.html,https://github.com/hit-lacus/hit-lacus.github.io/issues/81,但是配置都一样,问题依旧,查不下去了,最后猜测可能和emr版本有关,升级emr版本后问题得到解决。
解决方法:通过升级aws emr版本到5.28.0解决,猜测是这个版本emr修复了aws
glue的bug。


建议:
是否可以简化kylin中使用hive的逻辑,只使用hive jdbc,所有的元数据都通过jdbc获取呢。
这样配置可以很简单,只要配置hive jdbc地址,
同时隐藏aws-glue-datacatalog这样的底层细节,(说实话我现在还没搞明白kylin中按几个步骤是使用hive
client,哪几个步骤是使用beeline,貌似都有在使用,又搞不明白,什么情况下用哪个)
另外这样如果kylin希望ec2机器部署会很方便,只需要jdbc和hive连接。(吐槽下刚刚问题虽然解决了,但是我测试ec2机器部署kylin连aws
emr又遇到aws glue需要配置安全策略的问题,看来只能先将kylin部署在emr上了)
Mime
  • Unnamed multipart/alternative (inline, 8-Bit, 0 bytes)
View raw message