flink-user-zh mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From jun su <sujun891...@gmail.com>
Subject 读取ORC文件的VectorizedRowBatch的最佳batchSize设置建议
Date Tue, 17 Mar 2020 03:52:01 GMT
hi all:
     在向量化读取orc文件时, 需要配置VectorizedRowBatch的batchSize, 用于设置每次读取的行数,
我知道根据orc索引, 读取orc文件最小的单位应该是row group(默认1w行), 底层会根据filter条件来精确到哪些row
group,
那之前提到的batchSize设置为1000时 , 那一个row group需要读取10次, 每个row
group又是按列存储,
势必会存在非连续读取的可能, 这样岂不是做不到最大优化? 是够将batchSize设置和row
group配置一样才能读取效率最大化呢?
不知道我的理解是否正确.
Mime
  • Unnamed multipart/alternative (inline, None, 0 bytes)
View raw message