大数据入门基础系列之Hive驱动器Driver之优化器optimizer

博猫资讯

您的当前位置：首页 > 博猫资讯

大数据入门基础系列之Hive驱动器Driver之优化器optimizer

发布时间：2024-06-18 21:20:10

分享到：

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

在前面的博文里，我已经介绍了

可以看得出，对于Hive的Driver其实是有3种途径的。

即（1）CLI （2）JDBC/ODBC （3）Web GUI

对于

Hive源码分析：CLI入口类

推荐博文

http://blog.javachen.com/2013/08/21/hive-CliDriver.html

无论使用CLI、Thrift Server、JDBC还是自定义的提交工具，最终的HQL都会传给Driver实例，执行Driver.run()方法。从这种设计也可以看出，如果您要开发一套自定义的Hive作业提交工具，最好的方式是引用Driver实例，调用相关方法进行开发。

而Driver.run()方法，获得了这样一个HQL，则会执行两个重要的步骤：编译和执行，即Driver.complie()和Driver.execute()。

对于Driver.comile()来说，其实就是调用parse和optimizer包中的相关模块，执行语法解析、语义分析、优化（回想一下大学时的编译原理，编译的过程是不是语法分析、语法解析、语义分析）；

对于Driver.run()来说，其实就是调用exec包中的相关模块，将解析后的执行计划执行，如果解析后的结果是一个查询计划，那么通常的作法就是提交一系列的MapReduce作业。

对于

Hive Driver源码执行流程分析

推荐博文

https://segmentfault.com/a/1190000002774731

hive其实做的就是解析一条sql然后形成到mapreduce任务，就是一个代码解释器。hive源代码本身就可以分为ql/metasotre/service/serde 这几块；其中

parser：语法解析器和语义分析器，将SQL转化为执行计划。

optimizer：优化器，包括执行计划Operator图的改写（逻辑优化）和Task图的改写（物理优化）。

exec：执行器，作业提交和执行相关。

udf：Hive内置的用户自定义函数，包括操作符加、减、乘、除、与、或、非，常用数学操作（sin、cos等）、字符串操作（substr、instr）、聚合操作（count、sum、avg等）等。

以查询的执行为例，整个Hive的流程是非常简单的一条直线，由上到下进行。

本博文的重心是Hive驱动器之优化器

优化器：对逻辑执行计划进行优化。

优化器：优化HQL的组件。

优化器（optimizer）：通过逻辑策略构造多途径并以不同方式重写。

优化器optimizer的功能如下：

（1）将多 multiple join 合并为一个 multi-way join；

（2）对join、group-by 和自定义的 map-reduce 操作重新进行划分；

（3）消减不必要的列；

　　（4）在表扫描操作中推行使用断言（predicate）；

　（5）对于已分区的表，消减不必要的分区；

（6）在抽样（sampling）查询中，消减不必要的桶。此外，优化器还能增加局部聚合操作用于处理大分组聚合（grouped aggregations）和增加再分区操作用于处理不对称（skew）的分组聚合。

下一篇是

见明天的

原创大数据入门基础系列之Hive驱动器Driver之执行器executer

http://www.cnblogs.com/zlslch/和http://www.cnblogs.com/lchzls/

http://www.cnblogs.com/sunnyDream/

看完本文有收获？请转发分享给更多人

关注「大数据躺过的坑」，提升大神技能

觉得不错，请点赞和留言

[返回]

上一篇：汉字解象（92）吨

下一篇：降本减负打出组合拳　政策叠加效应深度释放

博猫注册

博猫资讯

博猫APP

地址：海南省海口市
电话：0896-98589990
传真：0000-0000-000
邮箱：admin@Your website.com

大数据入门基础系列之Hive驱动器Driver之优化器optimizer

博猫注册

博猫资讯

博猫APP

友情链接