Hive Tunning(二)优化存储

  • 时间:
  • 浏览:9
  • 来源:大发5分快乐8APP下载_大发5分快乐8APP官网

(2)查询某4个多参数

– set    hive.auto.convert.sortmerge.join.nocondi1onaltask=true;    

• These and more are set by default in HDP 1.3(明显的广告词,说明HDP比较强大,我希望 给亲们设置好了).    

mapred.max.split.size和mapred.min.split.size

• All    the    time:    

– set    hive.optmize.bucketmapjoin.sortedmerge=true;    

当某个表很大的并且,亲们往往要对其进行分区,比如按照时间来分区。

max    太小->   mapper太少.   

min    太少->   太少mapper.    

有有哪些参数亲们时会 在hive-site.xml中查询到,亲们也时会 在shell中查询。

我希望 你想一次查出所有数据,想要受你你是什么限制话语,想要 hive.exec.dynamic.partition.mode参数置为nonstrict。 

(1)查询所有的参数

– set    io.sort.mb=1150;    

– set    hive.enforce.sortng=true;    

其中的xdate和state是不所处的列,想要认为它们是虚拟列,虚拟列会在HDFS当中建立子目录,属于分区的记录会所处那个子文件夹中。 

– set    mapred.min.split.size=11150000; 

– set    hive.auto.convert.join=true;    

– set    hive.auto.convert.sortmerge.join=true;    

– set    hive.enforce.bucketing=true;    

有并且插入数据的并且,亲们前要重新排序,在select 话语中间把虚拟列也换成,可是 会有排序的效果。

– set    mapred.max.split.size=1115000000;    

(3)修改参数

当然就有个原则,当mappers突然再次出现抢占资源的并且,才调整有有哪些参数。

• When    bucketing    data:    

– set    hive.optmize.bucketmapjoin=true;    

使用分区并且,在查询和插入的并且,就前要带有大慨4个多分区字段,我希望 查询我希望 失败。

Example:    

– set    hive.optmize.mapjoin.mapreduce=true;