一本色道久久88亚洲综合,内射少妇36P亚洲区,亚洲VA成无码人在线观看天堂

Leetcode-Database-181~183-3个easy题目�q�发

changedi — Fri, 06 Feb 2015 05:39:00 GMT

181题目地址�Q?/span>https://oj.leetcode.com/problems/employees-earning-more-than-their-managers/

181题又是一个简单题目，�l�定一�?/span>Employee表，里面存储了雇员的工资信息�Q�包括名字、工资、经�?/span>ID�Q�题目要求写一�?/span>sql查找出所有那些自�w�工资比�l�理�q�高的雇员的名字�?/span>

+----+-------+--------+-----------+
| Id | Name | Salary | ManagerId |
+----+-------+--------+-----------+
| 1 | Joe   | 70000 | 3         |
| 2 | Henry | 80000 | 4         |
| 3 | Sam   | 60000 | NULL      |
| 4 | Max   | 90000 | NULL      |
+----+-------+--------+-----------+

�q�个题目很简单，现有表不能做��是因�ؓ现有的一行记录里没有包含�l�理的工资信息，但是有经理的ID�Q�那么我们做一下关联，把工资信息拿刎ͼ�再过滤就好了�Q�于是思�\sql如下�Q?/span>

select
Name as Employee
from(
select
o1.Name
,o1.Salary as s
,o2.Salary as m
from(
select * from Employee
)o1
join(
select * from Employee
)o2
on(o1.ManagerId=o2.Id)
)t
where s>m

其中s是自��q��工资�Q?/span>m是经理的工资~~一目了�?/span>

182题目地址�Q?/span>https://oj.leetcode.com/problems/duplicate-emails/

182也是Easy�U�别题目�Q�题目描�q�就是写一�?/span>sql�Q�把Person表中有重�?/span>Email的记录拉出来�?/span>

+----+---------+
| Id | Email |
+----+---------+
| 1 | a@b.com |
| 2 | c@d.com |
| 3 | a@b.com |
+----+---------+

很容易想到的思�\�Q�按�?/span>email做聚合，�?/span>count>1的取出来�Q�对�?/span>sql如下�Q?/span>

select
    Email
from(
select
    Email
    ,count(Id) as cnt
from Person
group by Email
)t
where cnt>1

183题目地址�Q?/span>https://oj.leetcode.com/problems/customers-who-never-order/

183题，一个网站包含两张表�Q�一�?/span>Customers表存攑֮��h��据，一�?/span>Orders表存放��生订单的客户ID�Q�题目要求写sql查出没有在网站��生过订单的客戗��说白了��是查询�?/span>Customers里而不�?/span>Orders里的数据�Q?/span>sql如下�Q?/span>

select
o1.Name as Customers
from(
select * from Customers
)o1
left outer join(
select * from Orders
)o2
on(o1.Id=o2.CustomerId )
where o2.CustomerId is null

3个简单题目，夯实sql基础~~

changedi 2015-02-06 13:39 发表评论

Leetcode-Database-180-Consecutive Numbers-Medium

changedi — Thu, 29 Jan 2015 11:01:00 GMT

题目地址�Q?/span>https://oj.leetcode.com/problems/consecutive-numbers/

�q�个题目是要求写一�?/span>sql�Q�查询出表中�q�箋出现三次的记录。表�l�构非常��单如下：

+----+-----+
| Id | Num |
+----+-----+
| 1 | 1 |
| 2 | 1 |
| 3 | 1 |
| 4 | 2 |
| 5 | 1 |
| 6 | 2 |
| 7 | 2 |
+----+-----+

�q�个Logs表里�Q�只�?/span>Id�?/span>Num字段�Q�而题目就是要扑և��q�箋出现3�ơ的Num�Q�对于这个表�Q�答案就�?/span>1了�?/span>

思�\很直观暴力的一个想法就�?/span>Logs表自己关�?/span>3�ơ，兌��条�g依次�?/span>Id+1�Q�这样就可以把连�l�记录关联出来了

我的代码如下�Q?/p>

select
distinct o1.Num
from(
select * from Logs
)o1
join(
select * from Logs
)o2
on(o1.Num=o2.Num and o1.Id=o2.Id+1)
join(
select * from Logs
)o3
on(o2.Num=o3.Num and o2.Id=o3.Id+1)

�q�个题目虽然可以�q�样解掉�Q�但是很自然的会联想�Q�如�?/span>3变成n呢，题目变�ؓ求连�l�出�?/span>n�ơ的记录�Q�那该如何解�Q�显然暴力解法是不可行的。鉴于能力有限，我从discuss区找��C��一个很赞的解法�Q�通过定义变量�Q�很巧妙的解了这个扩展的问题�Q�原作�?/span>kent-huang

代码如下�Q?/p>

select DISTINCT num
FROM (
  select
    num,
    case when @record = num then @count:=@count+1
         when @record <> @record:=num then @count:=1
    end as n
  from Logs ,(
    select
       @count:=0,
       @record:=(SELECT num from Logs limit 0,1)
  ) r
) a
where a.n>=3

��单分析一下，作者通过定义两个变量record�?/span>count来控制记录和对应�?/span>rank��|��首先通过一�?/span>select @count:=0,@record:=(SELECT num from Logs limit 0,1)语句来初始化�q�两个变�?/span>count=0�Q?/span>record=表里�W�一条记录的num。接下来通过普通查询，��?/span>Logs表里每一条记录查出来�Q�和record�Ҏ��Q�如果相同，�?/span>count自增1�Q�如果不同，那么新的record被赋��|��同时count�|?/span>1�Q�很漂亮的自定义变量�?/span>sql实现了我们直觉上需要用逻辑代码来完成的功能。而且�q�个代码的一大优势是不需要用到Id字段~~非常��?/span>

�q�有好的思�\�Q�请一定分享给�?/span>~~:)

changedi 2015-01-29 19:01 发表评论

Leetcode-Database-178-Rank Scores-Medium

changedi — Wed, 28 Jan 2015 08:50:00 GMT

题目地址�Q?/span>https://oj.leetcode.com/problems/rank-scores/

�q�个问题很有��，写一个类�?/span>oracle里的�H�口函数rank()�Q�具体描�q�C��下，有一张数据表Scores�Q�里面有两个字段Id�?/span>Score�Q�具体结构如下：

+----+-------+
| Id | Score |
+----+-------+
| 1 | 3.50 |
| 2 | 3.65 |
| 3 | 4.00 |
| 4 | 3.85 |
| 5 | 4.00 |
| 6 | 3.65 |
+----+-------+

��d��是要写一�?/span>sql来给Score字段打一�?/span>rank标识�Q�条件是按照Score从大到小排序�Q�相�{�情冉|��rank相同�Q�且rank之间没有“�z?#8221;�Q�即rank字段是连�l�倹{��显然这个�Q务比rank�H�口函数�Ҏ��一些，但是也是一个棘手的问题�?/span>

题目具体�l�出了输出示例：

+-------+------+
| Score | Rank |
+-------+------+
| 4.00 | 1    |
| 4.00 | 1    |
| 3.85 | 2    |
| 3.65 | 3    |
| 3.65 | 3    |
| 3.50 | 4    |
+-------+------+

�q�_��说实�?/span>rank函数或�?/span>row_number函数用多了，很少考虑实现�Q�面对这个问题，��着头皮用笛卡尔�U�的join解决了，若是�?/span>hive中，strict模式可能拒绝�W�卡��积�?/span>join�Q�这时还是求助于�H�口函数rank�?/span>~~

实现代码如下�Q?/p>

select
o1.Score
,count(o2.Score) as Rank
from(
select * from Scores
)o1
left outer join(
select distinct Score from Scores
)o2
on(o1.Score<=o2.Score)
group by
o1.Id
order by o1.Score desc

changedi 2015-01-28 16:50 发表评论

Leetcode-Database-177-Nth Highest Salary-Medium

changedi — Tue, 27 Jan 2015 08:59:00 GMT

题目地址�Q?/span>https://oj.leetcode.com/problems/nth-highest-salary/

�q�个题目其实�?/span>176的扩展，刚才不是要找�W�二大的salary吗，那好�Q�现在直接扩展到��L��Q�第N大，而且�q�次是要写一�?/span>Function�Q?/span>N作�ؓ参数。表�q�是之前�?/span>Employee表�?/span>

+----+--------+
| Id | Salary |
+----+--------+
| 1 | 100    |
| 2 | 200    |
| 3 | 300    |
+----+--------+

我不知道��Z��么这个题目的通过率那么低�Q�但是事实是使用176题那��文章的“错误”做法卛_��解掉�q�个题目。注�?/span>limit是从0开始，所以变量要默认自减1�?/span>

CREATE FUNCTION getNthHighestSalary(N INT) RETURNS INT
BEGIN
    declare n1 int;
    set n1 = N-1;
  RETURN (
      # Write your MySQL query statement below.
      select
        Salary
      from(
        select distinct Salary from Employee
      )t
      order by Salary desc
      limit n1,1

  );
END

大写的部分是题目已经�l�的框架�Q�我们只需要在Return语句里填写内容即可，�?/span>declare了一个变量，不知道是否是一�?/span>hack手段�Q�但�?/span>it works.

当然本着在大数据�q�_��下sql的经验，如果换做是在hive下写�q�个�Q�思�\是什么呢�Q?/p>

1�Q�我��直接写一�?/span>UDAF解决�?/span>

2�Q�不具备UDAF能力的话�Q�可以在一�?/span>key下做sort by后，把他�?/span>group_concat或�?/span>wm_concat��h��Q�然�?/span>get�W?/span>n�?/span>item卛_��Q�当然这会利用到hive的默认的几个UDAF�?/span>UDF�?/span>

思�\肯定有很多，�Ƣ迎大家一��h��share~

changedi 2015-01-27 16:59 发表评论

Leetcode-Database-176-Second Highest Salary-Easy

changedi — Tue, 27 Jan 2015 08:38:00 GMT

leetcode地址�Q?/span>https://oj.leetcode.com/problems/second-highest-salary/

�q�个问题很有��，是要求我们写�?/span>sql来查�?/span>Employee表里�W�二高的工资�Q�如果没有第二高的，那么�q�回null�?/span>

+----+--------+
| Id | Salary |
+----+--------+
| 1 | 100    |
| 2 | 200    |
| 3 | 300    |
+----+--------+

看到�q�个问题�Q�可能很多�h会想�Q�这很简单啊�Q�写�?/span>order by desc�Q�然后找到第二个卛_��?/span>

select Salary from Employee order by Salary desc limit 1,1

试试提交呗？Wrong answer�Q��ؓ什么？看条件约束啊�Q�没有第二要�q�回null�Q�我看到null的第一直觉是通过join搞到null��|��于是有了下面�?/span>ac sql�Q?/span>

select
max(Salary) as SecondHighestSalary
from(
select
o1.*
,case when o2.s is null then 1 else 0 end as nt
from
(select * from Employee)o1
left outer join
(select max(Salary) as s from Employee)o2
on(o1.Salary=o2.s)
)t
where nt=1

思�\��单说��是通过全表左外联最�?/span>salary�Q�从兌��不到�?/span>salary里再找最大不��是�W�二大吗�Q?/span>

最后的�l�果�?/span>894ms�Q�当然我坚信有很多更快更高效的结果�?/span>

changedi 2015-01-27 16:38 发表评论

Leetcode-Database-175-Combine Two Tables-Easy

changedi — Tue, 27 Jan 2015 08:23:00 GMT

大概上周看到leetcode开始做数据相关的挑战题目，目前是基�?/span>MySQL�?/span>Sql��试题目。作��Z��个现�?/span>hive sql占掉大部分工作时间的码农�Q�还是可以选择来练�l�手�Q�今天立帖把�q�些题目一一解决�?/span>

�W�一题的描述�Q�题目地址�Q?span style="font-family: verdana, 'courier new';">https://oj.leetcode.com/problems/combine-two-tables/

一张表叫做Person�Q�主键是PersonId

另一张表叫做Address�Q�主键是AddressId

题目要求写一�?/span>sql完成查询��d��Q�把Person表中每个人的FirstName�Q?/span>LastName�Q?/span>City�?/span>State都查询出来�?/span>

�q�明显是个非常简单的sql�Q�只要拿Person表做左表�q�行left outer join卛_��Q�当然做双��q�行right join也行�Q?/span>

1 select
2     o1.FirstName
3     ,o1.LastName
4     ,o2.City
5     ,o2.State
6 from(
7     select * from Person
8 )o1
9 left outer join(
10     select * from Address
11 )o2
12 on(o1.PersonId = o2.PersonId)

最后，啰嗦几句�Q�在我们现在的��Y件开发过�E�中�Q�数据处理应该是一个工�E�师必备的技能，�w�在大公司，可能sql的编写有很多的限�Ӟ��有的甚至不需要工�E�师来编写，直接交给DBA��p��了。在�q�样的环境下�Q�开发工�E�师往往丢掉了数据库的基本功。而在大数据的��潮下，�?/span>hive\pig\ODPS下编�?/span> sql 也成了数据开发工�E�师的基本技能，数据开发不能仅仅停留在�?/span>sql实现功能�Q�最重要的是理解Hadoop生态下�Q�各�U?/span>sql语句的原理。就像开发一��P��要写出最高效�?/span>sql来处理数据。我�怿�leetcode对于sql的挑战会是一个不错的�q�_��Q�大家加�?/span>~~

changedi 2015-01-27 16:23 发表评论

changedi — Thu, 27 Nov 2014 09:30:00 GMT

一直想清楚的理解IMEI是什�?但是怎么也找不到合适的下笔思�\,最�l�还是把imei.org上的�q�篇介绍��译�q�来�Q�做个记录�?

原文地址�Q?a >http://imei.org/2013/05/imei-number-decode/ 原文标题�Q?strong>What Is IMEI Number and How To Decode It

译文�Q?

“

你可能听说过IMEI�Q�也知道它是�U�d��讑֤�的标识ID�Q�但是你知道它的具体功用吗？IMEI自手机出产后��׃��随其一生，�I�竟什么是IMEI�Q�如何理解它的数字含义？

��手机是全世界范围内偷�H�事件的“主角”�Q�不要低估IMEI的重要性，把IMEI备䆾一下是一个明智的军_��。本文会解释��Z��么我们的手机需要IMEI�Q�同时会列出如何扑ֈ��q�记录IMEI的技术方法�?

IMEI是什么？

IMEI的全�U�是International Mobile Equipment Identity�Q�每台设备都必备的一个唯一标识�Q�用来区分设备与讑֤�。当你购��C��台新的手��备时�Q�你会在收据上看到IMEI�Q�当你需要修理手机时�Q�手机服务商可能会要求你提供IMEI。标准的IMEI是一�?4位数字，同时也有IMEI/SV�q�样�?6位数字�Ş式（仅新讑֤�有）�Q�SV是由软�g设计的。当然苹果的iPhone GSM�?15位数字，而CDMA�?4位数字。不��如何，IMEI的设计动��Z��仅仅是一个ID标识�Q�它也可以用来阻止网�l�访问，�q�可以用IMEI来进行运营商解锁�?

如果你的手机��q��Q�你可以��情况上报到你的手机服务商，他们会阻止这台手��行一切的�|�络讉K��Q�同时警察也可以通过IMEI来识别丢��q��讑֤��?

IMEI怎么查看�Q?/h2>
多数手机在你输入拨号#06#后就能看到IMEI了，当然也有其他的一些方法：

iOS�Q�Settings->General->About�Q�设�|?>通用->关于手机�Q�，�q�样也可以看到有IMEI�Q�需要自�׃��滑寻找）。iPhone手机同样可以在sim卡托盘上扑ֈ�IMEI�Q�当然如果你不是使用原生的托盘就看不��C��?/li>

Android�Q�Settings->About�Q�设�|?>关于�Q�，�q�里可以看到IMEI�Q�序列号和其他的信息�?
老的Sony或者烦爱：输入 Right * Left Left * Left *
新的索爱或者Blackberry�Q�Options->Status�Q�选项->状态）

你可以��?a >http://imei.org/check-iphone-carrier/ 服务通过输入IMEI来获得手机的�q�营商信�?

如何解释IMEI�Q?/h2>

2004�q�以来，�l�一的IMEI格式为：AA-BBBBBB-CCCCCC-D�Q�这是一�?5位数字号�Q�其中：

AA�Q�两位数字号�Q�表�C�Reporting Body Identifier�Q�用来表�C�由TAC�Q�Type Allocation Code�Q�分配的GSMA�?
BBBBBB�Q�TAC(FAC)的剩余部分�?
CCCCCC�Q�机器序列号�Q�SNR�Q?
D�Q�Luhn ��位

举例来说�Q�现在iPhone 5的TAC�?1-332700�Q�而三星的Galaxy S2�?5-853704�Q�而C部分的SNR是由手机刉��商自定义的生��序列��P��最后一位校验位是通过��法来生成的�?

IMEI是手机相关的�Q�与sim卡无养I��当你的手��偷后�Q�无论手机重�|�还是更换sim卡，IMEI都是不变的，�q�时你是可以通过联系你的手机服务商来锁住手机的服务的。如果这行不通，可以联系你所在地区的�q�营商来锁定IMEI对于�q�营商网�l�的讉K��?

有时候IMEI是变化的�Q�尽��这不合法。有些窃贼有能力��合法的新的IMEI安装��C��的手机里从而重新启用这个手机。另外鉴于犯�|�动机，�q�有��Z��利用IMEI来监听设备�?

�l�g��Q�IMEI是手机的重要的唯一性ID�Q�你需要去备䆾�q�记住它�?

”

��译�l�束�?

最后附加一些说明�?

关于TAC�Q�http://en.wikipedia.org/wiki/Type_Allocation_Code

关于最后一位校验位的算法和python code�Q?

�?4位IMEI��Z��Q�校验位假设是C

从后向前�Q�记录下每隔两位的数字，��Cؓ列表A
从后向前�Q�记录下除A以外的数字，��Cؓ列表B
��A中的数字都乘�?�Q�如果一个数字乘�?后大�?0�Q�那么把�q�个�l�果拆�ؓ两个数字�Q�个位数一个，十位��C��个）�Q�记为列表A'
把A'和B中的所有数字求和，��CؓS
计算S*9%10�Q�记为F�Q�如果F�{�于C�Q�校验通过�Q�否则IMEI有问题�?/li>

   1: if len(arg0)==15:   2:             check_bit = int(arg0[-1])   3:             i = len(arg0)-2   4:             l,r = [],[]   5:             while i>=0:   6:                 m = int(arg0[i])*2   7:                 if m<10:   8:                     l.append(m)   9:                 else:  10:                     l.append(m%10)  11:                     l.append(m/10)  12:    13:                 r.append(int(arg0[i-1]))  14:                 i-=2  15:             l.reverse()  16:             r.reverse()  17:             if sum((sum(l),sum(r)))*9%10==check_bit:  18:                 return True  19:         return False

changedi 2014-11-27 17:30 发表评论

changedi — Mon, 31 Mar 2014 09:18:00 GMT

HBase的配�|?完结��：

hbase.rpc.server.engine�Q�hbase 做rpc server的调度管理类�Q�实现自org.apache.hadoop.ipc.RpcServerEngine�Q�默认是org.apache.hadoop.hbase.ipc.ProtobufRpcServerEngine�Q?/p>

hbase.rpc.timeout�Q�Hbase client发�v�q�程调用时的��时旉��Q��用ping来确认连接，但是最�l�会抛出一个TimeoutException�Q�默认值是60000�Q?/p>

hbase.rpc.shortoperation.timeout�Q�另一个版本的hbase.rpc.timeout�Q�控制短操作的超时时限，比如region server 汇报master的操作的��时旉��可以讄��，�q�样有利于master的failover�Q�默认是10000�Q?/p>

hbase.ipc.client.tcpnodelay�Q�默认是true�Q�具体就是在tcp socket�q�接时设�|?no delay�Q?/p>

hbase.master.keytab.file�Q�kerberos keytab 文�g的全路径名，用来为HMaster做log�Q�无默认��|��

hbase.master.kerberos.principal�Q�运行HMaster�q�程旉��要kerberos的principal name�Q�这个配�|�就是这个name的��|��形如�Q?a href="mailto:hbase/_HOST@EXAMPLE.COM">hbase/_HOST@EXAMPLE.COM�Q?/p>

hbase.regionserver.keytab.file�Q�kerberos keytab 文�g的全路径名，用来为HRegionServer做log�Q�无默认��|��

hbase.regionserver.kerberos.principal�Q�运行HRegionServer�q�程旉��要kerberos的principal name�Q�这个配�|�就是这个name的��|��形如�Q?a href="mailto:hbase/_HOST@EXAMPLE.COM">hbase/_HOST@EXAMPLE.COM�Q?/p>

hadoop.policy.file�Q�RPC服务器做权限认证旉��要的安全�{�略配置文�g�Q�在Hbase security开启后使用�Q�默认是habse-policy.xml�Q?/p>

hbase.superuser�Q�Hbase security 开启后的超�U�用户配�|�，一�p�d��由逗号隔开的user或者group�Q?/p>

hbase.auth.key.update.interval�Q�Hbase security开启后服务端更新认证key的间隔时��_��默认�?6400000毫秒�Q?/p>

hbase.auth.token.max.lifetime�Q�Hbase security开启后�Q�认证token下发后的生存周期�Q�默认是604800000毫秒�Q?/p>

hbase.ipc.client.fallback-to-simple-auth-allowed�Q�client使用安全�q�接去链接一台非安全服务器时�Q�服务器提示client切换到SASL SIMPLE认证模式�Q�非安全�Q�，如果讄��为true�Q�则client同意切换到非安全�q�接�Q�如果false�Q�则退��接；

hbase.coprocessor.region.classes�Q�逗号分隔的Coprocessores列表�Q�会被加载到默认所有表上。在自己实现了一个Coprocessor后，��其��d��到Hbase的classpath�q�加入全限定名。也可以延迟加蝲�Q�由HTableDescriptor指定�Q?/p>

hbase.rest.port�Q�Hbase REST服务器的端口�Q�默认是8080�Q?/p>

hbase.rest.readonly�Q�定义REST服务器启动的模式�Q�有两种方式�Q�false�Q�所有http�Ҏ��都将被通过-GET/PUT/POST/DELETE�Q�true�Q�只有get�Ҏ��ok。默认值是false�Q?/p>

hbase.rest.threads.max�Q�REST服务器线�E�池的最大线�E�数�Q�池满的话新��h��会自动排队，限制�q�个配置可以控制服务器的内存量，预防OOM�Q�默认是100�Q?/p>

hbase.rest.threads.min�Q�同上类��|��最��线�E�数�Q��ؓ了确保服务器的服务状态，默认�?�Q?/p>

hbase.rest.support.proxyuser�Q��REST服务器支持proxy-user 模式�Q�默认是false�Q?/p>

hbase.defaults.for.version.skip�Q�是否蟩�q�hbase.defaults.for.version的检查，默认是false�Q?/p>

hbase.coprocessor.master.classes�Q�由HMaster�q�程加蝲的coprocessors�Q�逗号分隔�Q�全部实现org.apache.hadoop.hbase.coprocessor.MasterObserver�Q�同coprocessor�c�M��Q�加入classpath及全限定名；

hbase.coprocessor.abortonerror�Q�如果coprocessor加蝲��p�|或者初始化��p�|或者抛出Throwable对象�Q�则��L��退出。设�|��ؓfalse会让�pȝ��l�箋�q�行�Q�但是coprocessor的状态会不一��_��所以一般debug时才会设�|��ؓfalse�Q�默认是true�Q?/p>

hbase.online.schema.update.enable�Q�设�|�true来允许在�U�schema变更�Q�默认是true�Q?/p>

hbase.table.lock.enable�Q�设�|��ؓtrue来允许在schema变更时zk锁表�Q�锁表可以组�l��ƈ发的schema变更��D��的表状态不一��_��默认是true�Q?/p>

hbase.thrift.minWorkerThreads�Q�线�E�池的core size�Q�在辑ֈ��q�里配置的量�U�后�Q�新�U�程才会再新的连接创立时创徏�Q�默认是16�Q?/p>

hbase.thrift.maxWorkerThreads�Q�顾名思义�Q�最大线�E�数�Q�达到这个数字后�Q�服务器开始drop�q�接�Q�默认是1000�Q?/p>

hbase.thrift.maxQueuedRequests�Q�Thrift�q�接队列的最大数�Q�如果线�E�池满，会先在这个队列中�~�存��h��Q�缓存上限就是该配置�Q�默认是1000�Q?/p>

hbase.thrift.htablepool.size.max�Q�Thrift服务器上table pool的最大上限，默认�?000�Q?/p>

hbase.offheapcache.percentage�Q�JVM参数-XX:MaxDirectMemorySize的百分比��|��默认�?�Q�即不开启堆外分配；

hbase.data.umask.enable�Q�开启后�Q�文件在regionserver写入时会有权限相兌��定，默认是false不开启；

hbase.data.umask�Q�开启上面一��w��|�后�Q�文件的权限umask�Q�默认是000�Q?/p>

hbase.metrics.showTableName�Q�是否�ؓ每个指标昄��表名前缀�Q�默认是true�Q?/p>

hbase.metrics.exposeOperationTimes�Q�是否进行关于操作在使用旉��l�度的指标报告，比如GET PUT DELETE INCREMENT�{�，默认是true�Q?/p>

hbase.snapshot.enabled�Q�是否允许snapshot被��用、存储和克隆�Q�默认是true�Q?/p>

hbase.snapshot.restore.take.failsafe.snapshot�Q�在restore�q�程中，如果��p�|则启用snapshot替换�Q�成功则删除掉snapshot�Q�默认开启true�Q?/p>

hbase.snapshot.restore.failsafe.name�Q�刚才所说过�E�中snapshot的名字，默认是hbase-failsafe-{snapshot.name}-{restore.timestamp}�Q?/p>

hbase.server.compactchecker.interval.multiplier�Q�检查是否需要compact的时间间隔，一般情冉|��在比如memstore flush后或者其他事件触发compact的，但是有时也需要不同的compact�{�略�Q�所以需要周期性的��查具体间�?hbase.server.compactchecker.interval.multiplier * hbase.server.thread.wakefrequency�Q�默�?000�Q?/p>

hbase.lease.recovery.timeout�Q�在dfs �U�约��时旉��Q�超时则攑ּ��Q�默认是900000�Q?/p>

hbase.lease.recovery.dfs.timeout�Q�dfs恢复�U�约调用的超时时限，默认�?4000�Q?/p>

changedi 2014-03-31 17:18 发表评论

changedi — Fri, 03 Jan 2014 10:34:00 GMT

hbase的配�|�接上篇

hbase.client.write.buffer�Q�htable客户端写�~�冲区大��，默认�?097152BYTE�Q�这个缓冲区��是��Z��写数据的临时存放�Q�设�|�大了，��费客户端和服务端的存储�Q�设�|�小了，如果写的数据多，太多的RPC又带来网�l�开销�Q�官方给的一个服务端存储耗费评估计算是：hbase.client.write.buffer*hbase.regionserver.handler.count�Q�服务端的rs的处理handler个数也很关键�Q?/p>

hbase.client.pause�Q�pause旉��Q�在hbase发生get或其他操作fail掉的时候进行pause的时间长度，默认�?00�Q?/p>

hbase.client.retries.number�Q�发生操作fail时的重试�ơ数�Q�结合上一个指标一��h��控制�ȝ��重试旉��Q�默认是35�Q?/p>

hbase.client.max.total.tasks�Q�一个HTable实例可以提交�l�集��的最大�ƈ发�Q务数�Q�默认是100�Q?/p>

hbase.client.max.perserver.tasks�Q�一个HTable实例�l�一台regionserver提交的最大�ƈ发�Q务数�Q�默认是5�Q?/p>

hbase.client.max.perregion.tasks�Q�客��L��q�接一台region的最大连接数�Q�换句话��_��当你有这么多个连接在region�Ӟ��新的操作不被发送直到有操作完成�Q�默认是1�Q?/p>

hbase.client.scanner.caching�Q�做scanner的next操作�Ӟ��如果再本地client没找刎ͼ��~�存的数据行敎ͼ��q�个值的讄��也需要权衡，�~�存的多则快�Q�但吃内存，�~�存的少则需要多的拉数据�Q?需要注意的事项是如果两�ơ调用的旉��差大于scanner的timeout�Q�则不要讄��该��|��默认�?00�Q?/p>

hbase.client.keyvalue.maxsize�Q�一个KeyValue实例的最大大��，�q�是存储文�g中一个entry的容量上限，合理的设�|�这个值可以控制regionserver的split�Q�split不会拆keyvalue�Q�所以把keyvalue的大��设�|��ؓregionserver大小的一个比例分敎ͼ�可除�Q�是个不错的选择�Q�默认是10485760�Q?/p>

hbase.client.scanner.timeout.period�Q�结合刚才的caching做的一个，scanner的超时时��_��默认�?0000毫秒�Q?/p>

hbase.client.localityCheck.threadPoolSize�Q�做localityCheck的线�E�池大小�Q�默认是2�Q?/p>

hbase.bulkload.retries.number�Q�做bulk load的最大重试次敎ͼ�默认�?�Q�即代表不断重试�Q?/p>

hbase.balancer.period�Q�Master�q�行balancer的周期，默认�?00000毫秒�Q?/p>

hbase.regions.slop�Q�如果有regionserver的region数目��过average+(average*slop)�Q�则rebalance�Q�默认是0.2�Q?/p>

hbase.server.thread.wakefrequency�Q�服务线�E�的sleep旉��Q�默�?0000毫秒�Q�比如log roller�Q?/p>

hbase.server.versionfile.writeattempts�Q�退出前�?version file的重试次敎ͼ�默认3�Q�每�ơ尝试的间隔�׃��一个参数控�Ӟ��

hbase.hregion.memstore.flush.size�Q�Memstore写磁盘的flush阈��|��过�q�个大小��flush�Q�默认是134217728�Q?/p>

hbase.hregion.preclose.flush.size�Q�如果一个region的memstore的大��等于或��过�q�个参数的量�Q�在关闭region�Ӟ��攄��关闭flag�Q�，要提前flush�Q�然后region关闭下线�Q�默认大��是5242880�Q?/p>

hbase.hregion.memstore.block.multiplier�Q�如果memstore的大��满��hbase.hregion.block.memstore * hbase.hregion.flush.size个byte�Q�那么阻塞update�Q�这个配�|�可以避免不必要的长旉��split或者compact�Q�甚��x��OOME�Q�默认是2�Q?/p>

hbase.hregion.memstore.mslab.enabled�Q�开启MemStore-Local Allocation Buffer�Q�这个配�|�可以避免在高写入的情况下的堆内存碎片，可以降低在大堆情况下的stop-the-world GC频率�Q�默认是true�Q?/p>

hbase.hregion.max.filesize�Q�HStoreFile的最大尺寸，换句话说�Q�当一个region里的列族的�Q意一个HStoreFile��过�q�个大小�Q�那么region�q�行split�Q�默认是10737418240�Q?/p>

hbase.hregion.majorcompaction�Q�一个region的所有HStoreFile�q�行major compact的时间周期，默认�?04800000 毫秒�Q?天）�Q?/p>

hbase.hregion.majorcompaction.jitter�Q�major compaction的发生抖动范��_��q�么理解比较�Ҏ��Q�就是说上一个参��C��是一个严格周期，会有个抖动，�q�个参数��是�q�个抖动的比例，默认�?.5�Q?/p>

hbase.hstore.compactionThreshold�Q�一个HStore存储HStoreFile的个数阈��|��过�q�个阈值则所有的HStoreFile会被写到一个新的HStore�Q�需要��^衡取舍，默认�?�Q?/p>

hbase.hstore.blockingStoreFiles�Q�一个HStore存储HStoreFile��d��update的阈��|��过�q�个阈��|��HStore��p��行compaction�Q�直到做完才允许update�Q�默认是10�Q?/p>

hbase.hstore.blockingWaitTime�Q�一个更强力的配�|�，配合上一个参敎ͼ�当HStore��d��update�Ӟ��过�q�个旉��限制�Q�阻塞取消，��q��compaction没有完成�Q�update也不会再被阻塞，默认�?0000毫秒�Q?/p>

hbase.hstore.compaction.max�Q�每个minor compaction的HStoreFile个数上限�Q�默认是10�Q?/p>

hbase.hstore.compaction.kv.max�Q�在flushing或者compacting时允许的最大keyvalue个数�Q�如果有大的KeyValue或者OOME的话则配�|�一个小的��|��如果行数多且��则配置大��|��默认�?0�Q?/p>

hbase.storescanner.parallel.seek.threads�Q�如果�ƈ行查扑ּ�启的�U�程池大��，默认�?0�Q?/p>

hfile.block.cache.size�Q�一个配�|�比例，允许最大堆的对应比例的内存作�ؓHFile和HStoreFile的block cache�Q�默认是0.4�Q�即40%�Q�设�|��ؓ0则disable�q�个比例�Q�不推荐�q�么做；

hfile.block.index.cacheonwrite�Q�在index写入的时候允许put无根�Q�non-root�Q�的多��索引块到block cache里，默认是false�Q?/p>

hfile.index.block.max.size�Q�在多��索引的树形结构里�Q�如果�Q何一层的block index辑ֈ��q�个配置大小�Q�则block写出�Q�同时替换上新的block�Q�默认是131072�Q?/p>

hfile.format.version�Q�新文�g的HFile 格式版本�Q�设�|��ؓ1来测试向后兼容，默认�?�Q?/p>

hfile.block.bloom.cacheonwrite�Q�对于组合布隆过滤器的内联block开启cache-on-write�Q�默认是false�Q?/p>

io.storefile.bloom.block.size�Q�一个联合布隆过滤器的单一块（chunk�Q�的大小�Q�这个值是一个��D��|��默认�?31072�Q?/p>

hbase.rs.cacheblocksonwrite�Q�当一个HFile block完成时是否写入block cache�Q�默认是false�Q?/p>

changedi 2014-01-03 18:34 发表评论

changedi — Mon, 09 Dec 2013 12:07:00 GMT

�l�之前写的设计和使用tip�Q�这里补充一下hbase所有的配置��V��之前涉及的一个项目在hbase设计上存在缺��P��当进入时已经存在着很多rowkey设计和读写问题，现在重读hbase文档�Q�把所有的配置��Ҏ��理一遍�?/p>

hbase.tmp.dir�Q�本地文件系�l�的临时目录�Q�默认是${java.io.tmpdir}/hbase-${user.name}�Q?/p>

hbase.rootdir�Q�hbase持久化的目录�Q�被所有regionserver�׃�n�Q�默�?{hbase.tmp.dir}/hbase�Q�一般设�|��ؓhdfs://namenode.example.org:9000/hbase�c�M��Q�带全限定名�Q?/p>

hbase.cluster.distributed�Q�hbase集群模式�q�作与否的标志，默认是false�Q�开启需要设�|��ؓtrue�Q�false时启动hbase会在一个jvm中运行hbase和zk�Q?/p>

hbase.zookeeper.quorum�Q�重要的也是必须讄��的，启动zk的服务器列表�Q�逗号分隔�Q�cluster模式下必��设�|�，默认是localhost�Q�hbase客户端也需要设�|�这个值去讉K��zk�Q?/p>

hbase.local.dir�Q�本地文件系�l�被用在本地存储的目录，默认${hbase.tmp.dir}/local/�Q?/p>

hbase.master.port�Q�hbase master�l�定的端口，默认�?0000�Q?/p>

hbase.master.info.port�Q�hbase master web 界面的端口，默认�?0010�Q�设�|��ؓ-1可以��用ui�Q?/p>

hbase.master.info.bindAddress�Q�master web界面的绑定地址�Q�默认是0.0.0.0�Q?/p>

hbase.master.logcleaner.plugins�Q�清理日志的插�g列表�Q�逗号分隔�Q�被LogService调用的LogCleanerDelegate�Q�可以自定义�Q�顺序执行，清理WAL和HLog�Q�默�?code>org.apache.hadoop.hbase.master.cleaner.TimeToLiveLogCleaner

hbase.master.logcleaner.ttl�Q�HLog�?oldlogdir目录中生存的最长时��_��q�期则被Master��L��E�回�Ӟ��默认�?00000�Q?/p>

hbase.master.hfilecleaner.plugins�Q�HFile的清理插件列表，逗号分隔�Q�被HFileService调用�Q�可以自定义�Q�默认org.apache.hadoop.hbase.master.cleaner.TimeToLiveHFileCleaner

hbase.master.catalog.timeout�Q�Catalog Janitor从master到META的超时时��_��我们知道�q�个Janitor是定时的去META扫描表目录，来决定回收无用的regions�Q�默认是600000�Q?/p>

fail.fast.expired.active.master�Q�如果master�q�期�Q�那么不需要从zk恢复�Q�直接终止，默认是false�Q?/p>

hbase.master.dns.interface�Q�master的dns接口�Q�向该接口提供ip�Q�默认是default�Q?/p>

hbase.master.dns.nameserver�Q�master使用的dns��L��名或者ip�Q�默认是default�Q?/p>

hbase.regionserver.port�Q�regionserver�l�定的端口，默认�?0020�Q?/p>

hbase.regionserver.info.port�Q�regionserver的web界面端口�Q?1取消界面�Q�默认是60030�Q?/p>

hbase.regionserver.info.bindAddress�Q�regionserver的web�l�定�Q�默认是0.0.0.0�Q?/p>

hbase.regionserver.info.port.auto�Q�master或者regionserver是否自动搜烦�l�定的端口，默认是false�Q?/p>

hbase.regionserver.handler.count�Q�regionserver上rpc listener的个敎ͼ�http://kenwublog.com/hbase-performance-tuning把这个配�|�称为io�U�程敎ͼ�其实雷同�Q�就是说在regionserver上一个处理rpc的handler�Q�默认是30�Q?/p>

hbase.regionserver.msginterval�Q�regionserver向master发消息的间隔�Q�默�?000毫秒�Q?/p>

hbase.regionserver.optionallogflushinterval�Q�如果没有��够的entry触发同步�Q�那么过了这个间隔后HLog��被同步到HDFS�Q�默认是1000毫秒�Q?/p>

hbase.regionserver.regionSplitLimit�Q�regionsplit的最大限额，默认是MAX_INT=2147483647�Q�设�|�这个限制后�Q�在到达限制时region split��׃��会再�q�行�Q?/p>

hbase.regionserver.logroll.period�Q�不��有多少版本�Q�直接roll掉commit log的周期，也就是说一个固定的旉��周期�Q�到期就roll�Q�默认是3600000毫秒�Q?/p>

hbase.regionserver.logroll.errors.tolerated�Q�可接受的WAL关闭错误个数�Q�到辑֐��触发服务器�l�止�Q�设�|��ؓ0那么在WAL writer做log rolling��p�|时就停止region server�Q�默认是2�Q?/p>

hbase.regionserver.hlog.reader.impl�Q�HLog 文�greader的实现类�Q�默认是org.apache.hadoop.hbase.regionserver.wal.ProtobufLogReader�Q?/p>

hbase.regionserver.hlog.writer.impl�Q�HLog 文�gwriter的实现类�Q�默认是org.apache.hadoop.hbase.regionserver.wal.ProtobufLogWriter�Q?/p>

hbase.regionserver.global.memstore.upperLimit�Q�memstore在regionserver内存中的上限�Q�届时新的update被阻塞�ƈ且flush被强制写�Q�默认是0.4��是堆内存的40%�Q�阻塞状态持�l�到regionserver的所有memstore的容量到达hbase.regionserver.global.memstore.lowerLimit�Q?/p>

hbase.regionserver.global.memstore.lowerLimit�Q�memstore在regionserver内存中的最大上限，到达时flush��p��强制写，默认�?.38�{��h�?8%的内存容量；

hbase.regionserver.optionalcacheflushinterval�Q�一个edit版本在内存中的cache旉��Q�默�?600000毫秒�Q�设�|��ؓ0的话则禁止自动flush�Q?/p>

hbase.regionserver.catalog.timeout�Q�regionserver的Catalog Janitor讉K��META的超时时��_��默认�?00000�Q?/p>

hbase.regionserver.dns.interface�Q�同master�c�M��~~不讲

hbase.regionserver.dns.nameserver�Q�同master�c�M��

zookeeper.session.timeout�Q�这是个值得说道一下的配置�Q�首先ZK客户端要用，Hbase使用zk的客��L��联系��M��Q�同时也被用来启动一个zk server�Q�作为zk的maxSessionTimeout�Q��ȝ��来说��是regionserver与zk的关键参敎ͼ�如果�q�接��时�Q�master会重新的balance�Q�regionserver也会被从集群名单中清除，默认�?0000�Q�一个问题是如果zk 由hbase自己�l�护�Q�那么该参数作�ؓregionserver�q�接是一个��|��如果zk在另外的集群�Q�那么zk自己的maxSessionTimeout参数��优先于Hbase的该参数�Q�届时可能会发生��时旉��不同的问题；

zookeeper.znode.parent�Q�znode存放root region的地址�Q�默认是root-region-server�Q?/p>

zookeeper.znode.acl.parent�Q�root znode的acl�Q�默认acl�Q?/p>

hbase.zookeeper.dns.interface�Q�zk的dns接口�Q�默认default�Q?/p>

hbase.zookeeper.dns.nameserver�Q�zk的dns服务地址�Q�默认default�Q?/p>

hbase.zookeeper.peerport�Q�zk的peer之间的通讯端口�Q�默认是2888�Q?/p>

hbase.zookeeper.leaderport�Q�zk选leader的通讯端口�Q�默认是3888�Q?/p>

hbase.zookeeper.useMulti�Q�zk支持多重update�Q�要求zk�?.4版本以上�Q�默认是false�Q?/p>

hbase.config.read.zookeeper.config�Q�让hbaseconfig去读zk的config�Q�默认false�Q�也不支持开启，�q�个功能很搞�W�~~个�h观点�Q?/p>

hbase.zookeeper.property.initLimit�Q�zk的配�|�，同步的属性个数限�Ӟ��默认10个~~没用�Q?/p>

hbase.zookeeper.property.syncLimit�Q�zk的配�|�，同步时的每次��h��的条敎ͼ�默认5个；

hbase.zookeeper.property.dataDir�Q�zk的配�|�，snapshot存放的目录，默认�?{hbase.tmp.dir}/zookeeper�Q?/p>

hbase.zookeeper.property.clientPort�Q�zk的配�|�，client�q�zk的端口，默认2181�Q?/p>

hbase.zookeeper.property.maxClientCnxns�Q�zk的配�|�，允许接入zk的最大�ƈ发连接数的限�Ӟ��按ip分配�Q�默�?00�Q?/p>

changedi 2013-12-09 20:07 发表评论

changedi — Wed, 13 Nov 2013 06:41:00 GMT

hive配置的最�l�章

fs.har.impl�Q�访问Hadoop Archives的实现类�Q�低于hadoop 0.20版本的都不兼容，默认是org.apache.hadoop.hive.shims.HiveHarFileSystem�Q?/p>

hive.archive.enabled�Q�是否允许归档操作，默认是false�Q?/p>

hive.archive.har.parentdir.settable�Q�在创徏HAR文�g时必��要有父目录�Q�需要手动设�|�，在新的hadoop版本会支持，默认是false�Q?/p>

hive.support.concurrency�Q�hive是否支持�q�发�Q�默认是false�Q�支持读写锁的话�Q�必��要起zookeeper�Q?/p>

hive.lock.mapred.only.operation�Q�控制是否在查询时加锁，默认是false�Q?/p>

hive.lock.numretries�Q�获取锁时尝试的重试�ơ数�Q�默认是100�Q?/p>

hive.lock.sleep.between.retries�Q�在重试间隔的睡眠时��_��默认60�U�；

hive.zookeeper.quorum�Q�zk地址列表�Q�默认是�I�；

hive.zookeeper.client.port�Q�zk服务器的�q�接端口�Q�默认是2181�Q?/p>

hive.zookeeper.session.timeout�Q�zk客户端的session��时旉��Q�默认是600000�Q?/p>

hive.zookeeper.namespace�Q�在所有zk节点创徏后的父节点，默认是hive_zookeeper_namespace�Q?/p>

hive.zookeeper.clean.extra.nodes�Q�在session�l�束时清除所有额外node�Q?/p>

hive.cluster.delegation.token.store.class�Q�代理token的存储实现类�Q�默认是org.apache.hadoop.hive.thrift.MemoryTokenStore�Q�可以设�|��ؓorg.apache.hadoop.hive.thrift.ZooKeeperTokenStore来做负蝲均衡集群�Q?/p>

hive.cluster.delegation.token.store.zookeeper.connectString�Q�zk的token存储�q�接�Ԍ��默认是localhost:2181�Q?/p>

hive.cluster.delegation.token.store.zookeeper.znode�Q�token存储的节点跟路径�Q�默认是/hive/cluster/delegation�Q?/p>

hive.cluster.delegation.token.store.zookeeper.acl�Q�token存储的ACL�Q�默认是sasl:hive/host1@example.com:cdrwa,sasl:hive/host2@example.com:cdrwa�Q?/p>

hive.use.input.primary.region�Q�从一张input表创��Ӟ��创徏�q�个表到input表的主region�Q�默认是true�Q?/p>

hive.default.region.name�Q�默认region的名字，默认是default�Q?/p>

hive.region.properties�Q�region的默认的文�g�pȝ��和jobtracker�Q�默认是�I�；

hive.cli.print.header�Q�查询输出时是否打印名字和列�Q�默认是false�Q?/p>

hive.cli.print.current.db�Q�hive的提�C�里是否包含当前的db�Q�默认是false�Q?/p>

hive.hbase.wal.enabled�Q�写入hbase时是否强制写wal日志�Q�默认是true�Q?/p>

hive.hwi.war.file�Q�hive在web接口是的war文�g的�\径，默认是lib/hive-hwi-xxxx(version).war�Q?/p>

hive.hwi.listen.host�Q�hwi监听的host地址�Q�默认是0.0.0.0�Q?/p>

hive.hwi.listen.port�Q�hwi监听的端口，默认�?999�Q?/p>

hive.test.mode�Q�hive是否�q�行在测试模式，默认是false�Q?/p>

hive.test.mode.prefix�Q�在��试模式�q�行�Ӟ��表的前缀字符�Ԍ��默认是test_�Q?/p>

hive.test.mode.samplefreq�Q�如果hive在测试模式运行，�q�且表未分桶�Q�抽样频率是多少�Q�默认是32�Q?/p>

hive.test.mode.nosamplelist�Q�在��试模式�q�行时不�q�行抽样的表列表�Q�默认是�I�；

changedi 2013-11-13 14:41 发表评论

基数估计

changedi — Tue, 12 Nov 2013 02:10:00 GMT

问题的背景是在大数据冲击下，很多数据指标�Q�尤其是涉及到去重的�Q�的计算无法在合理的�I�间和时间内完成�Q�比如uv的计��，数学原型问题�{��h于持�l�的向一个集合中写数�Q�重复的不记�Q�要求最�l�给出集合中不重复的元素的个敎ͼ�集合的势�Q�。而比较暴力的做法是随着数字增多不断的扩展集合的大小�Q�让它放下所有的敎ͼ�最�l�数��个个数就OK。显然这��L��I�间复杂度在单机下是做不到的�Q�所以多数做法是利用分布式原理将uv数据隔离��C��同的计算节点�Q�每个计��节点自行维护一个类��D��L��集合�Q�wdm实时里的布隆�q��o器）�Q�然后分而治之，最后merge��Z��份结果数据�?

基数估计的初衷就是�ؓ了解军_��大数据的前提下，如何以低成本的空间复杂度去计��超大集合的势的问题�Q�换句话��_��通过基数估计�Q�单机做到计��亿�U�别uv�Q�误差在4%以内。解��x��\主要是概率估计，具体原理和做法参�?blog和论文原文�?

��Z��实验的目的，我简单实��C��暴力做法bruteforce-bf�Q�布隆过滤器-bbf�Q�loglog-llc和hyperloglog-hllc四个��法�Q�比较一下基��C��计这个计��去重指标的逻辑是否可行�Q�llc非常��谱�Q�可能是我分桶数没有调整好，��׃��贴出�l�果了）�?

预处理方法：1-N生成随机uid�Q�模拟N�ơ（均匀分布�Q�，jvm启动-Xmx1024m�?

实验�l�果�Q?

附加说明一下，期望值如何计��：其实�q�个实验的数学原型就是一个长度�ؓk的均匀分布的（1-N)的随机数列，求不重复的元素个数的期望。我实验里k=n�Q�这是一�U�极端情况（实验设计�U��ؓ方便计算�Q�如果k较大会导致计��超慢，uv5000w时根本无法计��出来，增大k理论上会提高�_�ֺ��Q�我实验�q�的一�l�数据是100w uv 500wpv�?hllc的值是991234�Q�误�?lt;1%�Q�，理论上k相当于pv�Q�在递推公式中k��于无穷时期望等于n�?

�q�个递推的计��可以通过�l�合分析推导�Q�推导方法不详说了（当然我有可能推导错了~~数学功底实在不行了）�Q�通项公式见matlab代码�?

syms e n;
e = n-(1/n)*((1-2*n+n*n)*((n-1)/n)^(n-2)+(1-n)*n+n*(n-1));

vpa(subs(e,'n',1000000),10)

另外�Q�我个�h认�ؓ分布式布隆过滤器的方案是非常好的�Q�因为空间和旉��都比较均衡，且精��度高，基数估计的方法本质上�I�间复杂度O(1)�Q�时间复杂度代码高效一点也可以非常快，但是�~�点是精��度�E�微�Ơ缺�Q�且不易分布式计��（因�ؓ它天生适合单进�E�，llc分桶均衡也是单进�E�做比较好，分布式完全是牛刀杀鸡）�?

ref blog: http://blog.codinglabs.org/articles/cardinality-estimate-exper.html#ref4

��法实现的java代码可见github�Q?https://github.com/changedi/card-estimate

changedi 2013-11-12 10:10 发表评论

changedi — Sat, 26 Oct 2013 11:35:00 GMT

hive的index索引相关、统计相兛_��认证授权相关的配�|��?/p>

hive.index.compact.file.ignore.hdfs�Q�在索引文�g中存储的hdfs地址��在�q�行时被忽略�Q�如果开启的话；如果数据被迁�U�，那么索引文�g依然可用�Q�默认是false�Q?/p>

hive.optimize.index.filter.compact.minsize�Q�压�~�烦引自动应用的最��输入大��，默认�?368709120�Q?/p>

hive.optimize.index.filter.compact.maxsize�Q�同上，相反含义�Q�如果是负��g��表正无穷�Q�默认是-1�Q?/p>

hive.index.compact.query.max.size�Q�一个��用压�~�烦引做的查询能取到的最大数据量�Q�默认是10737418240 个byte�Q�负��g��表无�I�大�Q?/p>

hive.index.compact.query.max.entries�Q��用压�~�烦引查询时能读到的最大烦引项敎ͼ�默认�?0000000�Q�负��g��表无�I�大�Q?/p>

hive.index.compact.binary.search�Q�在索引表中是否开启二分搜索进行烦引项查询�Q�默认是true�Q?/p>

hive.exec.concatenate.check.index�Q�如果设�|��ؓtrue�Q�那么在做ALTER TABLE tbl_name CONCATENATE on a table/partition�Q�有索引�Q?操作�Ӟ��抛出错误�Q�可以帮助用户避免index的删除和重徏�Q?/p>

hive.stats.dbclass�Q�存储hive临时�l�计信息的数据库�Q�默认是jdbc:derby�Q?/p>

hive.stats.autogather�Q�在insert overwrite命��o时自动收集统计信息，默认开启true�Q?/p>

hive.stats.jdbcdriver�Q�数据库临时存储hive�l�计信息的jdbc驱动�Q?/p>

hive.stats.dbconnectionstring�Q��时统计信息数据库�q�接�Ԍ��默认jdbc:derby:databaseName=TempStatsStore;create=true�Q?/p>

hive.stats.defaults.publisher�Q�如果dbclass不是jdbc或者hbase�Q�那么��用这个作为默认发布，必须实现StatsPublisher接口�Q�默认是�I�；

hive.stats.defaults.aggregator�Q�如果dbclass不是jdbc或者hbase�Q�那么��用该�c�d��聚集�Q�要求实现StatsAggregator接口�Q�默认是�I�；

hive.stats.jdbc.timeout�Q�jdbc�q�接��时配置�Q�默�?0�U�；

hive.stats.retries.max�Q�当�l�计发布合聚集在更新数据库时出现异常时最大的重试�ơ数�Q�默认是0�Q�不重试�Q?/p>

hive.stats.retries.wait�Q�重试次��C��间的�{�待�H�口�Q�默认是3000毫秒�Q?/p>

hive.client.stats.publishers�Q�做count的job的统计发布类列表�Q�由逗号隔开�Q�默认是�I�；必须实现org.apache.hadoop.hive.ql.stats.ClientStatsPublisher接口�Q?/p>

hive.client.stats.counters�Q�没什么用~~~

hive.security.authorization.enabled�Q�hive客户端是否认证，默认是false�Q?/p>

hive.security.authorization.manager�Q�hive客户端认证的��理�c�，默认是org.apache.hadoop.hive.ql.security.authorization.DefaultHiveAuthorizationProvider�Q�用户定义的要实现org.apache.hadoop.hive.ql.security.authorization.HiveAuthorizationProvider�Q?/p>

hive.security.authenticator.manager�Q�hive客户端授权的��理�c�，默认是org.apache.hadoop.hive.ql.security.HadoopDefaultAuthenticator�Q�用户定义的需要实现org.apache.hadoop.hive.ql.security.HiveAuthenticatorProvider�Q?/p>

hive.security.authorization.createtable.user.grants�Q�当表创建时自动授权�l�用��P��默认是空�Q?/p>

hive.security.authorization.createtable.group.grants�Q�同上，自动授权�l�组�Q�默认是�I�；

hive.security.authorization.createtable.role.grants�Q�同上，自动授权�l�角�Ԍ��默认是空�Q?/p>

hive.security.authorization.createtable.owner.grants�Q�同上，自动授权�l�owner�Q�默认是�I�；

hive.security.metastore.authorization.manager�Q�metastore的认证管理类�Q�默认是org.apache.hadoop.hive.ql.security.authorization.DefaultHiveMetastoreAuthorizationProvider�Q�用户定义的必须实现org.apache.hadoop.hive.ql.security.authorization.HiveMetastoreAuthorizationProvider接口�Q�接口参数要包含org.apache.hadoop.hive.ql.security.authorization.StorageBasedAuthorizationProvider接口�Q��用HDFS的权限控制认证而不是hive的基于grant的方式；

hive.security.metastore.authenticator.manager�Q�metastore端的授权��理�c�，默认是org.apache.hadoop.hive.ql.security.HadoopDefaultMetastoreAuthenticator�Q�自定义的必��d��现org.apache.hadoop.hive.ql.security.HiveAuthenticatorProvider接口�Q?/p>

hive.metastore.pre.event.listeners�Q�在metastore做数据库��M��操作前执行的事�g监听�c�d��表；

changedi 2013-10-26 19:35 发表评论

changedi — Mon, 14 Oct 2013 09:39:00 GMT

关于MetaStore�Q�metastore是个独立的关�p�L��据库�Q�用来持久化schema和系�l�元数据�?/p>

hive.metastore.local�Q�控制hive是否�q�接一个远�E�metastore服务器还是开启一个本地客��L��jvm�Q�默认是true�Q�Hive0.10已经取消了该配置��；

javax.jdo.option.ConnectionURL�Q�JDBC�q�接字符�Ԍ��默认jdbc:derby:;databaseName=metastore_db;create=true�Q?/p>

javax.jdo.option.ConnectionDriverName�Q�JDBC的driver�Q�默�?tt>org.apache.derby.jdbc.EmbeddedDriver�Q?/p>

javax.jdo.PersisteneManagerFactoryClass�Q�实现JDO PersistenceManagerFactory的类名，默认org.datanucleus.jdo.JDOPersistenceManagerFactory�Q?/p>

javax.jdo.option.DetachAllOnCommit�Q�事务提交后detach所有提交的对象�Q�默认是true�Q?/p>

javax.jdo.option.NonTransactionalRead�Q�是否允讔R��事务的读�Q�默认是true�Q?/p>

javax.jdo.option.ConnectionUserName�Q�username�Q�默认APP�Q?/p>

javax.jdo.option.ConnectionPassword�Q�password�Q�默认mine�Q?/p>

javax.jdo.option.Multithreaded�Q�是否支持�ƈ发访问metastore�Q�默认是true�Q?/p>

datanucleus.connectionPoolingType�Q��用连接池来访问JDBC metastore�Q�默认是DBCP�Q?/p>

datanucleus.validateTables�Q�检查是否存在表的schema�Q�默认是false�Q?/p>

datanucleus.validateColumns�Q�检查是否存在列的schema�Q�默认false�Q?/p>

datanucleus.validateConstraints�Q�检查是否存在constraint的schema�Q�默认false�Q?/p>

datanucleus.stroeManagerType�Q�元数据存储�c�d��Q�默认rdbms�Q?/p>

datanucleus.autoCreateSchema�Q�在不存在时是否自动创徏必要的schema�Q�默认是true�Q?/p>

datanucleus.aotuStartMechanismMode�Q�如果元数据表不正确�Q�抛出异常，默认是checked�Q?/p>

datanucleus.transactionIsolation�Q�默认的事务隔离�U�别�Q�默认是read-committed�Q?/p>

datanucleus.cache.level2�Q��用二�U�缓存，默认是false�Q?/p>

datanucleus.cache.level2.type�Q�二�U�缓存的�c�d��Q�有两种�Q�SOFT:软引用，WEAK:弱引用，默认是SOFT�Q?/p>

datanucleus.identifierFactory�Q�id工厂生��表和列名的名字，默认是datanucleus�Q?/p>

datanucleus.plugin.pluginRegistryBundleCheck�Q�当plugin被发现�ƈ且重复时的行为，默认是LOG�Q?/p>

hive.metastroe.warehouse.dir�Q�数据仓库的位置�Q�默认是/user/hive/warehouse�Q?/p>

hive.metastore.execute.setugi�Q�非安全模式�Q�设�|��ؓtrue会��ometastore以客��L��的用户和�l�权限执行DFS操作�Q�默认是false�Q�这个属性需要服务端和客��L��同时讄��Q?/p>

hive.metastore.event.listeners�Q�metastore的事件监听器列表�Q�逗号隔开�Q�默认是�I�；

hive.metastore.partition.inherit.table.properties�Q�当新徏分区时自动��承的key列表�Q�默认是�I�；

hive.metastore.end.function.listeners�Q�metastore函数执行�l�束时的监听器列表，默认是空�Q?/p>

hive.metastore.event.expiry.duration�Q�事件表中事件的�q�期旉��Q�默认是0�Q?/p>

hive.metastore.event.clean.freq�Q�metastore中清理过期事件的定时器的�q�行周期�Q�默认是0�Q?/p>

hive.metastore.connect.retries�Q�创建metastore�q�接时的重试�ơ数�Q�默认是5�Q?/p>

hive.metastore.client.connect.retry.delay�Q�客��L��在连�l�的重试�q�接�{�待的时��_��默认1�Q?/p>

hive.metastore.client.socket.timeout�Q�客��L��socket��时旉��Q�默�?0�U�；

hive.metastore.rawstore.impl�Q�原始metastore的存储实现类�Q�默认是org.apache.hadoop.hive.metastore.ObjectStore�Q?/p>

hive.metastore.batch.retrieve.max�Q�在一个batch获取中，能从metastore里取出的最大记录数�Q�默认是300�Q?/p>

hive.metastore.ds.connection.url.hook�Q�查找JDO�q�接url时hook的名字，默认是javax.jdo.option.ConnectionURL�Q?/p>

hive.metastore.ds.retry.attempts�Q�当出现�q�接错误旉��试连接的�ơ数�Q�默认是1�ơ；

hive.metastore.ds.retry.interval�Q�metastore重试�q�接的间隔时��_��默认1000毫秒�Q?/p>

hive.metastore.server.min.threads�Q�在thrift服务池中最��的工作�U�程敎ͼ�默认�?00�Q?/p>

hive.metastore.server.max.threads�Q�最大线�E�数�Q�默认是100000�Q?/p>

hive.metastore.server.tcp.keepalive�Q�metastore的server是否开启长�q�接�Q�长�q�可以预防半�q�接的积累，默认是true�Q?/p>

hive.metastore.sasl.enabled�Q�metastore thrift接口的安全策略，开启则用SASL加密接口�Q�客��L��必须要用Kerberos机制鉴权�Q�默认是不开启false�Q?/p>

hive.metastore.kerberos.keytab.file�Q�在开启sasl后kerberos的keytab文�g存放路径�Q�默认是�I�；

hive.metastore.kerberos.principal�Q�kerberos的principal�Q�_HOST部分会动态替换，默认�?a href="mailto:hive-metastore/_HOST@EXAMPLE.COM">hive-metastore/_HOST@EXAMPLE.COM�Q?/p>

hive.metastore.cache.pinobjtypes�Q�在cache中支持的metastore的对象类型，由逗号分隔�Q�默认是Table,StorageDescriptor,SerDeInfo,Partition,Database,Type,FieldSchema,Order�Q?/p>

hive.metastore.authorization.storage.checks�Q�在做类似drop partition操作�Ӟ��metastore是否要认证权限，默认是false�Q?/p>

hive.metastore.schema.verification�Q�强制metastore的schema一致性，开启的话会校验在metastore中存储的信息的版本和hive的jar包中的版本一致性，�q�且关闭自动schema�q�移�Q�用户必��L��动的升��hive�q�且�q�移schema�Q�关闭的话只会在版本不一致时�l�出警告�Q�默认是false不开启；

changedi 2013-10-14 17:39 发表评论

changedi — Mon, 23 Sep 2013 10:12:00 GMT

hive.exec.drop.ignorenoneexistent�Q�在drop表或者视图时如果发现表或视图不存在，是否报错�Q�默认是true�Q?/p>

hive.exec.show.job.failure.debug.info�Q�在作业��p�|时是否提供一个�Q务debug信息�Q�默认true�Q?/p>

hive.auto.progress.timeout�Q�运行自动progressor的时间间隔，默认�?�{��h于forever�Q?/p>

hive.table.parameters.default�Q�新��的属性字�D�默认��|��默认是empty�I�；

hive.variable.substitute�Q�是否支持变量替换，如果开启的话，支持语法�?{var} ${system:var}�?{env.var}�Q�默认是true�Q?/p>

hive.error.on.empty.partition�Q�在遇到�l�果为空的动态分区时是否报错�Q�默认是false�Q?/p>

hive.exim.uri.scheme.whitelist�Q�在导入导出数据时提供的一个白名单列表�Q�列表项之间由逗号分隔�Q�默认hdfs,pfile�Q?/p>

hive.limit.row.max.size�Q�字面意思理解就是在使用limit做数据的子集查询时保证的最��行数据量，默认�?00000�Q?/p>

hive.limit.optimize.limit.file�Q��用简单limit查询数据子集�Ӟ��可抽��L��最大文件数�Q�默认是10�Q?/p>

hive.limit.optimize.enable�Q��用简单limit抽样数据时是否开启优化选项�Q�默认是false�Q�关于limit的优化问题，在hive programming书中解释的是�q�个feature有drawback�Q�对于抽��L��不确定性给��Z��风险提示�Q?/p>

hive.limit.optimize.fetch.max�Q��用简单limit抽样数据允许的最大行敎ͼ�默认50000�Q�查询query受限�Q�insert不受影响�Q?/p>

hive.rework.mapredwork�Q�是否重做mapreduce�Q�默认是false�Q?/p>

hive.sample.seednumber�Q�用来区分抽��L��数字�Q�默认是0�Q?/p>

hive.io.exception.handlers�Q�io异常处理handler�c�d��表，默认是空�Q�当record reader发生io异常�Ӟ��p��些handler来处理异常；

hive.autogen.columnalias.prefix.label�Q�当在执行中自动产生列别名的前缀�Q�当�c�M��count�q�样的聚合函数�v作用�Ӟ��如果不明��指出count(a) as xxx的话�Q�那么默认会从列的位�|�的数字开始算��h��加，比如�W�一个count的结果会冠以列名_c0�Q�接下来依次�c�L��Q�默认值是_c�Q�数据开发过�E�中应该很多人都看到�q�这个别名；

hive.autogen.columnalias.prefix.includefuncname�Q�在自动生成列别名时是否带函数的名字�Q�默认是false�Q?/p>

hive.exec.perf.logger�Q�负责记录客��L��性能指标的日志类名，必须是org.apache.hadoop.hive.ql.log.PerfLogger的子�c�，默认是org.apache.hadoop.hive.ql.log.PerfLogger�Q?/p>

hive.start.cleanup.scratchdir�Q�当启动hive服务时是否清�I�hive的scratch目录�Q�默认是false�Q?/p>

hive.output.file.extension�Q�输出文件扩展名�Q�默认是�I�；

hive.insert.into.multilevel.dirs�Q�是否插入到多��目录�Q�默认是false�Q?/p>

hive.files.umask.value�Q�hive创徏文�g�Ҏ��的dfs.umask��|��默认�?002�Q?/p>

changedi 2013-09-23 18:12 发表评论

changedi — Tue, 10 Sep 2013 05:45:00 GMT

hive.exec.script.maxerrsize�Q�一个map/reduce��d��允许打印到标准错误里的最大字节数�Q��ؓ了防止脚本把分区日志填满�Q�默认是100000�Q?/p>

hive.exec.script.allow.partial.consumption�Q�hive是否允许脚本不从标准输入中读取�Q何内容就成功退出，默认关闭false�Q?/p>

hive.script.operator.id.env.var�Q�在用户使用transform函数做自定义map/reduce�Ӟ��存储唯一的脚本标识的环境变量的名字，默认HIVE_SCRIPT_OPERATOR_ID�Q?/p>

hive.exec.compress.output�Q�控制hive的查询结果输出是否进行压�~�，压羃方式在hadoop的mapred.output.compress中配�|�，默认不压�~�false�Q?/p>

hive.exec.compress.intermediate�Q�控制hive的查询中间结果是否进行压�~�，同上条配�|�，默认不压�~�false�Q?/p>

hive.exec.parallel�Q�hive的执行job是否�q�行执行�Q�默认不开启false�Q�在很多操作如join�Ӟ��子查询之间�ƈ无关联可独立�q�行�Q�这�U�情况下开启�ƈ行运��可以大大加速；

hvie.exec.parallel.thread.number�Q��ƈ行运��开启时�Q�允许多��作业同时计��，默认�?�Q?/p>

hive.exec.rowoffset�Q�是否提供行偏移量的虚拟列，默认是false不提供，Hive有两个虚拟列:一个是INPUT__FILE__NAME,表示输入文�g的�\径，另外一个是BLOCK__OFFSET__INSIDE__FILE�Q�表�C��录在文�g中的块偏�U�量�Q�这�Ҏ��查出��C��W�合预期或者null�l�果的查询是很有帮助的（来自�q�篇文章�Q�；

hive.task.progress�Q�控制hive是否在执行过�E�中周期性的更新��d��q�度计数器，开启这个配�|�可以帮助job tracker更好的监控�Q务的执行情况�Q�但是会带来一定的性能损耗，当动态分区标志hive.exec.dynamic.partition开启时�Q�本配置自动开启；

hive.exec.pre.hooks�Q�执行前�|�条�Ӟ��一个用逗号分隔开的实��C��org.apache.hadoop.hive.ql.hooks.ExecuteWithHookContext接口的java class列表�Q�配�|�了该配�|�后�Q�每个hive��d��执行前都要执行这个执行前钩子�Q�默认是�I�；

hive.exec.post.hooks�Q�同上，执行后钩子，默认是空�Q?/p>

hive.exec.failure.hooks�Q�同上，异常旉��子，在程序发生异常时执行�Q�默认是�I�；

hive.mergejob.maponly�Q�试囄��成一个只有map的�Q务去做merge�Q�前提是支持CombineHiveInputFormat�Q�默认开启true�Q?/p>

hive.mapjoin.smalltable.filesize�Q�输入表文�g的mapjoin阈��|��如果输入文�g的大��小于该��|��则试囑ְ�普通join转化为mapjoin�Q�默�?5MB�Q?/p>

hive.mapjoin.localtask.max.memory.usage�Q�mapjoin本地��d��执行时hash表容�U�key/value的最大量�Q�超�q�这个值的话本��C�Q务会自动退出，默认�?.9�Q?/p>

hive.mapjoin.followby.gby.localtask.max.memory.usage�Q�类��g��面，只不�q�是如果mapjoin后有一个group by的话�Q�该配置控制�c�M��q�样的query的本地内存容量上限，默认�?.55�Q?/p>

hive.mapjoin.check.memory.rows�Q�在�q�算了多��行后执行内存��用量��查，默认100000�Q?/p>

hive.heartbeat.interval�Q�发送心跳的旉��间隔�Q�在mapjoin和filter操作中��用，默认1000�Q?/p>

hive.auto.convert.join�Q�根据输入文件的大小军_��是否��普通join转换为mapjoin的一�U�优化，默认不开启false�Q?/p>

hive.script.auto.progress�Q�hive的transform/map/reduce脚本执行时是否自动的��进度信息发送给TaskTracker来避免�Q务没有响应被误杀�Q�本来是当脚本输出到标准错误�Ӟ��发送进度信息，但是开启该��后�Q�输出到标准错误也不会导致信息发送，因此有可能会造成脚本有死循环产生�Q�但是TaskTracker却没有检查到从而一直��@环下去；

hive.script.serde�Q�用戯��本�{换输入到输出时的SerDe�U�束�Q�默认是org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe�Q?/p>

hive.script.recordreader�Q�从脚本��L��据的时候的默认reader�Q�默认是org.apache.hadoop.hive.ql.exec.TextRecordReader�Q?/p>

hive.script.recordwriter�Q�写数据到脚本时的默认writer�Q�默认org.apache.hadoop.hive.ql.exec.TextRecordWriter�Q?/p>

hive.input.format�Q�输入格式，默认是org.apache.hadoop.hive.ql.io.CombineHiveInputFormat�Q�如果出现问题，可以改用org.apache.hadoop.hive.ql.io.HiveInputFormat�Q?/p>

hive.udtf.auto.progress�Q�UDTF执行时hive是否发送进度信息到TaskTracker�Q�默认是false�Q?/p>

hive.mapred.reduce.tasks.speculative.execution�Q�reduce��d��推测执行是否开启，默认是true�Q?/p>

hive.exec.counters.pull.interval�Q�运行中job轮询JobTracker的时间间隔，讄��会影响JobTracker的load�Q�设�|�大可能看不��行�Q务的信息�Q�要��d�^衡，默认�?000�Q?/p>

hive.enforce.bucketing�Q�数据分桶是否被强制执行�Q�默认false�Q�如果开启，则写入table数据时会启动分桶�Q�个人对分桶的理解可以参�?a >�q�篇文章�Q�写的较清楚�Q�有�C�Z��Q�分桶在做全表查询和带有分区字段查询时感觉媄响不大，主要作用在sampling�Q?/p>

hive.enforce.sorting�Q�开启强制排序时�Q�插数据到表中会�q�行强制排序�Q�默认false�Q?/p>

hive.optimize.reducededuplication�Q�如果数据已�l�根据相同的key做好聚合�Q�那么去除掉多余的map/reduce作业�Q�此配置是文档的推荐配置�Q�徏议打开�Q�默认是true�Q?/p>

hive.exec.dynamic.partition�Q�在DML/DDL中是否支持动态分区，默认false�Q?/p>

hive.exec.dynamic.partition.mode�Q�默认strict�Q�在strict模式下，动态分区的使用必须在一个静态分区确认的情况下，其他分区可以是动态；

hive.exec.max.dynamic.partitions�Q�动态分区的上限�Q�默�?000�Q?/p>

hive.exec.max.dynamic.partitions.pernode�Q�每个mapper/reducer节点可以创徏的最大动态分区数�Q�默�?00�Q?/p>

hive.exec.max.created.files�Q�一个mapreduce作业能创建的HDFS文�g最大数�Q�默认是100000�Q?/p>

hive.exec.default.partition.name�Q�当动态分区启用时�Q�如果数据列里包含null或者空字符串的话，数据会被插入到这个分区，默认名字是__HIVE_DEFAULT_PARTITION__�Q?/p>

hive.fetch.output.serde�Q�FetchTask序列化fetch输出旉��要的SerDe�Q�默认是org.apache.hadoop.hive.serde2.DelimitedJSONSerDe;

hive.exec.mode.local.auto�Q�是否由hive军_��自动在local模式下运行，默认是false�Q�关于满��什么条件开启localmode�Q�可以参�?a >�q�篇文章�Q?/p>

changedi 2013-09-10 13:45 发表评论

changedi — Thu, 15 Aug 2013 06:47:00 GMT

标记�_�体的我个�h认�ؓ在运行hive sql时可以根据数据情况进行设�|�，当然�q�有一些join的优化的配置需要单独研�I��?/p>

mapred.reduce.tasks�Q�每个作业的reduce��d��敎ͼ�默认是hadoop client的配�|?个；

hive.exec.reducers.bytes.per.reducer�Q�每个reducer的大��，默认�?G�Q�输入文件如果是10G�Q�那么就会�v10个reducer�Q?/p>

hive.exec.reducers.max�Q�reducer的最大个敎ͼ�如果在mapred.reduce.tasks讄��|��那么hive��取该��g��为reducers的最大可能倹{��当然还要依赖（输入文�g大小/hive.exec.reducers.bytes.per.reducer�Q�所得出的大��，取其��g��为reducer的个敎ͼ�hive默认�?99�Q?/p>

hive.fileformat.check�Q�加载数据文件时是否校验文�g格式�Q�默认是true�Q?/p>

hive.groupby.skewindata�Q�group by操作是否允许数据倾斜�Q�默认是false�Q�当讄��为true�Ӟ��执行计划会生成两个map/reduce作业�Q�第一个MR中会��map的结果随机分布到reduce中，辑ֈ�负蝲均衡的目的来解决数据倾斜�Q�可以参看阿里巴巴数据��^台的�q�篇文章了解hive对于数据倾斜时group by的处理；

hive.groupby.mapaggr.checkinterval�Q�map端做聚合�Ӟ��group by 的key所允许的数据行敎ͼ��过该值则�q�行分拆�Q�默认是100000�Q?/p>

hive.mapred.local.mem�Q�本地模式时�Q�map/reduce的内存��用量�Q�默认是0�Q�就是无限制�Q?/p>

hive.mapjoin.followby.map.aggr.hash.percentmemory�Q�map端聚合时hash表的内存占比�Q�该讄��U�束group by在map join后进行，否则使用hive.map.aggr.hash.percentmemory来确认内存占比，默认�?.3�Q?/p>

hive.map.aggr.hash.force.flush.memeory.threshold�Q�map端聚合时hash表的最大可用内存，如果��过该值则�q�行flush数据�Q�默认是0.9�Q?/p>

hive.map.aggr.hash.min.reduction�Q�如果hash表的定w��与输入行��C��比超�q�这个数�Q�那么map端的hash聚合��被关闭�Q�默认是0.5�Q�设�|��ؓ1可以保证hash聚合�怸�被关闭；

hive.optimize.groupby�Q�在做分区和表查询时是否做分桶group by�Q�默认开启true�Q?/p>

hive.multigroupby.singlemr�Q�将多个group by产出��Z��个单一map/reduce��d��计划�Q�当然约束前提是group by有相同的key�Q�默认是false�Q?/p>

hive.optimize.cp�Q�列裁剪�Q�默认开启true�Q�在做查询时只读取用到的列，�q�个是个有用的优化；

hive.optimize.index.filter�Q�自动��用烦引，默认不开启false�Q?/p>

hive.optimize.index.groupby�Q�是否��用聚集烦引优化group-by查询�Q�默认关闭false�Q?/p>

hive.optimize.ppd�Q�是否支持谓词下推，默认开启；所谓谓词下推，��外层查询块�?WHERE 子句中的谓词�U�d��所包含的较低层查询块（例如视图�Q�，从而能够提早进行数据过滤以及有可能更好地利用烦引�?a >�q�篇中文文章��单的说明了在关系数据库里的应用；

hive.optimize.ppd.storage�Q�谓词下推开启时�Q�谓词是否下推到存储handler�Q�默认开启，在谓词下推关闭时不�v作用�Q?/p>

hive.ppd.recognizetransivity�Q�在�{�值join条�g下是否��地重复的谓词�q��o器，默认开启；

hive.join.cache.size�Q�在做表join时缓存在内存中的行数�Q�默�?5000�Q?/p>

hive.mapjoin.bucket.cache.size�Q�mapjoin时内存cache的每个key要存储多��个value�Q�默�?00�Q?/p>

hive.optimize.skewjoin�Q�是否开启数据倾斜的join优化�Q�默认不开启false�Q?/p>

hive.skewjoin.key�Q�判断数据倾斜的阈��|��如果在join中发现同��L��key��过该值则认�ؓ是该key是倾斜的join key�Q�默认是100000�Q?/p>

hive.skewjoin.mapjoin.map.tasks�Q�在数据倾斜join时map join的map数控�Ӟ��默认�?0000�Q?/p>

hive.skewjoin.mapjoin.min.split�Q�数据倾斜join时map join的map��d��的最��split大小�Q�默认是33554432�Q�该参数要结合上面的参数共同使用来进行细�_�度的控�Ӟ��

hive.mapred.mode�Q�hive操作执行时的模式�Q�默认是nonstrict非严格模式，如果是strict模式�Q�很多有风险的查询会被禁止运行，比如�W�卡��积的join和动态分区；

changedi 2013-08-15 14:47 发表评论

changedi — Tue, 13 Aug 2013 07:24:00 GMT

一个hive��d��Q�如何才��是优化的�Q务，hadoop job config里哪些配�|�能影响hive的效率。看看hive的详�l�配�|�我们可以略知一二�?/p>

hive的配�|�：

hive.ddl.output.format�Q�hive的ddl语句的输出格式，默认是text�Q�纯文本�Q�还有json格式�Q�这个是0.90以后才出的新配置�Q?/p>

hive.exec.script.wrapper�Q�hive调用脚本时的包装器，默认是null�Q�如果设�|��ؓpython的话�Q�那么在做脚本调用操作时语句会变为python