奇酷教育-Python培训|UI培训|WEB大前端培训|Unity3D培训|HTML5培训|人工智能培训|JAVA开发的教育品牌

您現在所在的位置:首頁 >學習資源 > JAVA入門教材 > 大數據入門:循序漸進,了解Hive是什么!

大數據入門:循序漸進,了解Hive是什么!

來源:奇酷教育 發表于:

Hive基于類似SQL的語言完成對hdfs數據的查詢分析。那么它到底做了什么呢?1 它支持各種命令,比如dfs的命令、腳本的執行2 如果你輸入的是

Hive基于類似SQL的語言完成對hdfs數據的查詢分析。

那么它到底做了什么呢?

  • 1 它支持各種命令,比如dfs的命令、腳本的執行

  • 2 如果你輸入的是sql,它會交給一個叫做Driver的東東,去編譯解析。

  • 3 把編譯出來的東西交給hadoop去跑...然后返回查詢結果。

說了這么多,其實你就可以把hive理解成搭建在hadoop(hdfs和mapreduce)之上的語言殼子...


如何搭建?如何使用?

學習如何使用Hive還是個很重要的部分的!這里就不詳細的說了,都舉個小例子,具體的還是去擼官網吧!

創建

在Hive里面創建表和在普通的數據庫中創建表示類似的,都是先創建(或者使用默認的)數據庫,然后創建表。

create database xxx; -- 創建數據庫
use xxx; --使用數據庫
create table student(id string,name string,age int); --創建表

導入導出數據

數據的導入最常用的就是從hdfs的文件導入或者本地文件導入,也可以從某個查詢結果直接創建或者導入。

Hive還支持把查詢結果導出到文件...

數據的導入

查詢

最普通的查詢,就是select from句式了,Hive還是做得比較通用的

--普通查詢
select * from xxx;
--帶條件的查詢
select * from xxx where age>30;
--限制返回列
select name,age from xxx;
--內連接
select a.*,b.* from tablea a join tableb b on a.id=b.sid;
--左連接
select * from a left outer join b on a.id=b.sid;
--右連接
select * from a right outer join b on a.id=b.sid;

函數

Hive支持一大堆的函數,比如普通的函數UDF:

floor、ceil、rand、cast等等

還支持聚合類型的函數UDAF:

count、avg、min、max、sum

還支持生成多行的函數。

更厲害的是,支持自定義擴展~~ 比如你們公司有個mapreduce的專家,可以封裝很多的函數,然后別的會sql的分析人員,就可以使用這些函數做數據倉庫的分析了。

存儲

首先需要說明的是,Hive在存儲的時候是不做任何處理的。不像是數據庫,存進去的數據要先進行特定的解析,比如解析成一個一個的字段,然后挨個存儲。每個數據庫的存儲引擎不同,解析的方式就不太一樣。

在Hive中的數據都是存儲在hdfs中的,如果沒有特殊的聲明,會以文本的形式存儲,即不會再存儲前做任何操作。簡直就相當于是原封不動的拷貝。當你執行查詢的時候,會按照預先指定的解析規則解析,然后返回。

舉個例子更好理解點:

你的文件:
1,a
2,b
3,c
那么創建表的時候會這樣:

create table xxx(a string,b string) row format delimited fields terminated by ',';

這個fields terminated by ','就聲明了字段按照逗號進行分割。
那么當hive執行查詢的時候,就會遍歷文件,遇到逗號就分隔成一個字段~最后把結果返回。

畢竟hdfs還是按照塊來存儲數據的....這也是為什么Hive不支持局部的修改和刪除,只能整體的覆蓋、刪除。

除了前面說的文本格式(TextFile),Hive還支持SequenceFile、RCFile,各有各的優勢。sequenceFile相當于把數據切分了,然后可以局部的記錄或者塊進行壓縮。RCFile則是列式存儲,這樣可以提高壓縮比;還可以在查詢的時候跳過不必要的列。

分區

在Hive中數據庫和表其實都是hdfs中的一個目錄,比如你的a數據庫下的表b,存儲的路徑是這樣的:

/user/hive/warehouse/a.db/b
后面兩個部分a.db/b是很關鍵的,即“數據庫名.db/表名”

在Hive還支持分區的概念。即按照某個特定的字段,對表進行劃分。通常這個字段都是虛擬的,比如時間....

create table aa(a string,b string) partitioned by(c string);

這樣就創建了分區表,如果c字段有"aaa"和"bbb"兩個值,最終的目錄就是醬嬸的!

/user/hive/warehouse/a.db/b/c=aaa
/user/hive/warehouse/a.db/b/c=bbb

注意都是目錄哦!真正的文件在這些目錄下面。

由于都是目錄,就很好理解,為什么分區查詢會快了!因為在hive中所有的查詢,基本都相當于是全表的掃描,因此要是能通過分區字段進行過濾,那么可以跳過很多不必要的文件了。

在Hive中支持靜態分區(即你導數據的時候指定分區字段的值)、動態分區(按照字段的值來定分區的名稱)。需要注意的是,動態分區會有很多潛在的風險,比如太多了!所以一定要合理規劃你的表存儲的設計。

索引

在hive0.7.0+的版本中,也是支持索引的。比如:

CREATE INDEX table02_index ON TABLE table02 (column3) AS 'COMPACT' WITH DEFERRED REBUILD;

CREATE INDEX table03_index ON TABLE table03 (column4) AS 'BITMAP' WITH DEFERRED REBUILD;

你也可以自定義索引的實現類,只要替換AS ''里面的東西,變成自己的包名類名就行。

不過一樣的,添加索引雖然會加快索引。可是也意味著增加了存儲的負擔...所以自己衡量吧!

主站蜘蛛池模板: 雾度仪_雾度计_透光率雾度仪价格-三恩时(3nh)光电雾度仪厂家 | 优秀的临床医学知识库,临床知识库,医疗知识库,满足电子病历四级要求,免费试用 | 环氧乙烷灭菌器_压力蒸汽灭菌器_低温等离子过氧化氢灭菌器 _低温蒸汽甲醛灭菌器_清洗工作站_医用干燥柜_灭菌耗材-环氧乙烷灭菌器_脉动真空压力蒸汽灭菌器_低温等离子灭菌设备_河南省三强医疗器械有限责任公司 | 葡萄酒灌装机-食用油灌装机-液体肥灌装设备厂家_青州惠联灌装机械 | 铝箔袋,铝箔袋厂家,东莞铝箔袋,防静电铝箔袋,防静电屏蔽袋,防静电真空袋,真空袋-东莞铭晋让您的产品与众不同 | 999范文网_优质范文下载写作帮手 | 低气压试验箱_高低温低气压试验箱_低气压实验箱 |林频试验设备品牌 | 东莞海恒试验仪器设备有限公司| 储气罐,真空罐,缓冲罐,隔膜气压罐厂家批发价格,空压机储气罐规格型号-上海申容压力容器集团有限公司 | 多功能干燥机,过滤洗涤干燥三合一设备-无锡市张华医药设备有限公司 | 中高频感应加热设备|高频淬火设备|超音频感应加热电源|不锈钢管光亮退火机|真空管烤消设备 - 郑州蓝硕工业炉设备有限公司 | 欧版反击式破碎机-欧版反击破-矿山石料破碎生产线-青州奥凯诺机械 | 书信之家_书信标准模板范文大全| 防爆暖风机_防爆电暖器_防爆电暖风机_防爆电热油汀_南阳市中通智能科技集团有限公司 | 膏剂灌装旋盖机-眼药水灌装生产线-西林瓶粉剂分装机-南通博琅机械科技 | 金刚网,金刚网窗纱,不锈钢网,金刚网厂家- 河北萨邦丝网制品有限公司 | 注塑机-压铸机-塑料注塑机-卧式注塑机-高速注塑机-单缸注塑机厂家-广东联升精密智能装备科技有限公司 | 钛板_钛管_钛棒_钛盘管-无锡市盛钛科技有限公司 | 青岛成人高考_山东成考报名网 | pos机办理,智能/扫码/二维码/微信支付宝pos机-北京万汇通宝商贸有限公司 | 【ph计】|在线ph计|工业ph计|ph计厂家|ph计价格|酸度计生产厂家_武汉吉尔德科技有限公司 | 粒米特测控技术(上海)有限公司-测功机_减速机测试台_电机测试台 | 专业的新乡振动筛厂家-振动筛品质保障-环保振动筛价格—新乡市德科筛分机械有限公司 | 全国国际化学校_国际高中招生_一站式升学择校服务-国际学校网 | 机房监控|动环监控|动力环境监控系统方案产品定制厂家 - 迈世OMARA | 生产自动包装秤_颗粒包装秤_肥料包装秤等包装机械-郑州鑫晟重工科技有限公司 | 升降炉_真空气氛炉_管式电阻炉厂家-山东中辰电炉有限公司 | 德国GMN轴承,GMN角接触球轴承,GMN单向轴承,GMN油封,GMN非接触式密封 | 818手游网_提供当下热门APP手游_最新手机游戏下载 | 伟秀电气有限公司-10kv高低压开关柜-高低压配电柜-中置柜-充气柜-欧式箱变-高压真空断路器厂家 | 莱州网络公司|莱州网站建设|莱州网站优化|莱州阿里巴巴-莱州唯佳网络科技有限公司 | 刺绳_刀片刺网_刺丝滚笼_不锈钢刺绳生产厂家_安平县浩荣金属丝网制品有限公司-安平县浩荣金属丝网制品有限公司 | 机器视觉检测系统-视觉检测系统-机器视觉系统-ccd检测系统-视觉控制器-视控一体机 -海克易邦 | 跨境物流_美国卡派_中大件运输_尾程派送_海外仓一件代发 - 广州环至美供应链平台 | 家德利门业,家居安全门,别墅大门 - 安徽家德利门业有限公司 | 建大仁科-温湿度变送器|温湿度传感器|温湿度记录仪_厂家_价格-山东仁科 | 德州万泰装饰 - 万泰装饰装修设计软装家居馆 | 海南在线 海南一家| 菲希尔FISCHER测厚仪-铁素体检测仪-上海吉馨实业发展有限公司 | 汽车水泵_汽车水泵厂家-瑞安市骏迪汽车配件有限公司 | 工业铝型材生产厂家_铝合金型材配件批发精加工定制厂商 - 上海岐易铝业 |