奇酷教育-Python培训|UI培训|WEB大前端培训|Unity3D培训|HTML5培训|人工智能培训|JAVA开发的教育品牌

您現在所在的位置:首頁 >學習資源 > JAVA入門教材 > 大數據入門:循序漸進,了解Hive是什么!

大數據入門:循序漸進,了解Hive是什么!

來源:奇酷教育 發表于:

Hive基于類似SQL的語言完成對hdfs數據的查詢分析。那么它到底做了什么呢?1 它支持各種命令,比如dfs的命令、腳本的執行2 如果你輸入的是

Hive基于類似SQL的語言完成對hdfs數據的查詢分析。

那么它到底做了什么呢?

  • 1 它支持各種命令,比如dfs的命令、腳本的執行

  • 2 如果你輸入的是sql,它會交給一個叫做Driver的東東,去編譯解析。

  • 3 把編譯出來的東西交給hadoop去跑...然后返回查詢結果。

說了這么多,其實你就可以把hive理解成搭建在hadoop(hdfs和mapreduce)之上的語言殼子...


如何搭建?如何使用?

學習如何使用Hive還是個很重要的部分的!這里就不詳細的說了,都舉個小例子,具體的還是去擼官網吧!

創建

在Hive里面創建表和在普通的數據庫中創建表示類似的,都是先創建(或者使用默認的)數據庫,然后創建表。

create database xxx; -- 創建數據庫
use xxx; --使用數據庫
create table student(id string,name string,age int); --創建表

導入導出數據

數據的導入最常用的就是從hdfs的文件導入或者本地文件導入,也可以從某個查詢結果直接創建或者導入。

Hive還支持把查詢結果導出到文件...

數據的導入

查詢

最普通的查詢,就是select from句式了,Hive還是做得比較通用的

--普通查詢
select * from xxx;
--帶條件的查詢
select * from xxx where age>30;
--限制返回列
select name,age from xxx;
--內連接
select a.*,b.* from tablea a join tableb b on a.id=b.sid;
--左連接
select * from a left outer join b on a.id=b.sid;
--右連接
select * from a right outer join b on a.id=b.sid;

函數

Hive支持一大堆的函數,比如普通的函數UDF:

floor、ceil、rand、cast等等

還支持聚合類型的函數UDAF:

count、avg、min、max、sum

還支持生成多行的函數。

更厲害的是,支持自定義擴展~~ 比如你們公司有個mapreduce的專家,可以封裝很多的函數,然后別的會sql的分析人員,就可以使用這些函數做數據倉庫的分析了。

存儲

首先需要說明的是,Hive在存儲的時候是不做任何處理的。不像是數據庫,存進去的數據要先進行特定的解析,比如解析成一個一個的字段,然后挨個存儲。每個數據庫的存儲引擎不同,解析的方式就不太一樣。

在Hive中的數據都是存儲在hdfs中的,如果沒有特殊的聲明,會以文本的形式存儲,即不會再存儲前做任何操作。簡直就相當于是原封不動的拷貝。當你執行查詢的時候,會按照預先指定的解析規則解析,然后返回。

舉個例子更好理解點:

你的文件:
1,a
2,b
3,c
那么創建表的時候會這樣:

create table xxx(a string,b string) row format delimited fields terminated by ',';

這個fields terminated by ','就聲明了字段按照逗號進行分割。
那么當hive執行查詢的時候,就會遍歷文件,遇到逗號就分隔成一個字段~最后把結果返回。

畢竟hdfs還是按照塊來存儲數據的....這也是為什么Hive不支持局部的修改和刪除,只能整體的覆蓋、刪除。

除了前面說的文本格式(TextFile),Hive還支持SequenceFile、RCFile,各有各的優勢。sequenceFile相當于把數據切分了,然后可以局部的記錄或者塊進行壓縮。RCFile則是列式存儲,這樣可以提高壓縮比;還可以在查詢的時候跳過不必要的列。

分區

在Hive中數據庫和表其實都是hdfs中的一個目錄,比如你的a數據庫下的表b,存儲的路徑是這樣的:

/user/hive/warehouse/a.db/b
后面兩個部分a.db/b是很關鍵的,即“數據庫名.db/表名”

在Hive還支持分區的概念。即按照某個特定的字段,對表進行劃分。通常這個字段都是虛擬的,比如時間....

create table aa(a string,b string) partitioned by(c string);

這樣就創建了分區表,如果c字段有"aaa"和"bbb"兩個值,最終的目錄就是醬嬸的!

/user/hive/warehouse/a.db/b/c=aaa
/user/hive/warehouse/a.db/b/c=bbb

注意都是目錄哦!真正的文件在這些目錄下面。

由于都是目錄,就很好理解,為什么分區查詢會快了!因為在hive中所有的查詢,基本都相當于是全表的掃描,因此要是能通過分區字段進行過濾,那么可以跳過很多不必要的文件了。

在Hive中支持靜態分區(即你導數據的時候指定分區字段的值)、動態分區(按照字段的值來定分區的名稱)。需要注意的是,動態分區會有很多潛在的風險,比如太多了!所以一定要合理規劃你的表存儲的設計。

索引

在hive0.7.0+的版本中,也是支持索引的。比如:

CREATE INDEX table02_index ON TABLE table02 (column3) AS 'COMPACT' WITH DEFERRED REBUILD;

CREATE INDEX table03_index ON TABLE table03 (column4) AS 'BITMAP' WITH DEFERRED REBUILD;

你也可以自定義索引的實現類,只要替換AS ''里面的東西,變成自己的包名類名就行。

不過一樣的,添加索引雖然會加快索引。可是也意味著增加了存儲的負擔...所以自己衡量吧!

主站蜘蛛池模板: 杭州标识标牌|文化墙|展厅|导视|户内外广告|发光字|灯箱|铭阳制作公司 - 杭州标识标牌|文化墙|展厅|导视|户内外广告|发光字|灯箱|铭阳制作公司 | 铜镍-康铜-锰铜-电阻合金-NC003 - 杭州兴宇合金有限公司 | 电气控制系统集成商-PLC控制柜变频控制柜-非标自动化定制-电气控制柜成套-NIDEC CT变频器-威肯自动化控制 | 托盘租赁_塑料托盘租赁_托盘出租_栈板出租_青岛托盘租赁-优胜必达 | 防渗膜厂家|养殖防渗膜|水产养殖防渗膜-泰安佳路通工程材料有限公司 | 东莞动力锂电池保护板_BMS智能软件保护板_锂电池主动均衡保护板-东莞市倡芯电子科技有限公司 | 稳尚教育加盟-打造高考志愿填报平台_新高考志愿填报加盟_学业生涯规划加盟 | 除湿机|工业除湿机|抽湿器|大型地下室车间仓库吊顶防爆除湿机|抽湿烘干房|新风除湿机|调温/降温除湿机|恒温恒湿机|加湿机-杭州川田电器有限公司 | 江苏南京多语种翻译-专业翻译公司报价-正规商务翻译机构-南京华彦翻译服务有限公司 | 信阳网站建设专家-信阳时代网联-【信阳网站建设百度推广优质服务提供商】信阳网站建设|信阳网络公司|信阳网络营销推广 | 压力控制器,差压控制器,温度控制器,防爆压力控制器,防爆温度控制器,防爆差压控制器-常州天利智能控制股份有限公司 | 路斯特伺服驱动器维修,伦茨伺服驱动器维修|万骏自动化百科 | 【德信自动化】点胶机_全自动点胶机_自动点胶机厂家_塑料热压机_自动螺丝机-深圳市德信自动化设备有限公司 | 山东PE给水管厂家,山东双壁波纹管,山东钢带增强波纹管,山东PE穿线管,山东PE农田灌溉管,山东MPP电力保护套管-山东德诺塑业有限公司 | 工业洗衣机_工业洗涤设备_上海力净工业洗衣机厂家-洗涤设备首页 bkzzy在职研究生网 - 在职研究生招生信息咨询平台 | 防勒索软件_数据防泄密_Trellix(原McAfee)核心代理商_Trellix(原Fireeye)售后-广州文智信息科技有限公司 | 铝合金线槽_铝型材加工_空调挡水板厂家-江阴炜福金属制品有限公司 | 仓储笼_仓储货架_南京货架_仓储货架厂家_南京货架价格低-南京一品仓储设备制造公司 | 天津仓库出租网-天津电商仓库-天津云仓一件代发-【博程云仓】 | 精密模具-双色注塑模具加工-深圳铭洋宇通 | 百度爱采购运营研究社社群-店铺托管-爱采购代运营-良言多米网络公司 | 钢制拖链生产厂家-全封闭钢制拖链-能源钢铝拖链-工程塑料拖链-河北汉洋机械制造有限公司 | Type-c防水母座|贴片母座|耳机接口|Type-c插座-深圳市步步精科技有限公司 | 博莱特空压机|博莱特-阿特拉斯独资空压机品牌核心代理商 | 老城街小面官网_正宗重庆小面加盟技术培训_特色面馆加盟|牛肉拉面|招商加盟代理费用多少钱 | 环氧铁红防锈漆_环氧漆_无溶剂环氧涂料_环氧防腐漆-华川涂料 | 筛分机|振动筛分机|气流筛分机|筛分机厂家-新乡市大汉振动机械有限公司 | 消防设施操作员考试报名时间,报名入口,报考条件 | 工业冷却塔维修厂家_方形不锈钢工业凉水塔维修改造方案-广东康明节能空调有限公司 | 京港视通报道-质量走进大江南北-京港视通传媒[北京]有限公司 | 自动化生产线-自动化装配线-直流电机自动化生产线-东莞市慧百自动化有限公司 | pbootcms网站模板|织梦模板|网站源码|jquery建站特效-html5模板网 | (中山|佛山|江门)环氧地坪漆,停车场地板漆,车库地板漆,聚氨酯地板漆-中山永旺地坪漆厂家 | ET3000双钳形接地电阻测试仪_ZSR10A直流_SXJS-IV智能_SX-9000全自动油介质损耗测试仪-上海康登 | 成都软件开发_OA|ERP|CRM|管理系统定制开发_成都码邻蜀科技 | 地图标注-手机导航电子地图如何标注-房地产商场地图标记【DiTuBiaoZhu.net】 | 禹城彩钢厂_钢结构板房_彩钢复合板-禹城泰瑞彩钢复合板加工厂 | 科研ELISA试剂盒,酶联免疫检测试剂盒,昆虫_植物ELISA酶免试剂盒-上海仁捷生物科技有限公司 | 电伴热系统施工_仪表电伴热保温箱厂家_沃安电伴热管缆工业技术(济南)有限公司 | 超细粉碎机|超微气流磨|气流分级机|粉体改性设备|超微粉碎设备-山东埃尔派粉碎机厂家 | 百度爱采购运营研究社社群-店铺托管-爱采购代运营-良言多米网络公司 |