奇酷教育-Python培训|UI培训|WEB大前端培训|Unity3D培训|HTML5培训|人工智能培训|JAVA开发的教育品牌

您現(xiàn)在所在的位置:首頁 >關(guān)于奇酷 > 行業(yè)動態(tài) > 大數(shù)據(jù)培訓(xùn):基于Hadoop的數(shù)據(jù)分析平臺搭建方法

大數(shù)據(jù)培訓(xùn):基于Hadoop的數(shù)據(jù)分析平臺搭建方法

來源:奇酷教育 發(fā)表于:

  從概念上來講,我們可以把數(shù)據(jù)分析平臺分為接入層(Landing)、整合層(Integration)、表現(xiàn)層(Persentation)、語義層(Semantic)、終端用戶

  從概念上來講,我們可以把數(shù)據(jù)分析平臺分為接入層(Landing)、整合層(Integration)、表現(xiàn)層(Persentation)、語義層(Semantic)、終端用戶應(yīng)用(End-user applications)、元數(shù)據(jù)(Metadata)。基于Hadoop和數(shù)據(jù)庫的分析平臺基本概念和邏輯架構(gòu)是通用的,只是技術(shù)選型的不同:
  1. 接入層(Landing):以和源系統(tǒng)相同的結(jié)構(gòu)暫存原始數(shù)據(jù),有時(shí)被稱為“貼源層”或ODS;
  2. 整合層(Integration):持久存儲整合后的企業(yè)數(shù)據(jù),針對企業(yè)信息實(shí)體和業(yè)務(wù)事件建模,代表組織的“唯 真相來源”,有時(shí)被稱為“數(shù)據(jù)倉庫”;
  3. 表現(xiàn)層(Presentation):為滿足較終用戶的需求提供可消費(fèi)的數(shù)據(jù),針對商業(yè)智能和查詢性能建模,有時(shí)被稱為“數(shù)據(jù)集市”;
  4. 語義層(Semantic):提供數(shù)據(jù)的呈現(xiàn)形式和訪問控制,例如某種報(bào)表工具;
  5. 終端用戶應(yīng)用(End-user applications):使用語義層的工具,將表現(xiàn)層數(shù)據(jù)較終呈現(xiàn)給用戶,包括儀表板、報(bào)表、圖表等多種形式;
  6. 元數(shù)據(jù)(Metadata):記錄各層數(shù)據(jù)項(xiàng)的定義(Definitions)、血緣(Genealogy)、處理過程(Processing)。
  來自不同數(shù)據(jù)源的“生”數(shù)據(jù)(接入層),和經(jīng)過中間處理之后得到的整合層、表現(xiàn)層的數(shù)據(jù)模型,都會存儲在數(shù)據(jù)湖里備用。
  數(shù)據(jù)湖的實(shí)現(xiàn)通常建立在Hadoop生態(tài)上,可能直接存儲在HDFS上,也可能存儲在HBase或Hive上,也有用關(guān)系型數(shù)據(jù)庫作為數(shù)據(jù)湖存儲的可能性存在。
  一,數(shù)據(jù)分析平臺的數(shù)據(jù)處理流程:
  數(shù)據(jù)分析基本都是單獨(dú)的系統(tǒng),會將其他數(shù)據(jù)源的數(shù)據(jù)(即外部數(shù)據(jù))同步到數(shù)據(jù)平臺的存儲體系來(即數(shù)據(jù)湖), 般數(shù)據(jù)先進(jìn)入到接入層,這 層只簡單的將外部數(shù)據(jù)同步到數(shù)據(jù)分析平臺,沒有做其他處理,這樣同步出錯(cuò)后重試即可,有定時(shí)同步和流式同步兩種:
  1.定時(shí)同步即我們設(shè)定在指定時(shí)間觸發(fā)同步動作;
  2. 流式同步即外部數(shù)據(jù)通過Kafka或MQ發(fā)送數(shù)據(jù)修改通知及內(nèi)容。
  3. 數(shù)據(jù)分析平臺執(zhí)行對應(yīng)操作修改數(shù)據(jù)。
  接入層數(shù)據(jù)需要經(jīng)過ETL處理步驟才會進(jìn)入數(shù)據(jù)倉庫,數(shù)據(jù)分析人員都是基于數(shù)據(jù)倉庫的數(shù)據(jù)來做分析計(jì)算,數(shù)據(jù)倉庫可以看作數(shù)據(jù)分析的唯 來源,ETL會將接入層的數(shù)據(jù)做數(shù)據(jù)清洗、轉(zhuǎn)換,再加載到數(shù)據(jù)倉庫,過濾或處理不合法、不完整的數(shù)據(jù),并使用統(tǒng) 的維度來表示數(shù)據(jù)狀態(tài)。有的系統(tǒng)會在這 層就將數(shù)據(jù)倉庫構(gòu)建成數(shù)據(jù)立方體、將維度信息構(gòu)建成雪花或星型模式;也有的系統(tǒng)這 層只是統(tǒng) 了所有數(shù)據(jù)信息,沒有做數(shù)據(jù)立方體,留在數(shù)據(jù)集市做。
  數(shù)據(jù)集市是基于數(shù)據(jù)倉庫數(shù)據(jù)對業(yè)務(wù)關(guān)心的信息做計(jì)算提取后得到的進(jìn) 步信息,是業(yè)務(wù)人員直接面對的信息,是數(shù)據(jù)倉庫的進(jìn) 步計(jì)算和深入分析的結(jié)果, 般都會構(gòu)建數(shù)據(jù)立方體。系統(tǒng)開發(fā)人員 般會開發(fā)頁面來向用戶展示數(shù)據(jù)集市的數(shù)據(jù)。
  二、基于Hadoop構(gòu)建數(shù)據(jù)分析平臺
  基于Hadoop構(gòu)建的數(shù)據(jù)分析平臺建構(gòu)理論與數(shù)據(jù)處理流程與前面講的相同。傳統(tǒng)分析平臺使用數(shù)據(jù)庫套件構(gòu)建,這里我們使用Hadoop平臺的組件。
  上面這張圖是我們使用到的Hadoop平臺的組件,數(shù)據(jù)從下到動,數(shù)據(jù)處理流程和上面說的 致。
  任務(wù)調(diào)度負(fù)責(zé)將數(shù)據(jù)處理的流程串聯(lián)起來,這里我選擇使用的是Oozie,也有很多其它選擇。
  1、數(shù)據(jù)存儲:基于Hadoop的數(shù)據(jù)湖主要用到了HDFS、Hive和HBase,HDFS是Hadoop平臺的文件存儲系統(tǒng),我們直接操縱文件是比較復(fù)雜的,所以可以使用分布式數(shù)據(jù)庫Hive或HBase用來做數(shù)據(jù)湖,存儲接入層、數(shù)據(jù)倉庫、數(shù)據(jù)集市的數(shù)據(jù)。
  Hive和HBase各有優(yōu)勢:HBase是 個(gè)NoSQL數(shù)據(jù)庫,隨機(jī)查詢性能和可擴(kuò)展性都比較好;而Hive是 個(gè)基于HDFS的數(shù)據(jù)庫,數(shù)據(jù)文件都以HDFS文件(夾)形式存放,存儲了表的存儲位置(即在HDFS中的位置)、存儲格式等元數(shù)據(jù),Hive支持SQL查詢,可將查詢解析成Map/Reduce執(zhí)行,這對傳統(tǒng)的數(shù)據(jù)分析平臺開發(fā)人員更友好。
  Hive數(shù)據(jù)格式可選擇文本格式或二進(jìn)制格式,文本格式有csv、json或自定義分隔,二進(jìn)制格式有orc或parquet,他們都基于行列式存儲,在查詢時(shí)性能更好。同時(shí)可選擇分區(qū)(partition),這樣在查詢時(shí)可通過條件過濾進(jìn) 步減少數(shù)據(jù)量。接入層 般選擇csv或json等文本格式,也不做分區(qū),以盡量簡化數(shù)據(jù)同步。數(shù)據(jù)倉庫則選擇orc或parquet,以提升數(shù)據(jù)離線計(jì)算性能。
  數(shù)據(jù)集市這塊可以選擇將數(shù)據(jù)灌回傳統(tǒng)數(shù)據(jù)庫(RDBMS),也可以停留在數(shù)據(jù)分析平臺,使用NoSQL提供數(shù)據(jù)查詢或用Apache Kylin來構(gòu)建數(shù)據(jù)立方體,提供SQL查詢接口。
  2、數(shù)據(jù)同步:我們通過數(shù)據(jù)同步功能使得數(shù)據(jù)到達(dá)接入層,使用到了Sqoop和Kafka。數(shù)據(jù)同步可以分為全量同步和增量同步,對于小表可以采用全量同步,對于大表全量同步是比較耗時(shí)的, 般都采用增量同步,將變動同步到數(shù)據(jù)平臺執(zhí)行,以達(dá)到兩邊數(shù)據(jù) 致的目的。
  全量同步使用Sqoop來完成,增量同步如果考慮定時(shí)執(zhí)行,也可以用Sqoop來完成。或者,也可以通過Kafka等MQ流式同步數(shù)據(jù),前提是外部數(shù)據(jù)源會將變動發(fā)送到MQ。
  3、ETL及離線計(jì)算:我們使用Yarn來統(tǒng) 管理和調(diào)度計(jì)算資源。相較Map/Reduce,Spark SQL及Spark RDD對開發(fā)人員更友好,基于內(nèi)存計(jì)算效率也更高,所以我們使用Spark on Yarn作為分析平臺的計(jì)算選型。
  ETL可以通過Spark SQL或Hive SQL來完成,Hive在2.0以后支持存儲過程,使用起來更方便。當(dāng)然,出于性能考慮Saprk SQL也是不錯(cuò)的選擇。
主站蜘蛛池模板: 西安标准厂房_陕西工业厂房_西咸新区独栋厂房_长信科技产业园官方网站 | 泰安塞纳春天装饰公司【网站】 | 太原装修公司_山西整装家装设计_太原室内装潢软装_肖邦家居 | 杭州ROHS检测仪-XRF测试仪价格-百科 | 依维柯自动挡房车,自行式国产改装房车,小型房车价格,中国十大房车品牌_南京拓锐斯特房车 - 南京拓锐斯特房车 | 定制/定做冲锋衣厂家/公司-订做/订制冲锋衣价格/费用-北京圣达信 | 高低温万能试验机-复合材料万能试验机-馥勒仪器 | 武汉刮刮奖_刮刮卡印刷厂_为企业提供门票印刷_武汉合格证印刷_现金劵代金券印刷制作 - 武汉泽雅印刷有限公司 | 工业胀紧套_万向节联轴器_链条-规格齐全-型号选购-非标订做-厂家批发价格-上海乙谛精密机械有限公司 | 数控走心机-走心机价格-双主轴走心机-宝宇百科| 回收二手冲床_金丰旧冲床回收_协易冲床回收 - 大鑫机械设备 | 哈尔滨治「失眠/抑郁/焦虑症/精神心理」专科医院排行榜-京科脑康免费咨询 一对一诊疗 | 安驭邦官网-双向万能直角铣头,加工中心侧铣头,角度头[厂家直销] 闸阀_截止阀_止回阀「生产厂家」-上海卡比阀门有限公司 | 制氮设备-变压吸附制氮设备-制氧设备-杭州聚贤气体设备制造有限公司 | 机械立体车库租赁_立体停车设备出租_智能停车场厂家_春华起重 | 礼堂椅厂家|佛山市艺典家具有限公司 | 换链神器官网-友情链接交换、购买交易于一体的站长平台 | 道康宁消泡剂-瓦克-大川进口消泡剂供应商 | 广东之窗网| 护栏打桩机-打桩机厂家-恒新重工| 蒸汽吸附分析仪-进口水分活度仪|康宝百科 | 北京网络营销推广_百度SEO搜索引擎优化公司_网站排名优化_谷歌SEO - 北京卓立海创信息技术有限公司 | 合肥展厅设计-安徽展台设计-合肥展览公司-安徽奥美展览工程有限公司 | 工控机-图像采集卡-PoE网卡-人工智能-工业主板-深圳朗锐智科 | 恒温水槽与水浴锅-上海熙浩实业有限公司 | 砖机托板价格|免烧砖托板|空心砖托板厂家_山东宏升砖机托板厂 | 厌氧工作站-通用型厌氧工作站-上海胜秋科学仪器有限公司 | 土壤水分自动监测站-SM150便携式土壤水分仪-铭奥仪器 | 西门子气候补偿器,锅炉气候补偿器-陕西沃信机电工程有限公司 | 游泳池设计|设备|配件|药品|吸污机-东莞市太平洋康体设施有限公司 | 小型手持气象站-空气负氧离子监测站-多要素微气象传感器-山东天合环境科技有限公司 | 上海律师事务所_上海刑事律师免费咨询平台-煊宏律师事务所 | 采暖炉_取暖炉_生物质颗粒锅炉_颗粒壁炉_厂家加盟批发_烟台蓝澳采暖设备有限公司 | 成都APP开发-成都App定制-成都app开发公司-【未来久】 | 合肥制氮机_合肥空压机厂家_安徽真空泵-凯圣精机 | 真石漆,山东真石漆,真石漆厂家,真石漆价格-山东新佳涂料有限公司 | 沥青车辙成型机-车托式混凝土取芯机-混凝土塑料试模|鑫高仪器 | 汕头市盛大文化传播有限公司,www.11400.cc | 可程式恒温恒湿试验箱|恒温恒湿箱|恒温恒湿试验箱|恒温恒湿老化试验箱|高低温试验箱价格报价-广东德瑞检测设备有限公司 | 安德建奇火花机-阿奇夏米尔慢走丝|高维|发那科-北京杰森柏汇 | 重庆小面培训_重庆小面技术培训学习班哪家好【终身免费复学】 |