奇酷教育-Python培训|UI培训|WEB大前端培训|Unity3D培训|HTML5培训|人工智能培训|JAVA开发的教育品牌

您現在所在的位置:首頁 >關于奇酷 > 行業動態 > 大數據培訓:基于Hadoop的數據分析平臺搭建方法

大數據培訓:基于Hadoop的數據分析平臺搭建方法

來源:奇酷教育 發表于:

  從概念上來講,我們可以把數據分析平臺分為接入層(Landing)、整合層(Integration)、表現層(Persentation)、語義層(Semantic)、終端用戶

  從概念上來講,我們可以把數據分析平臺分為接入層(Landing)、整合層(Integration)、表現層(Persentation)、語義層(Semantic)、終端用戶應用(End-user applications)、元數據(Metadata)。基于Hadoop和數據庫的分析平臺基本概念和邏輯架構是通用的,只是技術選型的不同:
  1. 接入層(Landing):以和源系統相同的結構暫存原始數據,有時被稱為“貼源層”或ODS;
  2. 整合層(Integration):持久存儲整合后的企業數據,針對企業信息實體和業務事件建模,代表組織的“唯 真相來源”,有時被稱為“數據倉庫”;
  3. 表現層(Presentation):為滿足較終用戶的需求提供可消費的數據,針對商業智能和查詢性能建模,有時被稱為“數據集市”;
  4. 語義層(Semantic):提供數據的呈現形式和訪問控制,例如某種報表工具;
  5. 終端用戶應用(End-user applications):使用語義層的工具,將表現層數據較終呈現給用戶,包括儀表板、報表、圖表等多種形式;
  6. 元數據(Metadata):記錄各層數據項的定義(Definitions)、血緣(Genealogy)、處理過程(Processing)。
  來自不同數據源的“生”數據(接入層),和經過中間處理之后得到的整合層、表現層的數據模型,都會存儲在數據湖里備用。
  數據湖的實現通常建立在Hadoop生態上,可能直接存儲在HDFS上,也可能存儲在HBase或Hive上,也有用關系型數據庫作為數據湖存儲的可能性存在。
  一,數據分析平臺的數據處理流程:
  數據分析基本都是單獨的系統,會將其他數據源的數據(即外部數據)同步到數據平臺的存儲體系來(即數據湖), 般數據先進入到接入層,這 層只簡單的將外部數據同步到數據分析平臺,沒有做其他處理,這樣同步出錯后重試即可,有定時同步和流式同步兩種:
  1.定時同步即我們設定在指定時間觸發同步動作;
  2. 流式同步即外部數據通過Kafka或MQ發送數據修改通知及內容。
  3. 數據分析平臺執行對應操作修改數據。
  接入層數據需要經過ETL處理步驟才會進入數據倉庫,數據分析人員都是基于數據倉庫的數據來做分析計算,數據倉庫可以看作數據分析的唯 來源,ETL會將接入層的數據做數據清洗、轉換,再加載到數據倉庫,過濾或處理不合法、不完整的數據,并使用統 的維度來表示數據狀態。有的系統會在這 層就將數據倉庫構建成數據立方體、將維度信息構建成雪花或星型模式;也有的系統這 層只是統 了所有數據信息,沒有做數據立方體,留在數據集市做。
  數據集市是基于數據倉庫數據對業務關心的信息做計算提取后得到的進 步信息,是業務人員直接面對的信息,是數據倉庫的進 步計算和深入分析的結果, 般都會構建數據立方體。系統開發人員 般會開發頁面來向用戶展示數據集市的數據。
  二、基于Hadoop構建數據分析平臺
  基于Hadoop構建的數據分析平臺建構理論與數據處理流程與前面講的相同。傳統分析平臺使用數據庫套件構建,這里我們使用Hadoop平臺的組件。
  上面這張圖是我們使用到的Hadoop平臺的組件,數據從下到動,數據處理流程和上面說的 致。
  任務調度負責將數據處理的流程串聯起來,這里我選擇使用的是Oozie,也有很多其它選擇。
  1、數據存儲:基于Hadoop的數據湖主要用到了HDFS、Hive和HBase,HDFS是Hadoop平臺的文件存儲系統,我們直接操縱文件是比較復雜的,所以可以使用分布式數據庫Hive或HBase用來做數據湖,存儲接入層、數據倉庫、數據集市的數據。
  Hive和HBase各有優勢:HBase是 個NoSQL數據庫,隨機查詢性能和可擴展性都比較好;而Hive是 個基于HDFS的數據庫,數據文件都以HDFS文件(夾)形式存放,存儲了表的存儲位置(即在HDFS中的位置)、存儲格式等元數據,Hive支持SQL查詢,可將查詢解析成Map/Reduce執行,這對傳統的數據分析平臺開發人員更友好。
  Hive數據格式可選擇文本格式或二進制格式,文本格式有csv、json或自定義分隔,二進制格式有orc或parquet,他們都基于行列式存儲,在查詢時性能更好。同時可選擇分區(partition),這樣在查詢時可通過條件過濾進 步減少數據量。接入層 般選擇csv或json等文本格式,也不做分區,以盡量簡化數據同步。數據倉庫則選擇orc或parquet,以提升數據離線計算性能。
  數據集市這塊可以選擇將數據灌回傳統數據庫(RDBMS),也可以停留在數據分析平臺,使用NoSQL提供數據查詢或用Apache Kylin來構建數據立方體,提供SQL查詢接口。
  2、數據同步:我們通過數據同步功能使得數據到達接入層,使用到了Sqoop和Kafka。數據同步可以分為全量同步和增量同步,對于小表可以采用全量同步,對于大表全量同步是比較耗時的, 般都采用增量同步,將變動同步到數據平臺執行,以達到兩邊數據 致的目的。
  全量同步使用Sqoop來完成,增量同步如果考慮定時執行,也可以用Sqoop來完成。或者,也可以通過Kafka等MQ流式同步數據,前提是外部數據源會將變動發送到MQ。
  3、ETL及離線計算:我們使用Yarn來統 管理和調度計算資源。相較Map/Reduce,Spark SQL及Spark RDD對開發人員更友好,基于內存計算效率也更高,所以我們使用Spark on Yarn作為分析平臺的計算選型。
  ETL可以通過Spark SQL或Hive SQL來完成,Hive在2.0以后支持存儲過程,使用起來更方便。當然,出于性能考慮Saprk SQL也是不錯的選擇。
主站蜘蛛池模板: 海尔生物医疗四川代理商,海尔低温冰箱四川销售-成都壹科医疗器械有限公司 | SMC-SMC电磁阀-日本SMC气缸-SMC气动元件展示网| 英国雷迪地下管线探测仪-雷迪RD8100管线仪-多功能数字听漏仪-北京迪瑞进创科技有限公司 | 招商帮-一站式网络营销服务|搜索营销推广|信息流推广|短视视频营销推广|互联网整合营销|网络推广代运营|招商帮企业招商好帮手 | 济南品牌设计-济南品牌策划-即合品牌策划设计-山东即合官网 | 冷库安装厂家_杭州冷库_保鲜库建设-浙江克冷制冷设备有限公司 | 钢格板|镀锌钢格板|热镀锌钢格板|格栅板|钢格板|钢格栅板|热浸锌钢格板|平台钢格板|镀锌钢格栅板|热镀锌钢格栅板|平台钢格栅板|不锈钢钢格栅板 - 专业钢格板厂家 | 合肥角钢_合肥槽钢_安徽镀锌管厂家-昆瑟商贸有限公司 | Jaeaiot捷易科技-英伟达AI显卡模组/GPU整机服务器供应商 | 短信通106短信接口验证码接口群发平台_国际短信接口验证码接口群发平台-速度网络有限公司 | 接地电阻测试仪[厂家直销]_电缆故障测试仪[精准定位]_耐压测试仪-武汉南电至诚电力设备 | CCE素质教育博览会 | CCE素博会 | 教育展 | 美育展 | 科教展 | 素质教育展 | 小型铜米机-干式铜米机-杂线全自动铜米机-河南鑫世昌机械制造有限公司 | 粉末冶金-粉末冶金齿轮-粉末冶金零件厂家-东莞市正朗精密金属零件有限公司 | 蒸汽吸附分析仪-进口水分活度仪|康宝百科 | 护腰带生产厂家_磁石_医用_热压护腰_登山护膝_背姿矫正带_保健护具_医疗护具-衡水港盛 | 杭州标识标牌|文化墙|展厅|导视|户内外广告|发光字|灯箱|铭阳制作公司 - 杭州标识标牌|文化墙|展厅|导视|户内外广告|发光字|灯箱|铭阳制作公司 | 手表腕表维修保养鉴定售后服务中心网点 - 名表维修保养 | 垃圾处理设备_餐厨垃圾处理设备_厨余垃圾处理设备_果蔬垃圾处理设备-深圳市三盛环保科技有限公司 | 废气处理设备-工业除尘器-RTO-RCO-蓄热式焚烧炉厂家-江苏天达环保设备有限公司 | 沈阳激光机-沈阳喷码机-沈阳光纤激光打标机-沈阳co2激光打标机 | 环氧乙烷灭菌器_压力蒸汽灭菌器_低温等离子过氧化氢灭菌器 _低温蒸汽甲醛灭菌器_清洗工作站_医用干燥柜_灭菌耗材-环氧乙烷灭菌器_脉动真空压力蒸汽灭菌器_低温等离子灭菌设备_河南省三强医疗器械有限责任公司 | 企业管理培训,企业培训公开课,企业内训课程,企业培训师 - 名课堂企业管理培训网 | 喷砂机厂家_自动除锈抛丸机价格-成都泰盛吉自动化喷砂设备 | 陕西安玻璃自动感应门-自动重叠门-磁悬浮平开门厂家【捷申达门业】 | 钢格栅板_钢格板网_格栅板-做专业的热镀锌钢格栅板厂家-安平县迎瑞丝网制造有限公司 | 不锈钢轴流风机,不锈钢电机-许昌光维防爆电机有限公司(原许昌光维特种电机技术有限公司) | 快速门厂家批发_PVC快速卷帘门_高速门_高速卷帘门-广州万盛门业 快干水泥|桥梁伸缩缝止水胶|伸缩缝装置生产厂家-广东广航交通科技有限公司 | 污泥烘干机-低温干化机-工业污泥烘干设备厂家-焦作市真节能环保设备科技有限公司 | 沥青灌缝机_路面灌缝机_道路灌缝机_沥青灌缝机厂家_济宁萨奥机械有限公司 | 丝杆升降机-不锈钢丝杆升降机-非标定制丝杆升降机厂家-山东鑫光减速机有限公司 | 破碎机_上海破碎机_破碎机设备_破碎机厂家-上海山卓重工机械有限公司 | 台式核磁共振仪,玻璃软化点测定仪,旋转高温粘度计,测温锥和测温块-上海麟文仪器 | 合肥弱电工程_安徽安防工程_智能化工程公司-合肥雷润 | HDPE土工膜,复合土工膜,防渗膜价格,土工膜厂家-山东新路通工程材料有限公司 | 滚筒烘干机_转筒烘干机_滚筒干燥机_转筒干燥机_回转烘干机_回转干燥机-设备生产厂家 | 农业四情_农业气象站_田间小型气象站_智慧农业气象站-山东风途物联网 | 深圳3D打印服务-3D打印加工-手板模型加工厂-悟空打印坊 | 大立教育官网-一级建造师培训-二级建造师培训-造价工程师-安全工程师-监理工程师考试培训 | 「钾冰晶石」氟铝酸钾_冰晶石_氟铝酸钠「价格用途」-亚铝氟化物厂家 | 威廉希尔WilliamHill·足球(中国)体育官方网站 |