奇酷教育-Python培训|UI培训|WEB大前端培训|Unity3D培训|HTML5培训|人工智能培训|JAVA开发的教育品牌

您現在所在的位置:首頁 >關于奇酷 > 行業動態 > 奇酷大數據:大數據分析,主要有哪些核心技術?

奇酷大數據:大數據分析,主要有哪些核心技術?

來源:奇酷教育 發表于:

  大數據分析:是指對規模巨大的數據進行分析。大數據可以概括為4個V, 數據量大、速度快、類型多、價值。  大數據作為時下最火熱的IT

  大數據分析:是指對規模巨大的數據進行分析。大數據可以概括為4個V, 數據量大、速度快、類型多、價值。
  大數據作為時下最火熱的IT行業的詞匯,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數據的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。隨著大數據時代的來臨,大數據分析也應運而生。那么大數據分析有哪些核心技術呢?下面奇酷大數據為大家淺談大數據分析。
  1.大數據生命周期
  數據技術棧底層是基礎設施,涵蓋計算資源、內存與存儲和網絡互聯,具體表現為計算節點、集群、機柜和數據。在此之上是數據存儲和管理,包括文件系統、數據庫和類似YARN的資源管理系統。然后是計算處理層,如hadoop、MapReduce和Spark,以及在此之上的各種不同計算范式,如批處理、流處理和圖計算等,包括衍生出編程模型的計算模型,如BSP、GAS 等。數據分析和可視化基于計算處理層。分析包括簡單的查詢分析、流分析以及更復雜的分析(如機器學習、圖計算等)。查詢分析多基于表結構和關系函數,流分析基于數據、事件流以及簡單的統計分析,而復雜分析則基于更復雜的數據結構與方法,如圖、矩陣、迭代計算和線性代數。 般意義的可視化是對分析結果的展示。但是通過交互式可視化,還可以探索性地提問,使分析獲得新的線索,形成迭代的分析和可視化。基于大規模數據的實時交互可視化分析以及在這個過程中引入自動化的因素是目前研究的熱點。
  有2個領域垂直打通了上述的各層,需要整體、協同地看待。 是編程和管理工具,方向是機器通過學習實現自動較優化、盡量無需編程、無需復雜的配置。另 個領域是數據安全,也是貫穿整個技術棧。除了這兩個領域垂直打通各層,還有 些技術方向是跨了多層的,例如“內存計算”事實上覆蓋了整個技術棧。
  2.大數據技術生態
  大數據的基本處理流程與傳統數據處理流程并無太大差異,主要區別在于:由于大數據要處理大量、非結構化的數據,所以在各處理環節中都可以采用并行處理。目前,Hadoop、MapReduce和Spark等分布式處理方式已經成為大數據處理各環節的通用處理方法。
  另外,基于性能、兼容性、數據類型的研究,還有Shark、Phoenix、Apache Accumulo、Apache Drill、Apache Giraph、Apache Hama、Apache Tez、Apache Ambari 等其他開源解決方案。預計未來相當長 段時間內,主流的Hadoop平臺改進后將與各種新的計算模式和系統共存,并相互融合,形成新 代的大數據處理系統和平臺。
  3.大數據采集與預處理
     在MapReduce產生數據的應用系統分類,大數據的采集主要有4種來源:管理信息系統、Web信息系統、物理信息系統、科學實驗系統。對于不同的數據集,可能存在不同的結構和模式,如文件、XML 樹、關系表等,表現為數據的異構性。對多個異構的數據集,需要做進 步集成處理或整合處理,將來自不同數據集的數據收集、整理、清洗、轉換后,生成到 個新的數據集,為后續查詢和分析處理提供統 的數據視圖。針對管理信息系統中異構數據庫集成技術、Web 信息系統中的實體識別技術和DeepWeb集成技術、傳感器網絡數據融合技術已經有很多研究工作,取得了較大的進展,已經推出了多種數據清洗和質量控制工具。
  4.大數據存儲與管理
  傳統的數據存儲和管理以結構化數據為主,因此關系數據庫系統(RDBMS)可以 統天下滿足各類應用需求。大數據往往是半結構化和非結構化數據為主,結構化數據為輔,而且各種大數據應用通常是對不同類型的數據內容檢索、交叉比對、深度挖掘與綜合分析。面對這類應用需求,傳統數據庫無論在技術上還是功能上都難以為繼。另外,用Hadoop實現對半結構化和非結構化數據的處理,以支持諸如內容檢索、深度挖掘與綜合分析等新型應用。這類混合模式將是大數據存儲和管理未來發展的趨勢。
  5.大數據計算模式與系統
  計算模式的出現有力推動了大數據技術和應用的發展,使其成為目前大數據處理較為成功、較廣為接受使用的主流大數據計算模式。然而,現實 中的大數據處理問題復雜多樣,難以有 種單 的計算模式能涵蓋所有不同的大數據計算需求。研究和實際應用中發現,由于MapReduce主要適合于進行大數據線下批處理,在面向低延遲和具有復雜數據關系和復雜計算的大數據問題時有很大的不適應性。因此,近幾年來學術界和業界在不斷研究并推出多種不同的大數據計算模式。
  所謂大數據計算模式,即根據大數據的不同數據特征和計算特征,從多樣性的大數據計算問題和需求中提煉并建立的各種高層抽象或模型。根據大數據處理多樣性的需求和以上不同的特征維度,目前出現了多種典型和重要的大數據計算模式。與這些計算模式相適應,出現了很多對應的大數據計算系統和工具。由于單純描述計算模式比較抽象和空洞,因此在描述不同計算模式時,將同時給出相應的典型計算系統和工具,這將有助于對計算模式的理解以及對技術發展現狀的把握,并進 步有利于在實際大數據處理應用中對合適的計算技術和系統工具的選擇使用。
  6.大數據分析與可視化
  在大數據時代,人們迫切希望在由普通機器組成的大規模集群上實現高性能的以機器學習算法為核心的數據分析,為實際業務提供服務和指導,進而實現數據的較終變現。與傳統的在線聯機分析處理OLAP不同,對大數據的深度分析主要基于大規模的機器學習技術, 般而言,機器學習模型的訓練過程可以歸結為較優化定義于大規模訓練數據上的目標函數并且通過 個循環迭代的算法實現,如圖4所示。因而與傳統的OLAP相比較,基于機器學習的大數據分析具有自己獨特的特點。
     基于機器學習的大數據分析算法目標函數和迭代優化過程
  (1)迭代性:由于用于優化問題通常沒有閉式解,因而對模型參數確定并非 次能夠完成,需要循環迭代多次逐步逼近較優值點。
  (2)容錯性:機器學習的算法設計和模型評價容忍非較優值點的存在,同時多次迭代的特性也允許在循環的過程中產生 些錯誤,模型的較終收斂不受影響。
  (3)參數收斂的非均勻性:模型中 些參數經過少數幾輪迭代后便不再改變,而有些參數則需要很長時間才能達到收斂。
  這些特點決定了理想的大數據分析系統的設計和其他計算系統的設計有很大不同,直接應用傳統的分布式計算系統應用于大數據分析,很大比例的資源都浪費在通信、等待、協調等非有效的計算上。
  傳統的分布式計算框架MPI(message passing interface,信息傳遞接口)雖然編程接口靈活功能強大,但由于編程接口復雜且對容錯性支持不高,無法支撐在大規模數據上的復雜操作,研究人員轉而開發了 系列接口簡單容錯性強的分布式計算框架服務于大數據分析算法,以MapReduce、Spark和參數服務器ParameterServer等為代表。
  分布式計算框架MapReduce將對數據的處理歸結為Map和Reduce兩大類操作,從而簡化了編程接口并且提高了系統的容錯性。但是MapReduce受制于過于簡化的數據操作抽象,而且不支持循環迭代,因而對復雜的機器學習算法支持較差,基于MapReduce的分布式機器學習庫Mahout需要將迭代運算分解為多個連續的Map 和Reduce 操作,通過讀寫HDFS文件方式將上 輪次循環的運算結果傳入下 輪完成數據交換。在此過程中,大量的訓練時間被用于磁盤的讀寫操作,訓練效率非常低效。為了解決MapReduce上述問題,Spark 基于RDD 定義了包括Map 和Reduce在內的更加豐富的數據操作接口。不同于MapReduce 的是Job 中間輸出和結果可以保存在內存中,從而不再需要讀寫HDFS,這些特性使得Spark能更好地適用于數據挖掘與機器學習等需要迭代的大數據分析算法。基于Spark實現的機器學習算法庫MLLIB已經顯示出了其相對于Mahout 的優勢,在實際應用系統中得到了廣泛的使用。
  最后,在大數據分析的應用過程中,可視化通過交互式視覺表現的方式來幫助人們探索和理解復雜的數據。可視化與可視分析能夠迅速和有效地簡化與提煉數據流,幫助用戶交互篩選大量的數據,有助于使用者更快更好地從復雜數據中得到新的發現,成為用戶了解復雜數據、開展深入分析不可或缺的手段。
主站蜘蛛池模板: 丹佛斯压力传感器,WISE温度传感器,WISE压力开关,丹佛斯温度开关-上海力笙工业设备有限公司 | 广州物流公司_广州货运公司_广州回程车运输 - 万信物流 | 双齿辊破碎机-大型狼牙破碎机视频-对辊破碎机价格/型号图片-金联机械设备生产厂家 | 油罐车_加油机_加油卷盘_加油机卷盘_罐车人孔盖_各类球阀_海底阀等车用配件厂家-湖北华特专用设备有限公司 | 济南网站建设|济南建网站|济南网站建设公司【济南腾飞网络】【荐】 | 龙门加工中心-数控龙门加工中心厂家价格-山东海特数控机床有限公司_龙门加工中心-数控龙门加工中心厂家价格-山东海特数控机床有限公司 | 金属软管_不锈钢金属软管_巩义市润达管道设备制造有限公司 | 华禹护栏|锌钢护栏_阳台护栏_护栏厂家-华禹专注阳台护栏、楼梯栏杆、百叶窗、空调架、基坑护栏、道路护栏等锌钢护栏产品的生产销售。 | 网站建设-高端品牌网站设计制作一站式定制_杭州APP/微信小程序开发运营-鼎易科技 | 颗粒机,颗粒机组,木屑颗粒机-济南劲能机械有限公司 | 东莞工厂厂房装修_无尘车间施工_钢结构工程安装-广东集景建筑装饰设计工程有限公司 | 直读光谱仪,光谱分析仪,手持式光谱仪,碳硫分析仪,创想仪器官网 | 环氧树脂地坪_防静电地坪漆_环氧地坪漆涂料厂家-地壹涂料地坪漆 环球电气之家-中国专业电气电子产品行业服务网站! | 艺术涂料_进口艺术涂料_艺术涂料加盟_艺术涂料十大品牌 -英国蒙太奇艺术涂料 | LZ-373测厚仪-华瑞VOC气体检测仪-个人有毒气体检测仪-厂家-深圳市深博瑞仪器仪表有限公司 | 睿婕轻钢别墅_钢结构别墅_厂家设计施工报价 | 艾默生变频器,艾默生ct,变频器,ct驱动器,广州艾默生变频器,供水专用变频器,风机变频器,电梯变频器,艾默生变频器代理-广州市盟雄贸易有限公司官方网站-艾默生变频器应用解决方案服务商 | 2025世界机器人大会_IC China_半导体展_集成电路博览会_智能制造展览网 | 旋片真空泵_真空泵_水环真空泵_真空机组-深圳恒才机电设备有限公司 | 幂简集成 - 品种超全的API接口平台, 一站搜索、试用、集成国内外API接口 | Eiafans.com_环评爱好者 环评网|环评论坛|环评报告公示网|竣工环保验收公示网|环保验收报告公示网|环保自主验收公示|环评公示网|环保公示网|注册环评工程师|环境影响评价|环评师|规划环评|环评报告|环评考试网|环评论坛 - Powered by Discuz! | 耐酸泵,耐腐蚀真空泵,耐酸真空泵-淄博华舜耐腐蚀真空泵有限公司 精密模具-双色注塑模具加工-深圳铭洋宇通 | 天坛家具官网| 电机修理_二手电机专家-河北豫通机电设备有限公司(原石家庄冀华高压电机维修中心) | 彩超机-黑白B超机-便携兽用B超机-多普勒彩超机价格「大为彩超」厂家 | 美国查特CHART MVE液氮罐_查特杜瓦瓶_制造全球品质液氮罐 | 板材品牌-中国胶合板行业十大品牌-环保板材-上海声达板材 | 烟雾净化器-滤筒除尘器-防爆除尘器-除尘器厂家-东莞执信环保科技有限公司 | 法兰连接型电磁流量计-蒸汽孔板节流装置流量计-北京凯安达仪器仪表有限公司 | 地磅-地秤-江阴/无锡地磅-江阴天亿计量设备有限公司_ | crm客户关系管理系统,销售管理系统,crm系统,在线crm,移动crm系统 - 爱客crm | 胶水,胶粘剂,AB胶,环氧胶,UV胶水,高温胶,快干胶,密封胶,结构胶,电子胶,厌氧胶,高温胶水,电子胶水-东莞聚力-聚厉胶粘 | 猎头招聘_深圳猎头公司_知名猎头公司 | 聚合氯化铝-碱式氯化铝-聚合硫酸铁-聚氯化铝铁生产厂家多少钱一吨-聚丙烯酰胺价格_河南浩博净水材料有限公司 | 今日热点_实时热点_奇闻异事_趣闻趣事_灵异事件 - 奇闻事件 | 浇注料-高铝砖耐火砖-郑州凯瑞得窑炉耐火材料有限公司 | 517瓜水果特产网|一个专注特产好物的网站 | 中国产业发展研究网 - 提供行业研究报告 可行性研究报告 投资咨询 市场调研服务 | 百度网站优化,关键词排名,SEO优化-搜索引擎营销推广 | 扫地车厂家-山西洗地机-太原电动扫地车「大同朔州吕梁晋中忻州长治晋城洗地机」山西锦力环保科技有限公司 | 千淘酒店差旅平台-中国第一家针对TMC行业的酒店资源供应平台 |