谷銀觀點

谷銀觀點

谷銀基金行業月度簡報 | 大數據闆塊

2019-01-25 白雙、程潔閱讀

政策/知識/技術總結

大數據發(fā)展全球加碼，廣闊空間蘊含商機無限

基于大數據對(duì)各個行業的深入影響，近幾年，美國(guó)、歐盟、日本等主要發(fā)達經(jīng)濟體都(dōu)積極推進(jìn)各自的大數據戰略。2009年，美國(guó)科學(xué)家委員會（NSTC）就發(fā)布了《開(kāi)發(fā)數字數據的威力》報告，初步提出發(fā)展大數據的框架，奧巴馬政府亦對(duì)大數據行業大力支持，幫助美國(guó)取得世界領先地位。

參考《大數據白皮書（2016）》，IDC、Wikibon等咨詢機構分析，2016年全球大數據核心産業規模約爲300億美元，預計2020年有望達到近600億美元。

美歐日韓關于大數據的主要政策（非完全統計）

1548380075(1).jpg

全球大數據核心産業規模（億美元）

中國(guó)亦將(jiāng)大數據視爲新經(jīng)濟的重要支撐。2012年，《“十二五”國(guó)家戰略性新興産業發(fā)展規劃》明确提出支持海量數據存儲、處理技術的研發(fā)和産業化，2014年“大數據”首次出現在《政府工作報告中》，奠定了行業快速發(fā)展的政策基礎。而2017年以來，黨的十九大報告、中共中央政治局就實施國(guó)家大數據戰略進(jìn)行第二次集體學(xué)習、首屆數字中國(guó)峰會召開(kāi)等，均再次顯示出領導層對(duì)加快建設數字中國(guó)的高度重視。

圖表3：國(guó)内大數據相關政策（非完全統計）

1548380242(1).png

對(duì)于中國(guó)大數據産業的規模，目前各個研究機構均采取間接方法估算。根據信通院數據，2017年中國(guó)大數據産業規模（包括數據資源建設、大數據軟硬件産品的開(kāi)發(fā)、銷售和租賃活動，以及相關信息技術服務）爲4700億元人民币，同比增長(cháng)30%，且預計2020年這(zhè)一規模有望趕超1萬億，年均複合增速近30%。其中，大數據核心産業規模2017年爲234億元，同比增長(cháng)39%，預計2018年爲329億。

中國(guó)大數據市場産值圖大數據核心産業規模

1548380666(1).jpg

同時，大數據投融資市場也持續升溫。根據信通院數據，2012-2016年期間，國(guó)内共發(fā)生大數據投融資事(shì)件超1600件，統計公布金額的1300餘起(qǐ)投資，其融資總額達1200多億，2016年同比增長(cháng)189.7%。輪次上，A輪占比最高爲40%，天使輪次之爲38%；方向(xiàng)上，數據分析、應用項目等創新企業最受資本追捧。

中國(guó)大數據領域投融資金額中國(guó)大數據領域投融資輪次分布（次）

1548380746(1).jpg

2012-2016各産業項目融資情況（單位：億元）

1548380777(1).jpg

典型數據處理框架：Hadoop

Apache Hadoop是首個在開(kāi)源社區獲得極大關注的大數據處理框架，由Apache基金會于2005年秋作爲Lucene的子項目Nutch的一部分正式引入。該項目最早用于探索網頁搜索，Yahoo在最初階段做出了較大貢獻，後(hòu)Hadoop發(fā)展成(chéng)能(néng)夠爲分布式數據提供各種(zhǒng)服務的運算架構。

HDFS（Hadoop Distributed File System）和MapReduce是Hadoop的核心設計。兩(liǎng)者分别是Google File System（GFS）、Google MapReduce的開(kāi)源實現（谷歌三寶MapReduce、GFS和BigTable，具體可見谷歌著名的三篇大數據論文，Hadoop亦參考于此）。HDFS是一種(zhǒng)分布式文件系統層，可對(duì)集群節點間的存儲和複制進(jìn)行協調；MapReduce是适合海量數據處理的編程模型，基本思想是“分而治之、然後(hòu)歸約”，可將(jiāng)大任務分解爲多個小任務并行執行，其工作分Map、Reduce兩(liǎng)個階段：Map（映射）函數可理解爲初略歸類、分解任務，包括加載、解析、轉換、過(guò)濾數據；reduce（歸約）函數可理解爲精簡結果得到最終結果，負責把分解後(hòu)多任務處理的結果彙總起(qǐ)來，處理的是Map輸出的一個子集。

Hadoop物理結構

單點物理結構

1548380877(1).jpg

Hadoop一出現就受到衆多大公司的青睐，Yahoo 、LinkedIn、Fox互動媒體、默多克傳媒、MySpace等均有運用，同時也引起(qǐ)了研究界的普遍關注。随後(hòu)，一系列圍繞Hadoop的開(kāi)源技術得到開(kāi)發(fā)，生态不斷豐富。如：Hive提供數據倉庫功能(néng)，包括數據抽取、轉換、裝載（由Facebook貢獻）；HBase實現海量結構化表的實時讀寫訪問功能(néng)，類似谷歌的BigTable；Cassandra通過(guò)複制數據來提供容錯數據存儲功能(néng)。而YARN7（Yet Another Resource Negotiator）的引入，更是讓Hadoop超越MapReduce程序，支持其他更多的分布式應用。

YARN運行流程

Hadoop具備拓展性、容錯性和高效性等優點，更爲重要的是其低成(chéng)本。在這(zhè)之前，大數據功能(néng)通常隻能(néng)從商業軟件供應商處依靠專門的硬件獲取，而開(kāi)源的Hadoop使數據存儲和處理能(néng)力——這(zhè)些本隻有像谷歌或其他商用運營商類公司才具備的能(néng)力，在普通商用硬件上也得到應用，大大降低了使用大數據的先期投入，并且具備了使大數據接觸到更多潛在用戶的潛力。（《大數據雲圖》，大衛•芬雷布著）

Hadoop特性

1548381033(1).png

上一篇：谷銀基金行業月度簡報 | 高端制造闆塊下一篇：谷銀基金行業月度簡報 | 人工智能(néng)闆塊

谷銀觀點

谷銀基金行業月度簡報 | 大數據闆塊

委托人權限登錄