谷銀觀點
谷銀基金行業月度簡報 | 大數據闆塊
政策/知識/技術總結
大數據發(fā)展全球加碼,廣闊空間蘊含商機無限
基于大數據對(duì)各個行業的深入影響,近幾年,美國(guó)、歐盟、日本等主要發(fā)達經(jīng)濟體都(dōu)積極推進(jìn)各自的大數據戰略。2009年,美國(guó)科學(xué)家委員會(NSTC)就發(fā)布了《開(kāi)發(fā)數字數據的威力》報告,初步提出發(fā)展大數據的框架,奧巴馬政府亦對(duì)大數據行業大力支持,幫助美國(guó)取得世界領先地位。
參考《大數據白皮書(2016)》,IDC、Wikibon等咨詢機構分析,2016年全球大數據核心産業規模約爲300億美元,預計2020年有望達到近600億美元。
美歐日韓關于大數據的主要政策(非完全統計)
全球大數據核心産業規模(億美元)
中國(guó)亦將(jiāng)大數據視爲新經(jīng)濟的重要支撐。2012年,《“十二五”國(guó)家戰略性新興産業發(fā)展規劃》明确提出支持海量數據存儲、處理技術的研發(fā)和産業化,2014年“大數據”首次出現在《政府工作報告中》,奠定了行業快速發(fā)展的政策基礎。而2017年以來,黨的十九大報告、中共中央政治局就實施國(guó)家大數據戰略進(jìn)行第二次集體學(xué)習、首屆數字中國(guó)峰會召開(kāi)等,均再次顯示出領導層對(duì)加快建設數字中國(guó)的高度重視。
圖表3:國(guó)内大數據相關政策(非完全統計)
對(duì)于中國(guó)大數據産業的規模,目前各個研究機構均采取間接方法估算。根據信通院數據,2017年中國(guó)大數據産業規模(包括數據資源建設、大數據軟硬件産品的開(kāi)發(fā)、銷售和租賃活動,以及相關信息技術服務)爲4700億元人民币,同比增長(cháng)30%,且預計2020年這(zhè)一規模有望趕超1萬億,年均複合增速近30%。其中,大數據核心産業規模2017年爲234億元,同比增長(cháng)39%,預計2018年爲329億。
中國(guó)大數據市場産值 圖大數據核心産業規模
同時,大數據投融資市場也持續升溫。根據信通院數據,2012-2016年期間,國(guó)内共發(fā)生大數據投融資事(shì)件超1600件,統計公布金額的1300餘起(qǐ)投資,其融資總額達1200多億,2016年同比增長(cháng)189.7%。輪次上,A輪占比最高爲40%,天使輪次之爲38%;方向(xiàng)上,數據分析、應用項目等創新企業最受資本追捧。
中國(guó)大數據領域投融資金額 中國(guó)大數據領域投融資輪次分布(次)
2012-2016各産業項目融資情況(單位:億元)
典型數據處理框架:Hadoop
Apache Hadoop是首個在開(kāi)源社區獲得極大關注的大數據處理框架,由Apache基金會于2005年秋作爲Lucene的子項目Nutch的一部分正式引入。該項目最早用于探索網頁搜索,Yahoo在最初階段做出了較大貢獻,後(hòu)Hadoop發(fā)展成(chéng)能(néng)夠爲分布式數據提供各種(zhǒng)服務的運算架構。
HDFS(Hadoop Distributed File System)和MapReduce是Hadoop的核心設計。兩(liǎng)者分别是Google File System(GFS)、Google MapReduce的開(kāi)源實現(谷歌三寶MapReduce、GFS和BigTable,具體可見谷歌著名的三篇大數據論文,Hadoop亦參考于此)。HDFS是一種(zhǒng)分布式文件系統層,可對(duì)集群節點間的存儲和複制進(jìn)行協調;MapReduce是适合海量數據處理的編程模型,基本思想是“分而治之、然後(hòu)歸約”,可將(jiāng)大任務分解爲多個小任務并行執行,其工作分Map、Reduce兩(liǎng)個階段:Map(映射)函數可理解爲初略歸類、分解任務,包括加載、解析、轉換、過(guò)濾數據;reduce(歸約)函數可理解爲精簡結果得到最終結果,負責把分解後(hòu)多任務處理的結果彙總起(qǐ)來,處理的是Map輸出的一個子集。
Hadoop物理結構
單點物理結構
Hadoop一出現就受到衆多大公司的青睐,Yahoo 、LinkedIn、Fox互動媒體、默多克傳媒、MySpace等均有運用,同時也引起(qǐ)了研究界的普遍關注。随後(hòu),一系列圍繞Hadoop的開(kāi)源技術得到開(kāi)發(fā),生态不斷豐富。如:Hive提供數據倉庫功能(néng),包括數據抽取、轉換、裝載(由Facebook貢獻);HBase實現海量結構化表的實時讀寫訪問功能(néng),類似谷歌的BigTable;Cassandra通過(guò)複制數據來提供容錯數據存儲功能(néng)。而YARN7(Yet Another Resource Negotiator)的引入,更是讓Hadoop超越MapReduce程序,支持其他更多的分布式應用。
YARN運行流程
Hadoop具備拓展性、容錯性和高效性等優點,更爲重要的是其低成(chéng)本。在這(zhè)之前,大數據功能(néng)通常隻能(néng)從商業軟件供應商處依靠專門的硬件獲取,而開(kāi)源的Hadoop使數據存儲和處理能(néng)力——這(zhè)些本隻有像谷歌或其他商用運營商類公司才具備的能(néng)力,在普通商用硬件上也得到應用,大大降低了使用大數據的先期投入,并且具備了使大數據接觸到更多潛在用戶的潛力。(《大數據雲圖》,大衛•芬雷布著)
Hadoop特性