谷銀觀點

谷銀觀點

谷銀基金行業月度簡報 | 大數據闆塊

2019-08-02 孫鋼德閱讀

政策/知識/技術總結

大數據是對(duì)海量數據存儲、計算、統計、分析等一系列處理手段，處理的數據量是TB級，甚至是PB或EB級的數據，是傳統數據處理手段無法完成(chéng)的，大數據涉及分布式計算、高并發(fā)處理、高可用處理、集群、實時性計算等等，彙集的是IT最熱門、最流行的IT技術，大數據是機器學(xué)習、深度學(xué)習、AI等尖端可以領域的基礎架構。

大數據技術爲決策提供依據，在政府、企業、科研項目等決策中扮演著(zhe)重要的角色，在社會治理和企業管理中起(qǐ)到了不容忽視的作用，例如我國(guó)、美國(guó)以及歐盟等國(guó)家都(dōu)已將(jiāng)大數據列入國(guó)家發(fā)展戰略，微軟、谷歌、百度以及亞馬遜等大型企業也將(jiāng)大數據技術列爲未來發(fā)展的關鍵籌碼。

一. 大數據采集

大數據采集，即對(duì)各種(zhǒng)來源（如RFID射頻數據、傳感器數據、移動互聯網數據、社交網絡數據等）的結構化和非結構化海量數據，所進(jìn)行的采集。數據采集有線上和線下兩(liǎng)種(zhǒng)方式，線上一般通過(guò)爬蟲、通過(guò)抓取，或者通過(guò)已有應用系統的采集，在這(zhè)個階段，我們可以做一個大數據采集平台，依托自動爬蟲（使用python或者nodejs制作爬蟲軟件），ETL工具、或者自定義的抽取轉換引擎，從文件中、數據庫中、網頁中專項爬取數據，如果這(zhè)一步通過(guò)自動化系統來做的話，可以很方便的管理所有的原始數據，并且從數據的開(kāi)始對(duì)數據進(jìn)行标簽采集，可以規範開(kāi)發(fā)人員的工作。并且目标數據源可以更方便的管理。數據采集的難點在于多數據源，例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。還(hái)有本地文件、excel統計文檔、甚至是doc文件。如何將(jiāng)他們規整的、有方案的整理進(jìn)我們的大數據流程中也是必不可缺的一環。

之所以稱其爲“大”，是因爲數據采集過(guò)程中，常需要處理“成(chéng)千上萬用戶并發(fā)訪問和操作”的難題。這(zhè)裡(lǐ)列舉出三個大數據采集的常用方法：

A. 數據庫采集

Sqoop和ETL工具想必很多人比較熟悉。實際上，傳統的關系型數據庫MySQL和Oracle 依然充當著(zhe)許多企業的數據存儲方式。當然了，目前對(duì)于開(kāi)源的Kettle和Talend本身，也集成(chéng)了大數據集成(chéng)内容，可實現hdfs，hbase和主流Nosq數據庫之間的數據同步和集成(chéng)。

B. 網絡數據采集

一種(zhǒng)借助網絡爬蟲或網站公開(kāi)API，從網頁獲取非結構化或半結構化數據，并將(jiāng)其統一結構化爲本地數據的，數據采集方式。

C. 文件采集

常被(bèi)談起(qǐ)的flume實時文件采集和處理，就是一種(zhǒng)典型的文件采集形式。除此之外，基于ELK(Elasticsearch、Logstash、Kibana)的日志采集和增量采集，也涉及到“文件采集”這(zhè)一數據采集形式。

二. 大數據預處理

數據預處理，指的是在進(jìn)行數據分析之前，先對(duì)采集到的原始數據所進(jìn)行的諸如“清洗、填補、平滑、合并、規格化、一緻性檢驗”等一系列操作，旨在提高數據質量，爲後(hòu)期分析工作奠定基礎。數據預處理主要包括四個部分：數據清理、數據集成(chéng)、數據轉換、數據規約。

A. 數據清理

數據清理，指利用ETL(Extraction/Transformation/Loading)和Potter’s Wheel等清洗工具，對(duì)有遺漏數據(缺少感興趣的屬性)、噪音數據(數據中存在著(zhe)錯誤、或偏離期望值的數據)、不一緻數據進(jìn)行處理。

遺漏數據處理方法：用全局常量、屬性均值、可能(néng)值填充；或直接忽略該數據;噪音數據處理方法：用分箱(分組原始數據，并分别對(duì)各組數據平滑處理)、聚類、計算機人工檢查、回歸等方法，去除噪音處理;不一緻數據處理方法：手動更正。

B.數據集成(chéng)

數據集成(chéng)，指將(jiāng)不同數據源中的數據，合并存放到統一數據庫的，存儲方法。該過(guò)程著(zhe)重解決三個問題：模式匹配、數據冗餘、數據值沖突檢測與處理。實體識别問題處理方法：針對(duì)“不同集合來源的數據，因命名差異導緻的實體名稱不一緻”的問題，通過(guò)“利用元數據，匹配不同來源實體”的方法，進(jìn)行實體識别。數據冗餘處理方法：對(duì)于因“不同來源數據，屬性命名方式不一緻”所導緻的數據冗餘問題，利用皮爾遜積矩Ra,b，結合絕對(duì)值比較的方法，确定數據間的相關性。數據值沖突問題處理方法：對(duì)具有不同數值的各來源實體，進(jìn)行數據值沖突檢測與處理。

C.數據轉換

數據轉換，指對(duì)所抽取出來的數據中存在的不一緻，進(jìn)行處理的過(guò)程。它同時包含了數據清洗的工作，即根據業務規則對(duì)異常數據進(jìn)行清洗，以保證後(hòu)續分析結果準确性。數據名稱及格式統一處理：即數據粒度轉換、商務規則計算以及統一的命名、數據格式、計量單位等;數據倉庫中較源數據庫多出數據的處理：字段的組合、分割、計算。

D. 數據規約

數據歸約，指在最大限度保持數據原貌（盡可能(néng)保持數據完整性）的基礎上，最大限度精簡數據量，以得到較小數據集的操作，包括：數據方聚集、維規約、數據壓縮、數值規約、概念分層等。

三. 大數據存儲

大數據存儲，指用存儲器，以數據庫的形式，存儲采集到的數據的過(guò)程。大數據存儲技術的三種(zhǒng)典型路線：

A. 基于MPP架構的新型數據庫集群

采用Shared Nothing架構，結合MPP架構的高效分布式計算模式，通過(guò)列存儲、粗粒度索引等多項大數據處理技術，重點面(miàn)向(xiàng)行業大數據所展開(kāi)的數據存儲方式。具有低成(chéng)本、高性能(néng)、高擴展性等特點，在企業分析類應用領域有著(zhe)廣泛的應用。較之傳統數據庫，其基于MPP産品的PB級數據分析能(néng)力，有著(zhe)顯著的優越性。自然，MPP數據庫，也成(chéng)爲了企業新一代數據倉庫的最佳選擇。

B. 基于Hadoop的技術擴展和封裝

基于Hadoop的技術擴展和封裝，是針對(duì)傳統關系型數據庫難以處理的數據和場景（針對(duì)非結構化數據的存儲和計算等），利用Hadoop開(kāi)源優勢及相關特性（善于處理非結構、半結構化數據、複雜的ETL流程、複雜的數據挖掘和計算模型等），衍生出相關大數據技術的過(guò)程。伴随著(zhe)技術進(jìn)步，其應用場景也將(jiāng)逐步擴大，目前最爲典型的應用場景：通過(guò)擴展和封裝 Hadoop來實現對(duì)互聯網大數據存儲、分析的支撐，其中涉及了幾十種(zhǒng)NoSQL技術。

C. 大數據一體機

這(zhè)是一種(zhǒng)專爲大數據的分析處理而設計的軟、硬件結合的産品。它由一組集成(chéng)的服務器、存儲設備、操作系統、數據庫管理系統，以及爲數據查詢、處理、分析而預安裝和優化的軟件組成(chéng)，具有良好(hǎo)的穩定性和縱向(xiàng)擴展性。

四. 大數據分析挖掘

從可視化分析、數據挖掘算法、預測性分析、語義引擎、數據質量管理等方面(miàn)，對(duì)雜亂無章的數據，進(jìn)行萃取、提煉和分析的過(guò)程。

A. 可視化分析

可視化分析，指借助圖形化手段，清晰并有效傳達與溝通信息的分析手段。主要應用于海量數據關聯分析，即借助可視化數據分析平台，對(duì)分散異構數據進(jìn)行關聯分析，并做出完整分析圖表的過(guò)程。具有簡單明了、清晰直觀、易于接受的特點。

B. 數據挖掘算法

數據挖掘算法，即通過(guò)創建數據挖掘模型，而對(duì)數據進(jìn)行試探和計算的，數據分析手段。它是大數據分析的理論核心。數據挖掘算法多種(zhǒng)多樣(yàng)，且不同算法因基于不同的數據類型和格式，會呈現出不同的數據特點。但一般來講，創建模型的過(guò)程卻是相似的，即首先分析用戶提供的數據，然後(hòu)針對(duì)特定類型的模式和趨勢進(jìn)行查找，并用分析結果定義創建挖掘模型的最佳參數，并將(jiāng)這(zhè)些參數應用于整個數據集，以提取可行模式和詳細統計信息。

C. 預測性分析

預測性分析，是大數據分析最重要的應用領域之一，通過(guò)結合多種(zhǒng)高級分析功能(néng)（特别統計分析、預測建模、數據挖掘、文本分析、實體分析、優化、實時評分、機器學(xué)習等），達到預測不确定事(shì)件的目的。

它幫助分用戶析結構化和非結構化數據中的趨勢、模式和關系，并運用這(zhè)些指标來預測將(jiāng)來事(shì)件，爲采取措施提供依據。

D. 語義引擎

語義引擎，指通過(guò)爲已有數據添加語義的操作，提高用戶互聯網搜索體驗。

E. 數據質量管理

指對(duì)數據全生命周期的每個階段（計劃、獲取、存儲、共享、維護、應用、消亡等）中可能(néng)引發(fā)的各類數據質量問題，進(jìn)行識别、度量、監控、預警等操作，以提高數據質量的一系列管理活動。

熱點、趨勢、動态

随著(zhe)大數據應用越來越廣泛，應用的行業也越來越低，每天都(dōu)可以看到大數據的一些新奇的應用，從而幫助人們從中獲取到真正有用的價值。大數據浪潮下，一些企業轉而將(jiāng)目光投向(xiàng)了傳統的小數據，并據此改善了相關産品。比如，相較于以往，現在的罐頭和汽水瓶的蓋子更容易打開(kāi)，車門可以不費力地關上，而抽屜的開(kāi)合也設計得更加順滑。這(zhè)緣于企業對(duì)一個細節的敏銳捕捉：随著(zhe)科技發(fā)展導緻的體力勞動減少、電腦和觸摸屏導緻的書寫退化，人們的雙手沒(méi)有以前有力了。類似的小數據、小趨勢，正在和大數據一起(qǐ)改變著(zhe)我們的生活。

1.數據科學(xué)與大數據的學(xué)科邊界

這(zhè)一問題綜合了兩(liǎng)個問題，即大數據的基本内涵與數據的科學(xué)問題。前者關注的是大數據的基本定義和基本結構。迄今爲止，什麼(me)是大數據，在産業界、學(xué)術界并沒(méi)有形成(chéng)一個公認的科學(xué)定義，大數據的内涵與外延也缺乏清晰的說明。大數據區别于其他數據的關鍵特性是什麼(me)？IBM提出了3V的說法，即volume（體量大）、variety（模式多）和velocity（速度快）。爾後(hòu)又有人提出了另一個V，即value（價值），表示大數據雖然價值總量高但其價值密度低。另外，大數據是否就意味著(zhe)全數據，還(hái)有待進(jìn)一步讨論與澄清。最後(hòu)，還(hái)需要爲動态、高維、複雜的大數據建立形式化、結構化的描述方法，進(jìn)而在此基礎上發(fā) 展大數據處理技術。後(hòu)者關注的是數據界與物理界、人類社會之間的關聯與差異，探讨是否存在獨立于應用領域的數據科學(xué)。如果存在數據科學(xué)，其學(xué)科問題的分類體系又是什麼(me)？目前已有的共識是，大數據的複雜性主要來自數據之間的複雜聯系。另外，新型學(xué)習理論和認知理論等應當是數據科學(xué)的重要組成(chéng)部分。

2.數據計算的基本模式與範式

大數據的諸多突出特性使得傳統的數據分析、數據挖掘、數據處理的方式方法都(dōu)不再适用。因此，面(miàn)對(duì)大數據，我們需要有數據密集型計算的基本模式和新型的計算範式，需要提出數據計算的效率評估方法以及研究數據計算複雜性等基本理論。由于數據體量太大，甚至有的數據本身就以分布式的形式存在，難以集中起(qǐ)來處理，因此對(duì)于大數據的計算需要從中心化的、自頂向(xiàng)下的模式轉爲去中心化的、自底向(xiàng)上、自組織的計算模式。另外，面(miàn)對(duì)大數據將(jiāng)形成(chéng)基于數據的智能(néng)，我們可能(néng)需要尋找類似“數據的體量+簡單的邏輯”的方法去解決複雜問題。

3.大數據特性與數據态

這(zhè)一問題綜合了三個候選問題，即大數據的關系維複雜性、大數據的空間維複雜性和大數據的時間維複雜性問題。大數據往往由大量源頭産生，而且常包含圖像、視頻、音頻、數據流、文本、網頁等等不同的數據格式，因此其模态是多種(zhǒng)多樣(yàng)的。主要來源于多模态的大數據之間存在著(zhe)錯綜複雜的關聯關系，這(zhè)種(zhǒng)異質的關聯關系有時還(hái)動态變化，互爲因果，因此導緻其關聯模式也非常複雜。大數據的空間維問題主要關注人、機、物三元世界中大數據的産生、感知與采集，以及不同粒度下數據的傳輸、移動、存儲與計算。另外，還(hái)需研究大數據在空間與密度的非均衡态對(duì)其分析與處理所帶來的理論與技術挑戰。而大數據的時間維問題意圖在時間維度上研究大數據的生命周期、狀态與特征，并探索大數據的流化分析、增量式的學(xué)習方法與在線推薦。最後(hòu)，研究大數據的離線與在線處理對(duì)時效性要求。

4.大數據的數據變換與價值提煉

這(zhè)一問題主要由“如何將(jiāng)大數據變小”與“如何進(jìn)行大數據的價值提煉”兩(liǎng)個問題組成(chéng)，前者要在不改變數據基本屬性的前提下對(duì)數據進(jìn)行清洗，在盡量不損失價值的條件下減小數據規模。爲此，需要研究大數據的抽樣(yàng)、去重、過(guò)濾、篩選、壓縮、索引、提取元數據等數據變換方法，直接將(jiāng)大數據變小，這(zhè)可以看作是大數據的 “物理變化”。後(hòu)者可看作是大數據的“化學(xué)反應”，對(duì)大數據的探索式考察與可視化將(jiāng)發(fā)揮作用，人機的交互分析可以將(jiāng)人的智慧融入這(zhè)一過(guò)程，通過(guò)群體智慧、社會計算、認知計算對(duì)數據的價值進(jìn)行發(fā)酵和提煉，實現從數據分析到數據價值判定和數據制造的價值飛躍。

5.大數據的安全和隐私問題

隻要有數據，就必然存在安全與隐私的問題。随著(zhe)數據的增多，大數據面(miàn)臨著(zhe)重大的風險和威脅，需要遵守更多更合理的規定，傳統的數據保護方法無法滿足這(zhè)一要求。因此，面(miàn)對(duì)大數據的安全與隐私保護，有大量的挑戰急需得到解決，具體包括：大數據計算倫理學(xué)、大數據密碼學(xué)、分布式編程框架中的安全計算、遠程數據計算的可信任度、數據存儲和日志管理的安全性、基于隐私和商業利益保護的數據挖掘與分析、強制的訪問控制和安全通信、多粒度訪問控制以及數據來源和數據通道(dào)的可信等。

6.大數據對(duì)IT技術架構的挑戰

這(zhè)一問題是對(duì)熱點問題“大數據對(duì)于系統的要求”的新解讀。大數據對(duì)于系統，不管是存儲系統、傳輸系統還(hái)是計算系統都(dōu)提出了很多非常苛刻的要求，而現有的數據中心技術難以滿足大數據的需求。譬如，存儲能(néng)力的增長(cháng)遠遠趕不上數據的增長(cháng)，設計最合理的分層存儲架構已成(chéng)爲信息系統的關鍵。分布式存儲架構不僅需要scale-up式的可擴展性，也需要scale-out式的可擴展性。因此對(duì)整個IT架構進(jìn)行革命性地重構勢在必行。此外，大數據平台（包括計算平台、傳輸平台、存儲平台等）是大數據技術鏈條中的瓶頸，特别是大數據的高速傳輸，需要革命性的新技術。

7.大數據的應用及産業鏈

大部分大數據專家委員會的委員都(dōu)認爲，大數據的研究與應用一定要與領域知識相結合，尤其在開(kāi)展大數據研究的初期，計算機領域的科技工作者一定要虛心向(xiàng)各領域的科技人員請教，真正了解和熟悉各領域發(fā)生數據的特點。針對(duì)不同的領域環境和不同的應用需求，大數據的獲取、分析、反饋的方式有所不同。爲此，針對(duì)不同行業與領域業務需求，我們需要展開(kāi)數據特征與業務特征的研究，進(jìn)行大數據應用分類與技術需求分析，構建從需求分析與業務模型，到數據建模、數據采集和總結反饋，最後(hòu)到數據分析的全生命周期應用模型。其實，不同的應用環境和應用目标代表了不同的價值導向(xiàng)，這(zhè)對(duì)于大數據的價值密度有很大的影響。

8.大數據的生态環境問題

大數據作爲21世紀的“新石油”，是一種(zhǒng)寶貴的戰略資源，因此對(duì)大數據的共享與管理無疑是其生态環境的一部分。對(duì)于大數據的共享與管理，其中所有權是基礎，這(zhè)既是技術問題，也是法理問題。對(duì)數據的權益需要進(jìn)行具體認定并進(jìn)行保護，進(jìn)而在保護好(hǎo)多方利益的前提下解決數據共享問題。爲此，可能(néng)會遇到不少的障礙，包括人們對(duì)法律或信譽的顧慮，保護競争力的需要，以及數據存儲的位置和方式不利于數據的訪問和傳輸等。此外，生态環境問題還(hái)涉及與政治、經(jīng)濟、社會、法律、科學(xué)等等的交叉影響問題。因爲大數據將(jiāng)對(duì)國(guó)家治理模式、企業的決策、組織和業務流程、個人生活方式都(dōu)將(jiāng)産生巨大的影響，所以這(zhè)種(zhǒng)影響模式值得深入研究。

上市公司/标杆企業分析

海康威視2001年成(chéng)立。海康威視是全球領先的以視頻爲核心的物聯網解決方案提供商，緻力于不斷提升視頻處理技術和視頻分析技術，面(miàn)向(xiàng)全球提供領先的監控産品和技術解決方案。海康威視的營銷及服務網絡覆蓋全球，目前在中國(guó)大陸34個城市已設立分公司，在中國(guó)香港、美國(guó)洛杉矶和印度也已設立了全資和合資子公司，并正在全球籌建更多的分支機構。

海康威視擁有業内領先的自主核心技術和可持續研發(fā)能(néng)力，提供攝像機/智能(néng)球機、光端機、DVR/DVS/闆卡、BSV液晶拼接屏、網絡存儲、視頻綜合平台、中心管理軟件等安防産品，并針對(duì)金融、公安、電訊、交通、司法、教育、電力、水利、軍隊等衆多行業提供合适的細分産品與專業的行業解決方案。這(zhè)些産品和方案面(miàn)向(xiàng)全球100多個國(guó)家和地區，在北京奧運會、大運會、亞運會、上海世博會、60年國(guó)慶大閱兵、青藏鐵路等重大安保項目中得到廣泛應用。

公司的營銷及服務網絡覆蓋全球，在中國(guó)大陸33個城市已設立分公司，在洛杉矶、香港、阿姆斯特丹、孟買、聖彼得堡和迪拜也已設立了全資或控股子公司，并將(jiāng)在南非、巴西等地設立分支機構。并在全國(guó)設立渠道(dào)代理商。

持續快速發(fā)展的海康威視，已獲得了行業内外的普遍認可。公司連續五年(2007-2011)以中國(guó)安防第一位的身份入選《A&S》“全球安防50強” ；2011年名列IMS全球視頻監控企業第4位，2012年名列IMS全球視頻監控企業第1位。DVR企業第1位；連年入選“國(guó)家重點軟件企業”、“中國(guó)軟件收入前百家企業”。

海康威視，全球卓著的專業公司和安防行業的領跑者。

海康威視發(fā)布2018年度報告，報告期内實現營業總收入498.37億元，同比增長(cháng)18.93%；實現歸屬于上市公司股東的淨利潤113.53億元，同比增長(cháng)20.64%。2019年第一季度實現營業收入99.42億元，同比增長(cháng)6.17%；淨利潤15.36億元，同比下降15.41%。行業整體承壓之下，海康威視2018年整體業績依然“拿得出手”。盡管Q1業績略顯失色，但業績說明會上，海康也用商機改善和2季度收入增速回到20%以上的預期，印證了信心。以視頻爲核心的智能(néng)物聯網解決方案和大數據服務提供商”，這(zhè)也呼應了海康威視在智湧錢塘生态大會上的提出物信融合，發(fā)布大數據平台的動作。我們已經(jīng)可以揣摩出未來海康及行業發(fā)展的清晰脈絡。

上一篇：谷銀基金行業月度簡報 | 高端制造闆塊下一篇：谷銀基金行業月度簡報 | 高端制造闆塊

谷銀觀點

谷銀基金行業月度簡報 | 大數據闆塊

委托人權限登錄