谷銀觀點

谷銀基金行業月度簡報 | 大數據闆塊

2019-05-17 程潔 閱讀

政策/知識/技術總結

大數據開(kāi)發(fā)需要掌握的技術總結

大數據是對(duì)海量數據存儲、計算、統計、分析等一系列處理手段,處理的數據量是TB級,甚至是PB或EB級的數據,是傳統數據處理手段無法完成(chéng)的,大數據涉及分布式計算、高并發(fā)處理、高可用處理、集群、實時性計算等等,彙集的是IT最熱門、最流行的IT技術,大數據是機器學(xué)習、深度學(xué)習、AI等尖端可以領域的基礎架構。

大數據技術爲決策提供依據,在政府、企業、科研項目等決策中扮演著(zhe)重要的角色,在社會治理和企業管理中起(qǐ)到了不容忽視的作用,例如我國(guó)、美國(guó)以及歐盟等國(guó)家都(dōu)已將(jiāng)大數據列入國(guó)家發(fā)展戰略,微軟、谷歌、百度以及亞馬遜等大型企業也將(jiāng)大數據技術列爲未來發(fā)展的關鍵籌碼。

那麼(me),常用的大數據技術有哪些呢?

第一階段JavaSE + MySql + Linux

Java基礎 → OOP編程 →Java集合→ IO/NIO → Eclipse → Intellij IDEA → Socket網絡技術 → Mysql 數據庫 → JDBC Api → JVM内存結構 → 階段項目實戰 → Linux(VMware、CentOS、目錄結構、Linux命令)

第二階段Hadoop 與 生态系統

Hadoop→ MapReduce → Hive →Avro與Protobuf → Zookeeper → HBase → phoenix →Redis → Flume分布式 → SSM(Spring、SpringMVC、Mybatis) →Kafka架構

第三階段Storm 與Spark 及其生态圈

Scala→ Spark Job → Spark RDD→ spark job部署與資源分配 → Sparkshuffle → Spark SQL → SparkStreaming → Spark ML → azkaban

第四階段Python與數據分析、機器學(xué)習算法

第五階段項目實戰、技術綜合運用

大數據商業實戰階段需掌握的技術有:實操企業大數據處理業務場景,分析需求、解決方案實施,綜合技術實戰應用。


大數據處理技術的總結和分析

數據分析處理需求分類

1 事(shì)務型處理

在我們實際生活中,事(shì)務型數據處理需求非常常見,例如:淘寶網站交易系統、12306網站火車票交易系統、超市POS系統等都(dōu)屬于事(shì)務型數據處理系統。

這(zhè)類系統數據處理特點包括以下幾點:

一是事(shì)務處理型操作都(dōu)是細粒度操作,每次事(shì)務處理涉及數據量都(dōu)很小;

二是計算相對(duì)簡單,一般隻有少數幾步操作組成(chéng),比如修改某行的某列;

三是事(shì)務型處理操作涉及數據的增、删、改、查,對(duì)事(shì)務完整性和數據一緻性要求非常高;

四是事(shì)務性操作都(dōu)是實時交互式操作,至少能(néng)在幾秒内執行完成(chéng);

五是基于以上特點,索引是支撐事(shì)務型處理一個非常重要的技術。

在數據量和并發(fā)交易量不大情況下,一般依托單機版關系型數據庫,例如ORACLE、MYSQL、SQLSERVER,再加數據複制(DataGurad、 RMAN、MySQL數據複制等)等高可用措施即可滿足業務需求。

在數據量和并發(fā)交易量增加情況下,一般可以采用ORALCE RAC集群方式或者是通過(guò)硬件升級(采用小型機、大型機等,如銀行系統、運營商計費系統、證卷系統)來支撐。

事(shì)務型操作在淘寶、12306等互聯網企業中,由于數據量大、訪問并發(fā)量高,必然采用分布式技術來應對(duì),這(zhè)樣(yàng)就帶來了分布式事(shì)務處理問題,而分布式事(shì)務處理很難做到高效,因此一般采用根據業務應用特點來開(kāi)發(fā)專用的系統來解決本問題。

2 數據統計分析

數據統計主要是被(bèi)各類企業通過(guò)分析自己的銷售記錄等企業日常的運營數據,以輔助企業管理層來進(jìn)行運營決策。典型的使用場景有:周報表、月報表等固定時間提供給領導的各類統計報表;市場營銷部門,通過(guò)各種(zhǒng)維度組合進(jìn)行統計分析,以制定相應的營銷策略等。

數據統計分析特點包括以下幾點:

一是數據統計一般涉及大量數據的聚合運算,每次統計涉及數據量會比較大。

二是數據統計分析計算相對(duì)複雜,例如會涉及大量goupby、 子查詢、嵌套查詢、窗口函數、聚合函數、排序等;有些複雜統計可能(néng)需要編寫SQL腳本才能(néng)實現。

三是數據統計分析實時性相對(duì)沒(méi)有事(shì)務型操作要求高。但除固定報表外,目前越來越多的用戶希望能(néng)做做到交互式實時統計;

傳統的數據統計分析主要采用基于MPP并行數據庫的數據倉庫技術。主要采用維度模型,通過(guò)預計算等方法,把數據整理成(chéng)适合統計分析的結構來實現高性能(néng)的數據統計分析,以支持可以通過(guò)下鑽和上卷操作,實現各種(zhǒng)維度組合以及各種(zhǒng)粒度的統計分析。

另外目前在數據統計分析領域,爲了滿足交互式統計分析需求,基于内存計算的數據庫倉庫系統也成(chéng)爲一個發(fā)展趨勢,例如SAP的HANA平台。

3 數據挖掘

數據挖掘主要是根據商業目标,采用數據挖掘算法自動從海量數據中發(fā)現隐含在海量數據中的規律和知識。

數據挖掘主要過(guò)程是:根據分析挖掘目标,從數據庫中把數據提取出來,然後(hòu)經(jīng)過(guò)ETL組織成(chéng)适合分析挖掘算法使用寬表,然後(hòu)利用數據挖掘軟件進(jìn)行挖掘。傳統的數據挖掘軟件,一般隻能(néng)支持在單機上進(jìn)行小規模數據處理,受此限制傳統數據分析挖掘一般會采用抽樣(yàng)方式來減少數據分析規模。

數據挖掘的計算複雜度和靈活度遠遠超過(guò)前兩(liǎng)類需求。一是由于數據挖掘問題開(kāi)放性,導緻數據挖掘會涉及大量衍生變量計算,衍生變量多變導緻數據預處理計算複雜性;二是很多數據挖掘算法本身就比較複雜,計算量就很大,特别是大量機器學(xué)習算法,都(dōu)是叠代計算,需要通過(guò)多次叠代來求最優解,例如K-means聚類算法、PageRank算法等。

因此總體來講,數據分析挖掘的特點是:

1、數據挖掘的整個計算更複雜,一般是由多個步驟組成(chéng)計算流,多個計算步驟之間存在數據交換,也就是會産生大量中間結果,難以用一條sql語句來表達。

2、計算應該能(néng)夠非常靈活表達,很多需要利用高級語言編程實現。

熱點、趨勢、動态

2019年第七屆中國(guó)數據分析行業峰會圓滿落幕

2019年4月27日由中國(guó)商業聯合會、中國(guó)商業聯合會數據分析專業委員會主辦的以“數往知來 領跑華東”爲主題的第七屆中國(guó)數據分析行業峰會在山東濟南魯能(néng)希爾頓酒店盛大開(kāi)幕。來自阿裡(lǐ)、騰訊、萬寶盛華、工業4.0俱樂部等世界頂尖企業及國(guó)内衆多企事(shì)業單位的專家、學(xué)者、數據分析師們與衆多關注中國(guó)大數據發(fā)展的朋友共聚濟南,暢享大數據實戰應用價值。

本屆峰會賓朋滿座,人山人海。截止發(fā)稿,僅峰會的線上圖文直播頻道(dào)觀看已超20000餘次,線上視頻直播頻道(dào)有4000餘人次全程觀看了本屆峰會盛況。中國(guó)商業聯合會副會長(cháng)傅龍成(chéng)先生緻開(kāi)幕詞【數往知來·領跑華東】,闡述了自己對(duì)中國(guó)大數據行業發(fā)展的獨到見解,并期許中國(guó)數據分析人才能(néng)夠在大數據變革之中,真正成(chéng)爲國(guó)家大數據發(fā)展戰略中的中流砥柱。中國(guó)商業聯合會數據分析專業委員會會長(cháng)鄒東生先生反複強調大數據發(fā)展前行道(dào)路上人才的重要性,并指出大數據的靈魂是分析,而數據分析人才是行業發(fā)展的核心驅動力。除了峰會主會場嘉賓的精彩分享,本屆峰會更是同時設置了大數據與智能(néng)制造、大數據與商業BI、大數據與實戰應用、大數據執業人才專場四場分論壇。來自中國(guó)工程院、濰柴控股集團、帆軟軟件、ATA全美在線、太陽紙業等衆多專家學(xué)者,毫無保留的分享了各自領域内數據分析的實戰應用與科研成(chéng)果。

第七屆中國(guó)數據分析行業峰會是一場知識與實戰的盛宴,全國(guó)各地的專家學(xué)者和大數據人才共聚一堂,共同探讨如何讓數據快速、高效的轉化爲生産力,并創造商業價值。

投資、并購、重組

生物科技公司“人和未來”完成(chéng)2.5億元融資

近期消息,總部位于北京的生物科技公司“人和未來”日前宣布,公司剛剛完成(chéng)了新一輪的A輪融資,融資金額達2.5億元人民币,投資方爲稼沃資本和海捷資本。據了解,“人和未來”成(chéng)立于2014年7月,是一家以基因科技爲核心的健康解決方案提供商,其主營業務包括醫學(xué)診斷、智慧健康管理以及生物醫療大數據三個方面(miàn)。本輪融資完成(chéng)之後(hòu),該公司估值將(jiāng)達到27.5億人民币。

阿裡(lǐ)雲“再下一城”,將(jiāng)在印度建成(chéng)首個數據中心

近些年來,印度在科技方面(miàn)的發(fā)展有目共睹,而在雲計算領域,印度俨然已經(jīng)成(chéng)爲亞洲增速最快的市場之一。早在18年6月,阿裡(lǐ)巴巴集團就表示了要進(jìn)如印度市場的決心。近日更有媒體報道(dào)稱,阿裡(lǐ)雲將(jiāng)在印度孟買建立其在當地的首家數據中心,還(hái)中心將(jiāng)于明年3月底建成(chéng)。

想要共同做“比特币”的生意,暴風播酷雲與BitcoinFile正式達成(chéng)戰略合作

近日,暴風集團旗下的暴風BFC播酷雲宣布已經(jīng)和BitcoinFile正式達成(chéng)戰略合作。資料顯示,BIFI是比特币一個全新的分叉項目,是基于區塊鏈技術的點對(duì)點分布式文件系統協議。根據雙方簽訂的協議顯示,未來播酷雲將(jiāng)在全球範圍内爲BIFI網絡提供全節點支持,而BIFI網絡正式上線播酷雲後(hòu),也將(jiāng)按照BIFI網絡的規則,將(jiāng)獲得的回報分配給播酷雲的用戶。

大數據招聘平台“億封簡曆”完成(chéng)A輪融資

日前,基于大數據技術的招聘服務平台“億封簡曆”宣布完成(chéng)了新一輪的A輪融資,融資金額暫未透露,投資方爲啓賦資本、聯創資本和甯波梅山保稅港區達宏投資。資料顯示,億封簡曆成(chéng)立于2014年,前身是實力派,主要通過(guò)自然語言處理、數據挖掘等人工智能(néng)技術,幫助HR獵頭管理線上渠道(dào)及本地簡曆。同時通過(guò)深度學(xué)習,解決人崗匹配難題。


上市公司/标杆企業分析

國(guó)内做大數據的公司依舊分爲兩(liǎng)類:

一類是現在已經(jīng)有獲取大數據能(néng)力的公司,如百度、騰訊、阿裡(lǐ)巴巴等互聯網巨頭以及華爲、浪潮、中興等國(guó)内領軍企業,涵蓋了數據采集,數據存儲,數據分析,數據可視化以及數據安全等領域。

另一類則是初創的大數據公司,他們依賴于大數據工具,針對(duì)市場需求,爲市場帶來創新方案并推動技術發(fā)展。其中大部分的大數據應用還(hái)是需要第三方公司提供服務。

國(guó)内大數據主力陣營如下:

(注:以下排名不分先後(hòu))

1、阿裡(lǐ)巴巴,阿裡(lǐ)巴巴擁有交易數據和信用數據,更多是在搭建數據的流通、收集和分享的底層架構;

2、華爲,華爲雲服務整合了高性能(néng)的計算和存儲能(néng)力,爲大數據的挖掘和分析提供專業穩定的IT基礎設施平台,近來華爲大數據存儲實現了統一管理40PB文件系統;

3、百度,百度的優勢體現在海量的數據、沉澱十多年的用戶行爲數據、自然語言處理能(néng)力和深度學(xué)習領域的前沿研究。近來百度正式發(fā)布大數據引擎,將(jiāng)在政府、醫療、金融、零售、教育等傳統領域率先開(kāi)展對(duì)外合作;

4、浪潮,浪潮互聯網大數據采集中心已經(jīng)采集超過(guò)2PB數據,并已建立5大類數據分類處理算法。近日成(chéng)功發(fā)布海量存儲系統的最新代表産品AS130000;

5、騰訊,騰訊擁有用戶關系數據和基于此産生的社交數據,騰訊的思路主要是用數據改進(jìn)産品,注重QZONE、微信、電商等産品的後(hòu)端數據打通;

6、 探碼科技,探碼科技自主研發(fā)的DYSON隻能(néng)分析系統,可以完整的實現大數據的采集、分析、處理。一直做的國(guó)外項目美國(guó)最大的律師平台、醫生平台和酒店、機票預訂平台的數據采集、分析、處理。將(jiāng)在國(guó)内推出一系列面(miàn)向(xiàng)政務、企業的創新型大數據研究項目與合作,爲各大企業提供高端信息技術咨詢服務;

7、中興通訊,中興通訊推出的“聚焦ICT服務的高效數據中心整體服務解決方案”,可幫助運營商有效解決大數據時代建設IDC面(miàn)臨的大部分問題,提升運營商ICT融合服務能(néng)力;

8、神州融,神州融整合了國(guó)内權威的第三方征信機構和電商平台等信貸應用場景的征信大數據,通過(guò)覆蓋信貸全生命周期管理的頂尖風控技術,爲微金融機構提供大數據驅動的信貸風控決策服務;

9、中科曙光,中科曙光XData大數據一體機可實現任務自動分解,并在多數據模塊上并行執行,全面(miàn)提高了複雜查詢條件下的效率;

10、華勝天成(chéng),勝天成(chéng)自主研發(fā)的大數據産品“i維數據”,頗具創新,近期又與IBM達成(chéng)戰略合作關系,涵蓋Linux on Power市場、智慧城市、存儲業務、管理服務、咨詢與應用管理服務;

11、神州數碼,“神州數碼”啓動了“智慧城市”戰略布局,先後(hòu)推出了市民融合服務平台、自助終端服務平台等産品,并在佛山、武漢等“智慧城市”建設中實踐運用;

12、用友,用友在商業分析、大數據處理等領域進(jìn)行研發(fā),先後(hòu)推出了用友BQ、用友AE等産品;

13、東軟,東軟大數據戰略以醫療行業爲突破口,憑借在社保、醫療行業積累的資源,搭建了東軟熙康這(zhè)一智慧醫療平台;

14、金蝶,金蝶KBI與金蝶ERP無縫集成(chéng),實現BI數據采集——集成(chéng)——分析決策支持的一體化應用;

15、寶德,寶德大數據雲備份,是一個專爲大數據而設的雲備份方案,支持實體機及虛拟機備份,而且具有無限擴充的可能(néng),并且完全自動;

16、啓明星辰,大數據時代的IP治理和審計,啓明星辰提供了終端審計、終端數據防洩露、日志審計,通過(guò)綜合審計平台來幫助用戶解決IP治理需求等解決方案;

17、拓爾思,通過(guò)收購天行網安,可以拓展在公安行業的應用,目前正著(zhe)力開(kāi)拓行業應用市場,挖掘各個産業鏈中的大數據價值;

18、榮之聯,零售、證券、生物、政府等都(dōu)是榮之聯大數據業務的主要目标行業,已爲零售業提供了大數據分析的解決方案,解決了庫存問題;

19、中科金财,作爲國(guó)内領先的高端IT綜合服務商,主要服務于金融業的大數據;

20、美亞柏科,專注于公安市場,其業務包括電子數據取證、電子數據鑒定、網絡輿情分析、數字維權、公證雲、搜索雲以及取證雲服務;

21、賽思信安,國(guó)内存儲技術與服務供應商賽思信安推出了自主研發(fā)的大數據管理系統,适用範圍包括互聯網、公衆服務、商業智能(néng)、金融、醫療衛生、能(néng)源等多個行業;

22、華宇軟件,作爲大數據、食品安全、法務軟件等相關熱門行業軟件,同時也是公安領域大數據的上市公司;

23、天玑科技,天玑科技的數據中心運維管理服務,爲大數據的分析能(néng)力提供了強大的後(hòu)台支撐和保障;

24、東方國(guó)信,東方國(guó)信主營業務爲企業商業智能(néng)軟件及系統解決方案,收購北科億力和科瑞明,有效拓展了工業和金融大數據領域;

25、華三,華三全融合虛拟化網絡技術能(néng)夠極大簡化網絡結構,減輕網絡管理和維護量,爲企業數據中心大規模建設提供最強有力的技術支持;

26、海康威視,海康威視基于英特爾Hadoop發(fā)行版,并融合可以靈活按需調配IT資源對(duì)應用和服務進(jìn)行支持的開(kāi)放架構雲計算技術,打造出了視頻智能(néng)雲計算方案;

27、高德,高德與阿裡(lǐ)將(jiāng)在地圖搜索、産品商業化、數據共享、雲計算等領域展開(kāi)合作,特别是在數據共享方面(miàn),高德和阿裡(lǐ)巴巴將(jiāng)共建一個大數據服務體系;

28、四維圖新,作爲提供導航地圖、地理信息系統軟件建設的内容提供商,現在已嘗試使用大數據爲政府部門提供決策;

29、海捷科技,專注于商業智能(néng)領域(BI)、數據倉庫領域、數據庫領域的專業咨詢、項目實施、軟件開(kāi)發(fā)、系統集成(chéng)等方面(miàn),爲金融、電信、快速消費品等行業提供相應方案;

30、北京信合運通,信合運通專注于爲運營商和行業客戶提供基于大數據的深度分析和挖掘技術、渠道(dào)支撐服務及行業解決方案。



個人用戶登錄 機構用戶登錄
賬号:
密碼:
忘記密碼
新用戶注冊
會員注冊
注冊類型: 個人 機構








發(fā)送驗證碼

找回密碼

發(fā)送驗證碼


修改密碼


郵箱綁定
更換手機


委托人權限登錄

由于個人隐私既客戶權限問題請點擊輸入身份證号碼進(jìn)行查看您的資料