【項目動态】“三冠一亞”成(chéng)最大赢家!深蘭首次參加CCKS 2020彰顯技術硬實力

2020-12-01 閱讀

捷報頻傳,三冠一亞!11月12-15日,CCKS 2020(國(guó)内知識圖譜和語義計算等領域的核心學(xué)術會議)在江西南昌成(chéng)功舉行,深蘭科技DeepBlueAI團隊首次參加即斬獲“三冠一亞”的佳績,并是唯一獲得多個冠軍的隊伍,成(chéng)爲與會嘉賓和媒體關注焦點。

此次大會由中國(guó)中文信息學(xué)會語言與知識計算專業委員會主辦,主題爲“知識圖譜與認知智能(néng)”,共設立8個相關主題的技術評測任務,旨在爲研究人員提供測試知識圖譜與語義計算技術、算法及系統的平台和資源,促進(jìn)國(guó)内知識圖譜領域的技術發(fā)展。

随著(zhe)互聯網科技飛速發(fā)展,人們逐漸從信息時代進(jìn)入智能(néng)時代。知識圖譜作爲承載底層海量知識并支持上層智能(néng)應用的重要載體,在智能(néng)時代中扮演了極其重要的角色。其中,多模态知識圖譜的構建,能(néng)夠讓基于知識圖譜的智能(néng)服務更好(hǎo)地理解真實世界的數據場景,進(jìn)而更好(hǎo)地支撐各項上遊任務和行業應用,如推薦系統、語義搜索、智能(néng)問答等。

1.jpg

大會現場吸引衆多行業資深專家莅臨現場

2.jpg

深蘭科技獲獎信息(點擊可看清晰獎狀)

3.jpg

新冠百科知識圖譜類型推斷

4.jpg

面(miàn)向(xiàng)金融領域:事(shì)件主體抽取

5.jpg

基于标題大規模商品實體檢索

6.jpg

面(miàn)向(xiàng)中文短文本的實體鏈指

7.jpg

基于标題大規模商品實體檢索(創)

面(miàn)對(duì)社會各行各業不斷湧現的科技需求,深蘭科技研發(fā)人員正在加速開(kāi)展各項技術的突破研發(fā)。據了解,深蘭科技DeepBlueAI團隊此次奪冠的三個任務方案,分别可在電商、金融、輿情監控等領域的應用上發(fā)揮重要作用。

具體來說,深蘭科技DeepBlueAI團隊分别在 “新冠百科知識圖譜類型推斷”、 “面(miàn)向(xiàng)金融領域的篇章級事(shì)件主體抽取”、“基于标題的大規模商品實體檢索”這(zhè)三個(子)任務中奪得冠軍;在“面(miàn)向(xiàng)中文短文本的實體鏈指”任務中僅以0.00002分之差屈居亞軍;此外,本屆組委會還(hái)特别評選出每一任務至多一項的“創新技術獎”,專門用于鼓勵創新性技術的使用,深蘭團隊在“基于标題的大規模商品實體檢索”的任務中再次脫穎而出。

綜上所述,從包括CCKS2020在内的國(guó)内外“頂會”賽題任務設置中不難發(fā)現,共同要點更注重于落地應用性。如今人工智能(néng)已逐漸滲透到各個行業并轉化爲實際應用,深蘭早在成(chéng)立之初就提出了“基礎研究與落地應用”齊頭并進(jìn)的理念,并取得有目共睹的成(chéng)效。會議競賽的成(chéng)績正是對(duì)現在及過(guò)往的檢驗,更是對(duì)今後(hòu)不斷進(jìn)取的鞭策,“人工智能(néng) 服務民生”將(jiāng)是深蘭矢志不渝的奮鬥目标。

“三冠”詳細解讀:

一, “新冠百科知識圖譜類型推斷” 任務,要求從實體百科(包括百度百科、互動百科、維基百科、醫學(xué)百科)頁面(miàn)出發(fā),從給定的數據中推斷相關實體的類型。然而,大量類型信息以非結構化文本形式呈現于網絡頁面(miàn)中,文本處理難度大,抽取結果同時保證高準确度和覆蓋率仍然是個極大的挑戰。

應對(duì):針對(duì)數據集的特點,DeepBlueAI團隊構建了數個基于BERT模型的文本分類器,并引入了多個外部數據集,最後(hòu)將(jiāng)這(zhè)些分類器進(jìn)行融合得到最終判斷結果。實體類型是知識圖譜的重要組成(chéng),正确的實體類型是構建一個高質量知識圖譜的前提。

二,“事(shì)件”在金融領域是投資分析、資産管理的重要決策參考,也是知識圖譜的重要組成(chéng)部分,而“事(shì)件抽取”是進(jìn)行圖譜推理、事(shì)件分析的必要過(guò)程。在金融領域,“事(shì)件抽取”是一項十分重要的任務,也是自然語言處理領域一項比較複雜的任務,它的挑戰相當部分體現在文本複雜上:輸入的文本可能(néng)是句子、段落或者篇章,不定長(cháng)度的文本使得限制文本長(cháng)度的模型無法使用。

應對(duì):“面(miàn)向(xiàng)金融領域的篇章級事(shì)件主體抽取”任務中,DeepBlueAI團隊使用了多标簽事(shì)件分類加實體識别pipeline模型,在标準的多标簽分類模型中加入了特征提取模塊,實體識别模型采用BERT-LSTM-CRF與閱讀理解投票融合的方式,最終以較大優勢獲得第一。

三,“基于标題的大規模商品實體檢索”是典型的語義識别類任務,在網購已成(chéng)爲一種(zhǒng)生活方式的前提下,該技術發(fā)展具有非常實用的價值。商品标題一般較短,上下文語境不豐富;用戶搜索時,文本口語化嚴重;商品标題中存在很多變異指代,沒(méi)有給定的指代映射表,這(zhè)些方面(miàn)都(dōu)需要對(duì)上下文語境進(jìn)行精準理解,具有很大的挑戰。

應對(duì):DeepBlueAI團隊針對(duì)商品檢索任務采用召回-粗排-精排的總體方案,在召回階段放棄了bm25、dssm等主流召回技術,創新性地使用Triplet BERT模型進(jìn)行召回,在排序階段采用基于BERT的二分類排序方式,檢索準确率達到0.88489。最終不但排名第一,還(hái)收獲了創新技術獎。

關于 CCKS

第十四屆全國(guó)知識圖譜與語義計算大會(CCKS: China Conference on Knowledge Graph and Semantic Computing)由中國(guó)中文信息學(xué)會語言與知識計算專業委員會主辦,主題是“知識圖譜與認知智能(néng)”,共設立8個相關主題的技術評測任務,旨在爲研究人員提供測試知識圖譜與語義計算技術、算法及系統的平台和資源,促進(jìn)國(guó)内知識圖譜領域的技術發(fā)展,此次大會吸引了包括華爲、百度、騰訊、小米、北京大學(xué)、上海交通大學(xué)和浙江大學(xué)等知名企業和學(xué)府的團隊同台競技。


個人用戶登錄 機構用戶登錄
賬号:
密碼:
忘記密碼
新用戶注冊
會員注冊
注冊類型: 個人 機構








發(fā)送驗證碼

找回密碼

發(fā)送驗證碼


修改密碼


郵箱綁定
更換手機


委托人權限登錄

由于個人隐私既客戶權限問題請點擊輸入身份證号碼進(jìn)行查看您的資料