【項目動态】世界冠軍加持環衛智能(néng)化 深蘭獲IJCAI20兩(liǎng)冠一季+最佳工業應用視頻獎

2021-04-01 閱讀

國(guó)際人工智能(néng)聯合會議(International Joint Conference on Artificial Intelligence,簡稱爲IJCAI)是人工智能(néng)領域中最主要的學(xué)術會議之一,在會議上發(fā)表的學(xué)術成(chéng)果在整個AI領域都(dōu)有深遠的影響。IJCAI-PRICAI-20于2021年1月在日本舉行,但由于疫情原因,本次會議多次調整議程。日前,深蘭科技終于收到了姗姗來遲的榮譽,在NetML競賽獲得兩(liǎng)冠一季的好(hǎo)成(chéng)績,尤其在AI視頻競賽中“深蘭AI智能(néng)掃路機”獲得Best Industrial Video最佳工業應用視頻獎。


昨日,作爲指導委員會成(chéng)員,上海市經(jīng)濟和信息化委員會、中國(guó)智慧城市工作委員會、中國(guó)城市環境衛生協會智能(néng)環衛專業委員會、長(cháng)三角産業發(fā)展研究院、AIII人工智能(néng)産業研究院和深蘭科技(排名不分先後(hòu)),共同倡議發(fā)起(qǐ)新一代人工智能(néng)環衛智能(néng)化産業聯盟,旨在進(jìn)一步集聚智能(néng)環衛領域專家學(xué)者和領跑企業,聯合環衛清潔領域的産、學(xué)、研、用、資和服等單位,創新突破關鍵核心技術,加速建設人工智能(néng)環衛技術創新生态體系。深蘭科技作爲其中的唯一的人工智能(néng)企業,其冠軍團隊的技術實力,爲環衛智能(néng)化的推進(jìn)再添砝碼!

微信圖片_20210511164743.png


最佳工業應用視頻獎


IJCAI-PRICAI20 AI視頻競賽作爲國(guó)際會議競賽中不多見的形式,爲研究人員和AI從業人員提供了一個展示平台,以視頻的方式呈現易懂、有趣的人工智能(néng),并體現其對(duì)社會的價值。參賽者的視頻在會議的展廳中循環播放,最終獎項由參會者投票和專業評委評定産生,可謂是衆望所歸。


微信圖片_20210511164749.png


視頻以深蘭AI智能(néng)掃路機的第一視角,以拟人的方式模拟環衛工人一天的作息,以及在不同環境下的工作流程,巧妙地展示了機器人的自動檢測目标、躲避障礙、判斷交通信号、數據同步等能(néng)力,以及其背後(hòu)的自動駕駛、數據管理等核心系統。視頻叙述清晰,畫面(miàn)風格和配樂充滿科技感,引人入勝。短短4分鍾的視頻内容豐富,以講故事(shì)的形式讓人不知不覺中了解了産品的主要信息。


微信圖片_20210511164757.png


這(zhè)款AI智能(néng)掃路機通過(guò)在實際交通狀況下的行駛,AI智能(néng)掃路機在停車、大轉、障礙物避讓等方面(miàn)開(kāi)展了多場景測試和優化調整,已基本滿足了無人駕駛環衛道(dào)路保潔的要求,目前已在上海、深圳、天津等多地投入運營。



NetML競賽獲兩(liǎng)冠一季


NetML競賽是由英特爾公司贊助,在IJCAI-PRICAI20上組織的一場基于機器學(xué)習的流量分析競賽。本次比賽借助IJCAI-PRICAI20參加者的專業知識,幫助網絡研究人員與ML / AI社區進(jìn)行互動,促進(jìn)網絡流量分析新方法的研究和開(kāi)發(fā)。深蘭科技DeepBlueAI團隊在7個賽道(dào)中取得了兩(liǎng)冠一季的好(hǎo)成(chéng)績。分别在Track2和Track4獲得冠軍,在Track5獲得季軍。


微信圖片_20210511164803.png

微信圖片_20210511164807.png


微信圖片_20210511164811.png


賽題介紹


随著(zhe)互聯網的發(fā)展,網絡流量日益增多,同時惡意流量也在不斷增加。如搶票軟件、明星打榜、惡意爬蟲等。爲了探索更好(hǎo)的網絡流量的分析方法,在這(zhè)場比賽中,主辦方NetML提供了3個不同的相關數據集(CICIDS2017,NetML,non-vpn2016),并且將(jiāng)label分成(chéng)了3種(zhǒng)不同的粒度,分别是top,mid 和 fine。top就是二分類區分正常流量與惡意流量;mid和fine 還(hái)需要對(duì)惡意流量進(jìn)行進(jìn)一步的分類。CICIDS2017數據集和NetML數據集沒(méi)有mid粒度,所以一共有7個任務對(duì)應7個賽道(dào)。


評測指标


對(duì)于多分類任務:

overall = F1*mAP 。其中,F1 是每個類的f1-score乘以每個類的樣(yàng)本占比, mAP是所有類的平均準确率。


對(duì)于二分類任務:

overall = TPR*(1-FAR)。其中,TPR = TP/(TP+FN),FAR = FP/(TN+FP)。


賽題分析


三個數據集都(dōu)是10w到50w行級别的數據量,62列特征,包含了發(fā)送接收地址與端口, 發(fā)送接收包大小,時間,hdr信息,pld統計信息,tls信息,http請求信息,dns信息等網絡信息。數據集之間的區别是收集源不一樣(yàng),二分類與多分類标簽不一樣(yàng)。


經(jīng)過(guò)分析,賽題有主要有以下難點:


數據處理。原始特征數量比較多而且類型複雜,包括很多類型是列表的列如dns的相關信息。如何從這(zhè)類列表中提取特征是主要問題。

針對(duì)不同粒度的label提取特征。當前特征對(duì)top粒度二分類可能(néng)有用,但是區分不了剩下的多分類。


競賽方案


自動列表類型特征提取:由于列表類型的數據是無法直接喂給模型的,所以我們對(duì)列表類型進(jìn)行了聚合,從而提取了一些統計數值特征。


自動特征工程:由于原始數據特征數量較多,我們選擇自動特征工程進(jìn)行處理,以實現短時間内有效信息的盡量提取,并節約人工成(chéng)本。我們將(jiāng)原始特征主要分成(chéng)了類别類和數值類,并在根據類型做出不同的特征。


特征選擇:經(jīng)過(guò)上面(miàn)兩(liǎng)步,我們做的特征已經(jīng)超過(guò)一千列了,但其中大多數是無效特征。爲了避免過(guò)拟合和加速模型訓練速度,我們使用了兩(liǎng)種(zhǒng)特征選擇方法將(jiāng)特征減少到1/5。首先,我們通過(guò)lightgbm模型根據信息熵輸出的特征重要性把這(zhè)些完全沒(méi)用的特征篩選出來;然後(hòu),我們選用第二種(zhǒng)特征選擇的方法是label 重排列,使用它可以篩選出一些無效的特征。label 重排列方法的主要思想是,通過(guò)label的随機打亂,并逐次學(xué)習,得到随機狀态下重要性的分布,學(xué)習到哪些特征的重要性是“虛高”的。


指标優化:預測完之後(hòu),我們發(fā)現每個類别的比例與原始數據類别比例差别較大,導緻得分偏低,尤其是在多分類任務中。我們就通過(guò)後(hòu)處理調整阈值的方式去調整每個類别的占比。


模型融合:我們分别使用了lightgbm,catboost,xgboost這(zhè)些模型。采用加權平均的方法進(jìn)行融合,權重由每個單模型的效果決定。


總結


DeepBlueAI團隊針對(duì)網絡流量分析任務,通過(guò)數據分析、自動列表類型特征提取,自動特征工程, 在經(jīng)過(guò)特征選擇,指标優化和模型融合等設計了一個網絡流量識别算法。該算法在本次比賽中取得了2冠1季的好(hǎo)成(chéng)績,有望幫助互聯網識别出惡意流量,形成(chéng)一個良好(hǎo)的網絡環境。



個人用戶登錄 機構用戶登錄
賬号:
密碼:
忘記密碼
新用戶注冊
會員注冊
注冊類型: 個人 機構








發(fā)送驗證碼

找回密碼

發(fā)送驗證碼


修改密碼


郵箱綁定
更換手機


委托人權限登錄

由于個人隐私既客戶權限問題請點擊輸入身份證号碼進(jìn)行查看您的資料