【項目動态】深蘭科技在國(guó)際頂級會議EMNLP競賽中再奪兩(liǎng)冠
12月6日至10日,自然語言處理領域的國(guó)際頂級會議EMNLP(自然語言處理中的經(jīng)驗方法會議)在新加坡召開(kāi),研究人員、學(xué)者和業界專業人士齊聚一堂,展示和讨論該領域的最新研究成(chéng)果、進(jìn)展和創新。會上公布了各項任務競賽的獲獎名單,深蘭團隊憑借豐富的經(jīng)驗,以多個預訓練模型爲基礎,并結合多種(zhǒng)自然語言處理技術,最終在“PragTag-2023”和“Violence Inciting Text Detection(VITD)”兩(liǎng)項任務競賽中脫穎而出,奪得了冠軍。
PragTag-2023”任務競賽
其中,“PragTag-2023”任務競賽的要求,是在論文評審過(guò)程中,對(duì)同行評審内容中的每一句話,按照摘要、優點、不足、建議、結構、其他這(zhè)六個類别進(jìn)行分類,以實現評審内容細粒度的自動分類,并通過(guò)整合各方的評審意見,爲經(jīng)驗不足的評審人提供評議幫助,該項任務的主要難點在于可參考的數據量少,缺少統一的分類标準。
爲此,深蘭技術團隊采用了兩(liǎng)個出色的預訓練模型“RoBERTa”和“DeBERTa”作爲語言模型底座,在對(duì)其進(jìn)行調整優化的基礎上,同時融入了諸如注意力池化、最大池化、多折交叉驗證、對(duì)抗訓練等技術,并經(jīng)過(guò)多組數據實驗,通過(guò)使用多個模型投票得到結果的方式,解決了相關難題,赢得這(zhè)項任務競賽的冠軍。
Violence Inciting Text Detection任務競賽
“Violence Inciting Text Detection(暴力煽動文本檢測)”任務競賽的内容,則是檢測社交媒體上的文本是否包含暴力信息,并按照主動暴力、被(bèi)動暴力、非暴力三個類别做分類,目的是對(duì)發(fā)生在孟加拉國(guó)和印度西孟加拉邦的各種(zhǒng)形式的社區暴力行爲進(jìn)行分類甄别,以及闡明發(fā)生這(zhè)一複雜現象的緣由,并阻止同類事(shì)件的再次發(fā)生,緩解社會上的暴力傾向(xiàng)。
該任務的難點主要在于文本語言的特性,因爲孟加拉語雖然有2億多的使用人口,但本身還(hái)是屬于小語種(zhǒng),使用範圍小,可參考的文本數據也少,同時孟加拉語有著(zhe)句子普遍超長(cháng)、文本差異小、語意語境難以辨别的特點,這(zhè)就對(duì)計算機自然語言處理技術有著(zhe)更高的要求。
爲了解決以上難題,深蘭技術團隊采用了“分而治之”的策略。針對(duì)小語種(zhǒng)問題,團隊選用了“XLM-RoBERTa”和“banglabert”兩(liǎng)個與孟加拉語的語言特點相适配的預訓練模型;爲了解決句子超長(cháng)的問題,則采用了多種(zhǒng)裁剪策略分别進(jìn)行實驗,不斷優化語句裁剪效果;爲了提升語言預訓練模型的魯棒性,則通過(guò)在模型中加入注意力池化、最大池化、多折交叉驗證、對(duì)抗訓練、僞标簽、multi-sample dropout等技術,以增強模型承受故障和幹擾的能(néng)力。
最終,深蘭團隊以0.004分的優勢,戰勝了包括弗吉尼亞大學(xué)、加利福尼亞大學(xué)、詹姆斯庫克大學(xué)等美國(guó)知名高校在内的來自全球的27支參賽隊伍,奪得該任務競賽的冠軍。關于EMNLPEMNLP是計算機語言學(xué)和自然語言處理領域的頂級國(guó)際會議,由ACL旗下SIGDAT組織,每年舉辦一次,在Google Scholar計算語言學(xué)刊物指标中排名第二。