日前,中科院自動化所的模式識別國家重點實驗室自然語言處理與機(jī)器翻譯研究團(tuán)隊與人工智能公司出門問問進(jìn)行了共建揭牌儀式,宣布正式共建“中國科學(xué)院自動化研究所——出門問問語言智能與人機(jī)交互聯(lián)合實驗室”(以下簡稱“LIHMI聯(lián)合實驗室”),共同致力于綠色、人文的智能化產(chǎn)業(yè)業(yè)態(tài),促進(jìn)科技成果轉(zhuǎn)化。
那么?這個實驗室有什么特色呢?主要從事哪些方面的研究呢?近日,《中國科學(xué)報》記者就此采訪了自然語言處理與機(jī)器翻譯研究團(tuán)隊的負(fù)責(zé)人宗成慶研究員。
應(yīng)用于智能化信息服務(wù)系統(tǒng)
宗成慶介紹,團(tuán)隊參與此次合作共建的主要技術(shù)包括口語對話理解、對話管理、情感分類和機(jī)器翻譯等。他表示,在這些合作方向上都是團(tuán)隊的優(yōu)勢所在。1998年宗成慶就加入了模式識別國家重點實驗室,開始從事自然語言處理、人機(jī)對話系統(tǒng)和口語翻譯的研究,后來擴(kuò)展到文本機(jī)器翻譯、文本分類及自動文摘等相關(guān)研究,并在實驗室的統(tǒng)一規(guī)劃下成立了自然語言處理研究組。2002年,在信息檢索和知識工程領(lǐng)域頗有研究的趙軍研究員加入了團(tuán)隊。目前團(tuán)隊已有研究人員10余人,博士生和碩士生30多人。
經(jīng)過近20年的發(fā)展,該團(tuán)隊已經(jīng)具備了相當(dāng)雄厚的技術(shù)積累,不僅在相關(guān)技術(shù)的基礎(chǔ)理論研究方面取得了一批優(yōu)秀成果,在本領(lǐng)域國際頂級學(xué)術(shù)會議和權(quán)威期刊上發(fā)表了大量有影響的學(xué)術(shù)論文,其中,關(guān)于情感分類的學(xué)術(shù)論文入選ESI高被引論文(前1%),而且在面向國家特定領(lǐng)域的應(yīng)用系統(tǒng)研發(fā)中成績卓著。
其中,多語言機(jī)器翻譯系統(tǒng)多次在國際口語翻譯評測(IWSLT)和全國機(jī)器翻譯評測中取得多項評價指標(biāo)和評測任務(wù)第一名的優(yōu)異成績,并成功應(yīng)用于多個國家特定領(lǐng)域,為維護(hù)國家和公共安全,發(fā)揮了重要作用。
團(tuán)隊2014年榮獲中國中文信息學(xué)會最高技術(shù)獎——“錢偉長中文信息處理科學(xué)技術(shù)獎”一等獎。與百度公司等多家單位聯(lián)合完成的“基于大數(shù)據(jù)的互聯(lián)網(wǎng)機(jī)器翻譯核心技術(shù)研究及產(chǎn)業(yè)化”成果獲得2015年度國家科技進(jìn)步獎二等獎、中國電子學(xué)會科技進(jìn)步獎一等獎。
攻堅語言智能與人機(jī)交互等關(guān)鍵技術(shù)
這個實驗室將著力于自然語言理解、多輪對話管理、問答系統(tǒng)、機(jī)器翻譯等四方面的研究,為雙方合作提供原創(chuàng)技術(shù)創(chuàng)新。
宗成慶介紹,在自然語言理解方面,科研人員的研究方向主要探索自然語言語義解析和表達(dá)能力,研究語義資源獲取和建設(shè)方法,研發(fā)深層語義理解算法。這將把語言分析或解析到語義層面,準(zhǔn)確實現(xiàn)語義表達(dá),讓機(jī)器真正理解千變?nèi)f化的語言。
在多輪對話管理方面,他們研究涉及對話任務(wù)定義和狀態(tài)空間表示方法,研發(fā)數(shù)據(jù)驅(qū)動的對話管理算法,研發(fā)個性化的對話管理算法,將幫助機(jī)器模仿如同人與人的對話,通過多個問答回合,確定最終的意圖,消除問題中的歧義。
在問答系統(tǒng)方面,他們將研究基于多源數(shù)據(jù)的知識表示方法,探索基于知識的語義理解、推理方法,開發(fā)多種答案類型的問答系統(tǒng)算法。問答系統(tǒng)能夠從不同來源的海量數(shù)據(jù)中找到問題的相關(guān)信息,并準(zhǔn)確地給出一個明確的答案。由于數(shù)據(jù)來源不同,問題答案的格式差異很大,需要問答系統(tǒng)具備語義理解、推理等能力,才能很好地回答用戶問題。
在機(jī)器翻譯方面,科研人員致力于研發(fā)基于神經(jīng)網(wǎng)絡(luò)和深度機(jī)器學(xué)習(xí)方法的機(jī)器翻譯模型及算法。由于自然語言復(fù)雜多變,機(jī)器翻譯一直是人工智能技術(shù)中的一個難點。近年來,隨著神經(jīng)網(wǎng)絡(luò)和深度機(jī)器學(xué)習(xí)方法的興起,利用深度神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行機(jī)器翻譯逐漸成為主流并取得了很大進(jìn)展。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯方法主要是利用大規(guī)模神經(jīng)網(wǎng)絡(luò)對源語言句子進(jìn)行編碼,得到源語言句子的一個表示,再利用大規(guī)模神經(jīng)網(wǎng)絡(luò)對該表示進(jìn)行展開,并生成目標(biāo)語言句子。
實現(xiàn)產(chǎn)學(xué)研良性循環(huán)
宗成慶表示,近期,團(tuán)隊將致力于搭建面向特定應(yīng)用任務(wù)的自然語言處理系統(tǒng),并在性能上達(dá)到學(xué)科內(nèi)領(lǐng)先水平,主要研究內(nèi)容包括在特定領(lǐng)域搭建完整語義理解和對話管理系統(tǒng);在特定領(lǐng)域內(nèi)設(shè)計應(yīng)用場景,研發(fā)具有先進(jìn)技術(shù)水準(zhǔn)的語義分析和對話管理算法;搭建智能問答系統(tǒng)框架,在性能指標(biāo)上做到學(xué)科內(nèi)領(lǐng)先水平。隨著合作取得進(jìn)一步進(jìn)展,之后團(tuán)隊還將在場景構(gòu)建和算法設(shè)計上做出有影響力的創(chuàng)新成果,設(shè)計和實驗具備演化能力的語義解析算法的自動演化方法,推動合作企業(yè)的業(yè)務(wù)迭代。
“選擇出門問問作為共建合作伙伴,一方面是因為出門問問作為一家技術(shù)驅(qū)動的人工智能領(lǐng)域科技公司,專注于人工智能交互技術(shù)的應(yīng)用,近年來在語音交互、智能推送、手勢交互等方面推出了創(chuàng)新產(chǎn)品,其快速增長的市場發(fā)展在原創(chuàng)技術(shù)方面有迫切需求。另一方面,是緣于與出門問問公司的創(chuàng)始人李志飛多年的相互了解和信任?!弊诔蓱c說。
宗成慶表示,這次合作是面向長遠(yuǎn)發(fā)展的一次嘗試,一方面依托團(tuán)隊的自然語言處理與機(jī)器翻譯研究,為出門問問研發(fā)提供語言智能與人機(jī)交互等技術(shù)的基礎(chǔ)研究支持,增強(qiáng)出門問問產(chǎn)品的競爭力和市場領(lǐng)導(dǎo)力;另一方面,出門問問公司也將為團(tuán)隊的科學(xué)研究創(chuàng)建良性互動的環(huán)境,保證研究需求來源于應(yīng)用、研究成果服務(wù)于應(yīng)用,面向市場的關(guān)鍵技術(shù)難題也將促進(jìn)和推動理論創(chuàng)新。
宗成慶認(rèn)為,產(chǎn)學(xué)研結(jié)合最忌諱兩種情況:一是合作雙方目標(biāo)不統(tǒng)一,各打各的小算盤,同床異夢;二是對對方的期望值過高。這兩方面都無疑使合作無法持續(xù)進(jìn)行,往往導(dǎo)致“一錘子買賣”,甚至半途而廢。此次LIHMI聯(lián)合實驗室的成立,正是在排除上述兩種不利因素的基礎(chǔ)上雙方一拍即合。一方面,作為中科院自動化所的研究團(tuán)隊負(fù)責(zé)人,宗成慶充分認(rèn)識到,雖然自然語言處理屬于信息科學(xué)和技術(shù)領(lǐng)域的范疇,但畢竟不是純基礎(chǔ)的科學(xué),而更多的是面向?qū)嶋H需求的應(yīng)用技術(shù)研究,因此,作為應(yīng)用技術(shù)研究必須面向?qū)嶋H需求,研究的科學(xué)問題和關(guān)鍵技術(shù)要源于實際,用于實際,而出門問問公司恰好能夠提供這種具有挑戰(zhàn)性的科學(xué)問題和技術(shù)難題;另一方面,作為出門問問公司創(chuàng)始人和CEO的李志飛博士骨子里有一種科學(xué)家的情結(jié)。這種知根知底的合作基礎(chǔ),為LIHMI聯(lián)合實驗室的未來發(fā)展排除了隱患。
對于LIHMI聯(lián)合實驗室的未來,宗成慶充滿了信心。他表示,雙方將在互信共融、互惠共贏的基礎(chǔ)上,努力推動語言智能與人機(jī)交互的關(guān)鍵技術(shù)在實用產(chǎn)品的應(yīng)用中實現(xiàn)跨越式發(fā)展,形成產(chǎn)學(xué)研緊密配合、良性循環(huán)。