原標(biāo)題:中文大模型讓AI更“接地氣”
目前成熟的生成式AI模型大多基于英文數(shù)據(jù)進(jìn)行訓(xùn)練,在國(guó)內(nèi)各行各業(yè)的應(yīng)用環(huán)境中,中文大模型顯然更“接地氣”。通過中文或英文數(shù)據(jù)訓(xùn)練出來的大模型,差異比較大,中文的上下文理解和語義的多解性要大于英文。大模型首先要理解人類意圖,因此對(duì)于國(guó)內(nèi)用戶來說,用中文去訓(xùn)練的大模型比較適用。
“請(qǐng)訊飛星火認(rèn)知大模型模仿梁曉聲先生筆下的小說《人世間》的風(fēng)格,續(xù)寫一小段文章。”5月20日,在第七屆世界智能大會(huì)閉幕式上,主持人蔣昌建向訊飛星火認(rèn)知大模型發(fā)問。短短幾秒鐘,續(xù)寫文字便“躍然紙上”。原作者梁曉聲認(rèn)為,續(xù)寫內(nèi)容簡(jiǎn)練、文字有一定溫度,從傳達(dá)的情感和思想來看幾乎“無可挑剔”。
在本次世界智能大會(huì)上,生成式人工智能毫無疑問成為大家關(guān)注的焦點(diǎn)。近期,國(guó)內(nèi)各大廠商紛紛加快開展生成式AI核心技術(shù)的研發(fā),無論是訊飛星火認(rèn)知大模型展現(xiàn)出的雄厚“中文功底”,還是國(guó)家超級(jí)計(jì)算天津中心發(fā)布的基于國(guó)產(chǎn)天河超級(jí)算力、智能算力和匯集構(gòu)建中文大數(shù)據(jù)集研發(fā)訓(xùn)練的天河天元大模型,都讓大眾對(duì)我國(guó)自主研發(fā)的中文生成式AI大模型充滿期待。
開發(fā)適合國(guó)人的中文大模型
“AI大模型是基于海量多源數(shù)據(jù)打造的預(yù)訓(xùn)練模型,是對(duì)原有算法模型的技術(shù)升級(jí)和產(chǎn)品迭代。”國(guó)家超級(jí)計(jì)算天津中心數(shù)據(jù)智能部部長(zhǎng)康波介紹,預(yù)訓(xùn)練大模型在基于海量數(shù)據(jù)的自監(jiān)督學(xué)習(xí)階段完成了“通識(shí)”教育,再借助“預(yù)訓(xùn)練+精調(diào)”等模式,在共享參數(shù)的情況下,根據(jù)具體應(yīng)用場(chǎng)景的特性,用少量數(shù)據(jù)進(jìn)行相應(yīng)微調(diào),即可高水平完成任務(wù)。
AI大模型能夠理解人類的自然語言表達(dá),并通過龐大的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)具有針對(duì)性的內(nèi)容輸出。
從效果上看,生成式AI表現(xiàn)為“無所不知、無所不能”,其具備了邏輯推理、上下文理解、文字創(chuàng)作、知識(shí)提取、代碼生成等非常多元化的強(qiáng)大能力。
不過,目前成熟的生成式AI大模型大多基于英文數(shù)據(jù)進(jìn)行訓(xùn)練。“通過中文或英文數(shù)據(jù)訓(xùn)練出來的大模型,差異還是比較大的,中文的上下文理解和語義的多解性要大于英文。大模型首先要理解人類意圖,因此對(duì)于國(guó)內(nèi)用戶來說,用中文去訓(xùn)練的大模型比較適用。”康波說。
此外,生成式AI正一步步向生產(chǎn)工具方向發(fā)展,為產(chǎn)業(yè)深度賦能,或?qū)⒊蔀槿斯ぶ悄芘c實(shí)體經(jīng)濟(jì)深度融合的重要力量。那么作為數(shù)據(jù)驅(qū)動(dòng)的AI大模型,其訓(xùn)練數(shù)據(jù)來源的可靠性和安全性,便成為推動(dòng)科技創(chuàng)新的關(guān)鍵。因此,自主研發(fā)中文大模型成為越來越多科技巨頭的首要選擇。
三月以來,國(guó)內(nèi)大模型領(lǐng)域已進(jìn)入“混戰(zhàn)”模式,各路玩家紛紛入局,其中有不少都“相中”了研發(fā)中文大模型。
“搶抓通用人工智能的發(fā)展機(jī)遇有幾個(gè)基本要素。”科大訊飛董事長(zhǎng)劉慶峰認(rèn)為,第一,必須要在自主可控的平臺(tái)上;第二,必須要同時(shí)做中文和英文,不只學(xué)習(xí)中國(guó)的“智慧”,還要向世界學(xué)習(xí);第三,在“硬碰硬”的科技對(duì)比上,不僅要學(xué)習(xí),還要想辦法趕超。
例如,阿里推出了首個(gè)中文AI模型社區(qū),社區(qū)首批上架超300個(gè)模型,其中中文模型超過100個(gè),覆蓋了視覺、語音、自然語言處理、多模態(tài)等AI主要領(lǐng)域,覆蓋主流任務(wù)超過60個(gè),且均全面開源并開放使用。360公司推出的“360智腦”背后的360GPT大模型,在海量的中文文本數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練和微調(diào),從而具備了強(qiáng)大的語言理解和生成能力。據(jù)悉,該模型目前已經(jīng)達(dá)到了100億參數(shù)規(guī)模,并且還在不斷擴(kuò)展中。
中文大語言模型數(shù)據(jù)集稀缺
生成式人工智能是人工智能發(fā)展到一定階段的產(chǎn)物。就像ImageNet數(shù)據(jù)集推動(dòng)了殘差網(wǎng)絡(luò)等計(jì)算機(jī)視覺算法的成熟,openslr等開源數(shù)據(jù)集的發(fā)布催生了長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)等自然語言神經(jīng)網(wǎng)絡(luò)的發(fā)展,圖形處理器的大量使用使得模型參數(shù)從百萬級(jí)發(fā)展到千億級(jí)(ChatGPT使用了上萬塊A100顯卡開展訓(xùn)練)?梢钥闯,生成式人工智能的快速成長(zhǎng),離不開算力和數(shù)據(jù)的支撐。
“大模型是大數(shù)據(jù)、大算力驅(qū)動(dòng)的結(jié)果,兩者缺一不可。”超級(jí)計(jì)算天津中心首席科學(xué)家孟祥飛博士強(qiáng)調(diào)。
一方面,中文大模型的理解能力來自于數(shù)據(jù),它需要用海量數(shù)據(jù)來學(xué)習(xí),通過自注意力和多頭注意力機(jī)制來建立知識(shí)之間的聯(lián)系。這就意味著,更多、更高質(zhì)量的數(shù)據(jù)供給,將會(huì)帶來模型網(wǎng)絡(luò)中知識(shí)之間關(guān)系的完善性和貫通性。當(dāng)用戶提問到深層次或者冷門問題時(shí),數(shù)據(jù)質(zhì)量越高,AI大模型回答出正確答案的概率就越大。
“但目前中文大語言模型的數(shù)據(jù)集非常稀缺。”孟祥飛介紹,為了解決這個(gè)問題,天津超算中心搜集整理了全域的網(wǎng)頁數(shù)據(jù),并從中提取處理高質(zhì)量的中文數(shù)據(jù)做成數(shù)據(jù)集,同時(shí)采集納入各種開源訓(xùn)練數(shù)據(jù)、中文小說數(shù)據(jù)、古文數(shù)據(jù)、百科數(shù)據(jù)、新聞數(shù)據(jù)以及專業(yè)領(lǐng)域的諸如醫(yī)學(xué)、法律等多種數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集總token數(shù)達(dá)到3500億,訓(xùn)練打造了中文語言大模型——天河天元大模型。
另一方面,算力的供應(yīng)是大模型的基礎(chǔ)保障。大模型發(fā)端于自然語言處理領(lǐng)域,以谷歌的BERT、Open AI的ChatGPT和百度文心一言等大模型為代表,參數(shù)規(guī)模逐步提升至千億、萬億,同時(shí)用于訓(xùn)練的數(shù)據(jù)量級(jí)也顯著提升,帶來了模型能力的提高,這也代表著算力需求的指數(shù)級(jí)上升。
“而超級(jí)計(jì)算可以說是算力中的戰(zhàn)斗機(jī)。”孟祥飛說,為了保證大模型的訓(xùn)練順利,天津超算中心充分利用了天河新一代超級(jí)計(jì)算機(jī)的雙精度、單精度、半精度融合計(jì)算輸出能力,構(gòu)建基于自主E級(jí)算力體系架構(gòu)的智能計(jì)算引擎,建設(shè)人工智能大規(guī)模訓(xùn)練與應(yīng)用系統(tǒng)支撐環(huán)境,特別是在中文處理方面構(gòu)建了中文大模型數(shù)據(jù)處理的工作流技術(shù)體系,從而保障了訓(xùn)練任務(wù)的順利開展。
技術(shù)成果廣泛應(yīng)用于多領(lǐng)域
在此次世界智能大會(huì)上,隨著訊飛星火認(rèn)知大模型一起展示的還有多款搭載了大模型的行業(yè)應(yīng)用成果。
康波認(rèn)為,人工智能是驅(qū)動(dòng)新一輪科技革命和產(chǎn)業(yè)變革的巨大力量,應(yīng)將大模型作為產(chǎn)業(yè)智能化升級(jí)的基座,用專業(yè)數(shù)據(jù)集打造更貼合行業(yè)領(lǐng)域的智能化高水平“專家”。
以訊飛星火認(rèn)知大模型為例,該大模型的整體布局為“1+N”體系。其中“1”是指通用認(rèn)知智能大模型,“N”就是大模型在教育、辦公、汽車、人機(jī)交互等各個(gè)領(lǐng)域的應(yīng)用。例如在教育領(lǐng)域,作為全球首款搭載認(rèn)知大模型的學(xué)習(xí)機(jī),科大訊飛推出的學(xué)習(xí)機(jī)可像真人教師一樣與3歲至18歲的學(xué)生進(jìn)行互動(dòng)式輔學(xué);在辦公領(lǐng)域,基于大模型能力升級(jí)的產(chǎn)品具備語篇規(guī)整、會(huì)議紀(jì)要、一鍵成稿等功能。
康波認(rèn)為,在各行各業(yè)的應(yīng)用中,中文大模型顯然更“接地氣”。他舉例說,天津超算中心綜合實(shí)現(xiàn)了文本、語音、視頻等多模態(tài)的大模型生成能力,從而形成了“一平臺(tái)三能力”的基礎(chǔ)架構(gòu),實(shí)現(xiàn)了更廣泛的產(chǎn)業(yè)融合能力。基于其自然語言的理解和表達(dá)能力,與醫(yī)療結(jié)合,學(xué)習(xí)醫(yī)學(xué)指南等專業(yè)規(guī)范,可以迅速地掌握對(duì)應(yīng)的專業(yè)知識(shí)。其中,中文大模型可以解決“同詞不同義”在醫(yī)療上的歧義性,實(shí)現(xiàn)精準(zhǔn)的輸出,為醫(yī)療輔助診斷提供更為全面的支撐能力。
同樣,在工業(yè)檢測(cè)和流程控制方面,大模型基于多元化輸出能力,可以進(jìn)行規(guī)范輔導(dǎo)、缺陷檢測(cè)、流程指令生成一系列操作,降低錯(cuò)誤率,提升生產(chǎn)效率。其中,中文大模型可以更好地理解復(fù)雜的專業(yè)術(shù)語以及流程指令邏輯,讓輸出更準(zhǔn)確、嚴(yán)謹(jǐn)。
“在大模型通用性、泛化性以及降低人工智能應(yīng)用門檻的優(yōu)勢(shì)推動(dòng)下,人工智能也將會(huì)加快落地,形成新的機(jī)遇。”康波表示。
目前成熟的生成式AI模型大多基于英文數(shù)據(jù)進(jìn)行訓(xùn)練,在國(guó)內(nèi)各行各業(yè)的應(yīng)用環(huán)境中,中文大模型顯然更“接地氣”。通過中文或英文數(shù)據(jù)訓(xùn)練出來的大模型,差異比較大,中文的上下文理解和語義的多解性要大于英文。大模型首先要理解人類意圖,因此對(duì)于國(guó)內(nèi)用戶來說,用中文去訓(xùn)練的大模型比較適用。
“請(qǐng)訊飛星火認(rèn)知大模型模仿梁曉聲先生筆下的小說《人世間》的風(fēng)格,續(xù)寫一小段文章。”5月20日,在第七屆世界智能大會(huì)閉幕式上,主持人蔣昌建向訊飛星火認(rèn)知大模型發(fā)問。短短幾秒鐘,續(xù)寫文字便“躍然紙上”。原作者梁曉聲認(rèn)為,續(xù)寫內(nèi)容簡(jiǎn)練、文字有一定溫度,從傳達(dá)的情感和思想來看幾乎“無可挑剔”。
在本次世界智能大會(huì)上,生成式人工智能毫無疑問成為大家關(guān)注的焦點(diǎn)。近期,國(guó)內(nèi)各大廠商紛紛加快開展生成式AI核心技術(shù)的研發(fā),無論是訊飛星火認(rèn)知大模型展現(xiàn)出的雄厚“中文功底”,還是國(guó)家超級(jí)計(jì)算天津中心發(fā)布的基于國(guó)產(chǎn)天河超級(jí)算力、智能算力和匯集構(gòu)建中文大數(shù)據(jù)集研發(fā)訓(xùn)練的天河天元大模型,都讓大眾對(duì)我國(guó)自主研發(fā)的中文生成式AI大模型充滿期待。
開發(fā)適合國(guó)人的中文大模型
“AI大模型是基于海量多源數(shù)據(jù)打造的預(yù)訓(xùn)練模型,是對(duì)原有算法模型的技術(shù)升級(jí)和產(chǎn)品迭代。”國(guó)家超級(jí)計(jì)算天津中心數(shù)據(jù)智能部部長(zhǎng)康波介紹,預(yù)訓(xùn)練大模型在基于海量數(shù)據(jù)的自監(jiān)督學(xué)習(xí)階段完成了“通識(shí)”教育,再借助“預(yù)訓(xùn)練+精調(diào)”等模式,在共享參數(shù)的情況下,根據(jù)具體應(yīng)用場(chǎng)景的特性,用少量數(shù)據(jù)進(jìn)行相應(yīng)微調(diào),即可高水平完成任務(wù)。
AI大模型能夠理解人類的自然語言表達(dá),并通過龐大的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)具有針對(duì)性的內(nèi)容輸出。
從效果上看,生成式AI表現(xiàn)為“無所不知、無所不能”,其具備了邏輯推理、上下文理解、文字創(chuàng)作、知識(shí)提取、代碼生成等非常多元化的強(qiáng)大能力。
不過,目前成熟的生成式AI大模型大多基于英文數(shù)據(jù)進(jìn)行訓(xùn)練。“通過中文或英文數(shù)據(jù)訓(xùn)練出來的大模型,差異還是比較大的,中文的上下文理解和語義的多解性要大于英文。大模型首先要理解人類意圖,因此對(duì)于國(guó)內(nèi)用戶來說,用中文去訓(xùn)練的大模型比較適用。”康波說。
此外,生成式AI正一步步向生產(chǎn)工具方向發(fā)展,為產(chǎn)業(yè)深度賦能,或?qū)⒊蔀槿斯ぶ悄芘c實(shí)體經(jīng)濟(jì)深度融合的重要力量。那么作為數(shù)據(jù)驅(qū)動(dòng)的AI大模型,其訓(xùn)練數(shù)據(jù)來源的可靠性和安全性,便成為推動(dòng)科技創(chuàng)新的關(guān)鍵。因此,自主研發(fā)中文大模型成為越來越多科技巨頭的首要選擇。
三月以來,國(guó)內(nèi)大模型領(lǐng)域已進(jìn)入“混戰(zhàn)”模式,各路玩家紛紛入局,其中有不少都“相中”了研發(fā)中文大模型。
“搶抓通用人工智能的發(fā)展機(jī)遇有幾個(gè)基本要素。”科大訊飛董事長(zhǎng)劉慶峰認(rèn)為,第一,必須要在自主可控的平臺(tái)上;第二,必須要同時(shí)做中文和英文,不只學(xué)習(xí)中國(guó)的“智慧”,還要向世界學(xué)習(xí);第三,在“硬碰硬”的科技對(duì)比上,不僅要學(xué)習(xí),還要想辦法趕超。
例如,阿里推出了首個(gè)中文AI模型社區(qū),社區(qū)首批上架超300個(gè)模型,其中中文模型超過100個(gè),覆蓋了視覺、語音、自然語言處理、多模態(tài)等AI主要領(lǐng)域,覆蓋主流任務(wù)超過60個(gè),且均全面開源并開放使用。360公司推出的“360智腦”背后的360GPT大模型,在海量的中文文本數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練和微調(diào),從而具備了強(qiáng)大的語言理解和生成能力。據(jù)悉,該模型目前已經(jīng)達(dá)到了100億參數(shù)規(guī)模,并且還在不斷擴(kuò)展中。
中文大語言模型數(shù)據(jù)集稀缺
生成式人工智能是人工智能發(fā)展到一定階段的產(chǎn)物。就像ImageNet數(shù)據(jù)集推動(dòng)了殘差網(wǎng)絡(luò)等計(jì)算機(jī)視覺算法的成熟,openslr等開源數(shù)據(jù)集的發(fā)布催生了長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)等自然語言神經(jīng)網(wǎng)絡(luò)的發(fā)展,圖形處理器的大量使用使得模型參數(shù)從百萬級(jí)發(fā)展到千億級(jí)(ChatGPT使用了上萬塊A100顯卡開展訓(xùn)練)?梢钥闯,生成式人工智能的快速成長(zhǎng),離不開算力和數(shù)據(jù)的支撐。
“大模型是大數(shù)據(jù)、大算力驅(qū)動(dòng)的結(jié)果,兩者缺一不可。”超級(jí)計(jì)算天津中心首席科學(xué)家孟祥飛博士強(qiáng)調(diào)。
一方面,中文大模型的理解能力來自于數(shù)據(jù),它需要用海量數(shù)據(jù)來學(xué)習(xí),通過自注意力和多頭注意力機(jī)制來建立知識(shí)之間的聯(lián)系。這就意味著,更多、更高質(zhì)量的數(shù)據(jù)供給,將會(huì)帶來模型網(wǎng)絡(luò)中知識(shí)之間關(guān)系的完善性和貫通性。當(dāng)用戶提問到深層次或者冷門問題時(shí),數(shù)據(jù)質(zhì)量越高,AI大模型回答出正確答案的概率就越大。
“但目前中文大語言模型的數(shù)據(jù)集非常稀缺。”孟祥飛介紹,為了解決這個(gè)問題,天津超算中心搜集整理了全域的網(wǎng)頁數(shù)據(jù),并從中提取處理高質(zhì)量的中文數(shù)據(jù)做成數(shù)據(jù)集,同時(shí)采集納入各種開源訓(xùn)練數(shù)據(jù)、中文小說數(shù)據(jù)、古文數(shù)據(jù)、百科數(shù)據(jù)、新聞數(shù)據(jù)以及專業(yè)領(lǐng)域的諸如醫(yī)學(xué)、法律等多種數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集總token數(shù)達(dá)到3500億,訓(xùn)練打造了中文語言大模型——天河天元大模型。
另一方面,算力的供應(yīng)是大模型的基礎(chǔ)保障。大模型發(fā)端于自然語言處理領(lǐng)域,以谷歌的BERT、Open AI的ChatGPT和百度文心一言等大模型為代表,參數(shù)規(guī)模逐步提升至千億、萬億,同時(shí)用于訓(xùn)練的數(shù)據(jù)量級(jí)也顯著提升,帶來了模型能力的提高,這也代表著算力需求的指數(shù)級(jí)上升。
“而超級(jí)計(jì)算可以說是算力中的戰(zhàn)斗機(jī)。”孟祥飛說,為了保證大模型的訓(xùn)練順利,天津超算中心充分利用了天河新一代超級(jí)計(jì)算機(jī)的雙精度、單精度、半精度融合計(jì)算輸出能力,構(gòu)建基于自主E級(jí)算力體系架構(gòu)的智能計(jì)算引擎,建設(shè)人工智能大規(guī)模訓(xùn)練與應(yīng)用系統(tǒng)支撐環(huán)境,特別是在中文處理方面構(gòu)建了中文大模型數(shù)據(jù)處理的工作流技術(shù)體系,從而保障了訓(xùn)練任務(wù)的順利開展。
技術(shù)成果廣泛應(yīng)用于多領(lǐng)域
在此次世界智能大會(huì)上,隨著訊飛星火認(rèn)知大模型一起展示的還有多款搭載了大模型的行業(yè)應(yīng)用成果。
康波認(rèn)為,人工智能是驅(qū)動(dòng)新一輪科技革命和產(chǎn)業(yè)變革的巨大力量,應(yīng)將大模型作為產(chǎn)業(yè)智能化升級(jí)的基座,用專業(yè)數(shù)據(jù)集打造更貼合行業(yè)領(lǐng)域的智能化高水平“專家”。
以訊飛星火認(rèn)知大模型為例,該大模型的整體布局為“1+N”體系。其中“1”是指通用認(rèn)知智能大模型,“N”就是大模型在教育、辦公、汽車、人機(jī)交互等各個(gè)領(lǐng)域的應(yīng)用。例如在教育領(lǐng)域,作為全球首款搭載認(rèn)知大模型的學(xué)習(xí)機(jī),科大訊飛推出的學(xué)習(xí)機(jī)可像真人教師一樣與3歲至18歲的學(xué)生進(jìn)行互動(dòng)式輔學(xué);在辦公領(lǐng)域,基于大模型能力升級(jí)的產(chǎn)品具備語篇規(guī)整、會(huì)議紀(jì)要、一鍵成稿等功能。
康波認(rèn)為,在各行各業(yè)的應(yīng)用中,中文大模型顯然更“接地氣”。他舉例說,天津超算中心綜合實(shí)現(xiàn)了文本、語音、視頻等多模態(tài)的大模型生成能力,從而形成了“一平臺(tái)三能力”的基礎(chǔ)架構(gòu),實(shí)現(xiàn)了更廣泛的產(chǎn)業(yè)融合能力。基于其自然語言的理解和表達(dá)能力,與醫(yī)療結(jié)合,學(xué)習(xí)醫(yī)學(xué)指南等專業(yè)規(guī)范,可以迅速地掌握對(duì)應(yīng)的專業(yè)知識(shí)。其中,中文大模型可以解決“同詞不同義”在醫(yī)療上的歧義性,實(shí)現(xiàn)精準(zhǔn)的輸出,為醫(yī)療輔助診斷提供更為全面的支撐能力。
同樣,在工業(yè)檢測(cè)和流程控制方面,大模型基于多元化輸出能力,可以進(jìn)行規(guī)范輔導(dǎo)、缺陷檢測(cè)、流程指令生成一系列操作,降低錯(cuò)誤率,提升生產(chǎn)效率。其中,中文大模型可以更好地理解復(fù)雜的專業(yè)術(shù)語以及流程指令邏輯,讓輸出更準(zhǔn)確、嚴(yán)謹(jǐn)。
“在大模型通用性、泛化性以及降低人工智能應(yīng)用門檻的優(yōu)勢(shì)推動(dòng)下,人工智能也將會(huì)加快落地,形成新的機(jī)遇。”康波表示。