核心提示:AI成精,逼瘋程序員;AI做高數,成績超過博士;AI寫代碼,成功調教智能體
AI成精,“逼瘋”程序員;AI做高數,成績超過博士;AI寫代碼,成功調教智能體……
看多了這種故事,你是不是也覺得,AI太卷了,要上天了。
今天回歸本源,講點不那么玄幻的。AI為什么會進化?底層其實沒有秘密,無非是語言、視覺等幾大基本功。
其中,語言能力對AI的智能水平有決定性影響。視覺研究怎么“看”,語言研究“聽”、“說”和“理解”。
對人類來說,“聽”、“說”、“理解”相加,基本等于思維能力,對AI,道理也差不多。
最近,咨詢機構Gartner發(fā)布《云AI開發(fā)者服務關鍵能力報告》,對全球云服務商的AI能力做了排行。
語言AI這一項,第一名毫不意外是谷歌。
第二名比較驚喜,是阿里巴巴。這是榜單發(fā)布以來,中國公司在該領域第一次進入全球前三。
全球前十中,中國的BAT占了三席,成績可謂是矚目。
谷歌得分3.55,阿里得分3.48
語言AI,包含語音、語義兩個大類。
語音負責讓機器學會“聽”和“說”;語義,也就是自然語言處理(NLP),負責讓機器學會“理解”。
先來看看Gartner報告對語音語義的評判標準:
報告考察了云廠商語言AI的多個細分服務項,比如語音識別、語言理解等,并對每個服務項的功能實現程度進行評級。
Gartner將每種功能的程度分為5個等級,分別對應1-5分,分數越高則表明實力越強。
阿里云上的AI能力,主要包括:
阿里在語音識別、自然語言生成/語音合成、語言理解/處理、文本分析這幾項關鍵能力都獲得了最高分。
報告對每個細分項賦予權重,結合單項得分和項目權重計算總分,最終谷歌的語言AI以3.55的總分排名第一;阿里得分3.48,排名第二。
但除此之外更為細節(jié)的能力,Gartner的報告并未詳細描述。
達摩院加持的云上AI
還是跟著Gartner報告,把“語言AI”一拆為二,看看什么是語音,什么是語義。
首先是語音層面的AI技術。
語音的應用,我們并不陌生,蘋果Siri、微軟小冰等AI助手,都是通過賦予機器語音能力,從而與人類產生交互。
每一個語音產品,背后都有一套語音技術軟硬件作支撐。
阿里云所依托的,是達摩院在語音AI領域的深厚積累。
達摩院在語音AI領域最早以語音識別技術起家,技術能力涵蓋語音識別聲學模型和基礎框架、說話人區(qū)分、語音合成聲學模型和聲碼器、口語語言處理、聯合優(yōu)化的聲學前端等。
2019年,阿里語音AI曾被MIT評選為當年度的“十大突破技術”,這背后的技術能力,就來自于達摩院。
以Gartner報告評估過的Speech to text、也就是我們常說的“語音識別”技術為例。
達摩院的語音AI,在常規(guī)的近場語音識別、遠場語音場景、多人交談“雞尾酒會場景”語音識別技能之外,還有一些別致的長尾技能,比如“中英自由說”、“方言自由說”。
舉個栗子,中英文混說——“借你的iPad給我看下paper”,這句話機器如何理解呢?
業(yè)界通行的端到端語音識別 (End-to-End ASR) 技術,在單語種任務上效果很好,但一切換到多語種混說 (Code-Switch)場景下,還是不太理想。
針對這類問題問題,達摩院語音實驗室借鑒混合專家系統(Mixture of Experts)的思想。
在端到端語音識別模型中,對中文和英文分別設計了一個子網絡,最后通過門控模塊對每個子網絡的輸出進行加權。
為了減少模型參數量,中、英文子網絡采用底層共享,高層獨立的方式。最終使模型在中文、英文、中英文混說場景下都能取得比較好的效果。
在此基礎上,達摩院融合了其自研的端到端語音識別技術SAN-M網絡結構,打造出新一代的端到端中英自由說語音識別系統。
最后的效果就是:阿里的語音AI能在沒有語種信息的前提下,大幅提升中英文混說場景下的識別性能。
借鑒這套模型搭建思路,達摩院又解鎖了“方言自由說”技能,打造了一套端到端方言自由說語音識別系統。
在不需要提供方言id的情況下,用一個模型就能識別14種常用方言,并且保證純中文相對于單語模型的識別性能基本不降。
達摩院的AI技術主要通過阿里云對外提供服務,以“被集成”方式,廣泛應用于運營商、電商、物流、電力等多個行業(yè)。
除了語音AI技術之外,阿里在語義層面同樣形成了一套強大的技術體系。
語言本身就是“音”和“義”的結合體——“聽到”誠可貴,“聽懂”價更高。
人類語言并不難,幾歲孩童便可輕松掌握一門語言。但計算機有自己的編程語言,要它理解人類語言難如登天。
NLP技術的進化,是AI從感知智能向認知智能演進的前提。而在過去十幾年內,NLP技術進化最具標志性的事件,就是大規(guī)模預訓練語言模型的出現。
阿里達摩院是業(yè)界最早開展大模型探索的團隊之一,2019年就開始研發(fā)大規(guī)模預訓練語言模型體系AliceMind,并以此作為技術底座,開展對內對外的技術服務。
“前大模型時代”,NLP技術解決問題的方法,是為每個任務單獨設計模型。模型開發(fā)往往很復雜,缺乏算力、數據、技術力量的中小團隊往往難以負擔。
預訓練語言模型出現后,AI的整體智能比過去大幅提升,NLP技術的賦能方式也逐漸變成“預訓練+微調”范式。
也就是以通用的預訓練模型為基礎,加入簡單的任務層、結合少量場景語料,以較低成本訓練出優(yōu)質的任務模型。
達摩院的阿里的大規(guī)模預訓練語言模型體系,擁有閱讀、寫作、翻譯、問答、搜索、摘要生成、對話等多種能力。
大模型通常并不直接用于解決應用問題,而是通過與具體任務、應用場景的結合,逐層孵化“中模型”、“小模型”。
在大模型體系基礎上,達摩院語言技術實驗室先后孵化了一系列“中模型”,包括:
通用預訓練模型StructBERT
生成式預訓練模型PALM
多語言預訓練模型VECO
超大中文預訓練模型PLUG
多模態(tài)預訓練模型mPLUG
結構化預訓練模型StructuralLM
預訓練對話模型SPACE
表格預訓練模型STAR等
這些模型各有專長,StructBERT、mPLUG和StructuralLM具備挖掘文本、圖像、表格“結構”信息的能力,單語言生成模型PALM、多語言生成模型VECO、超大中文預訓練模型PLUG都為語言生成任務(NLG)而生。
例如StructBERT,是達摩院在谷歌BERT模型基礎之上所提出的優(yōu)化模型,它可以讓機器更好地掌握人類的語法、理解自然的語言。
StructBERT一經推出,便在當時GLUE基準上取得了SOTA(89.0分),并且還將SQuAD v1.1問題回答上的F1得分推至93.0的新高度。
再如多語言預訓練模型VECO,曾拿下國際權威多語言榜單XTREME排名第一,成績遠超Meta和微軟等國際巨頭的模型。
多模態(tài)預訓練模型mPLUG在視覺問答(VQA)任務上首次超過人類結果。對話預訓練模型SPACE在10多個對話國際榜單和數據集上取得SOTA。
基于AliceMind技術,達摩院先后斬獲了35個冠軍,在某些領域的水平已經非常接近人類對語言理解的程度了。并且,該技術已面向全球開發(fā)者開源。
眾所周知,大規(guī)模預訓練模型開發(fā)成本極高,玩家通常集中于頭部科技企業(yè),但新的模型賦能范式,使得更多中小團隊、個人開發(fā)者也能分享大模型的紅利。
……
據了解,目前阿里達摩院語音語義領域的研究已有300百多篇論文被國際頂會收錄,相關研究已應用于醫(yī)療、電力、電商等領域。
此前,IDC發(fā)布《2021H2中國AI云服務市場研究報告》中,阿里在語音和語義市場上的份額便取得了第一的成績。
語音語義的前史和未來
在人工智能發(fā)展長河中,語音語義是最早起步的技術之一,也是人工智能的基石。
語音技術最早可以追溯到1952年,貝爾實驗室的Davis等人研制出了世界上第一個能識別10個英文數字發(fā)音的實驗系統Audry,從此拉開了語音識別發(fā)展的序幕。
語義技術更是可以追溯到1947年,當時英美科學家聯手提出了利用計算機進行語言自動翻譯的設想,機器翻譯的誕生也正意味著打開了語義發(fā)展的大門。
于是,讓機器“聽到”、“聽懂”人類語言這件事,便在那段時間起,成為了學界和產業(yè)界爭相發(fā)展的技術高地。
各界的紛紛投入,也讓工業(yè)界誕生了眾多“史詩級”的產品,例如蘋果在2011年發(fā)布的Siri,以及后來亞馬遜、谷歌、微軟等推出的Alexa、Google Assistant、Cortana等。
另一方面,這背后的技術也產生了革命性的迭代變遷,例如近幾年Transformer、Bert等技術的爆發(fā),極大地推動了語音語義技術的發(fā)展。
在這種大趨勢的背后,更重要的意義在于語音語義已然是普通人“唾手可用”的技術。
以阿里為例,達摩院的機器翻譯技術每天為國內200萬中小商家翻譯上億文字 ,讓不懂英語和小語種的商家也能把國貨賣到全世界。
這樣的技術還已應用到了“買票”場景。
去年年中,北京首都機場和大興機場均開通了語音購票的服務,只需要乘客張張嘴說出目的地,便可以在1.6秒內快速完成選站。
事實上,未來任何硬件終端都可以集成語言AI技術,這樣的應用空間是巨大的,這也正是國內外學者、科技巨頭紛紛發(fā)力于此的原因。
就像中國計算機學會副理事長、瀾舟科技創(chuàng)始人兼CEO周明所評價的那般:
自然語言技術是人工智能領域的核心技術,過去幾年預訓練模型的興起已經讓這一技術領域取得了質的飛躍,也加速了人工智能領域從感知智能走向認知智能的進程。
這一系列突破將給各行各業(yè)乃至個人生活帶來巨大的價值,很高興看到以阿里巴巴為代表的的中國科技公司在該領域進入了世界第一梯隊。”
也正如Gartner在此次報告中所述:
企業(yè)正在開發(fā)大規(guī)模語言模型,以提供更廣泛的語言服務。主要云服務商正在利用其云基礎設施開發(fā)專有語言模型。較小的供應商正在利用開源軟件、數據和機器學習模型進行競爭。
但縱觀語音語義的發(fā)展,有一點是始終未曾變化的,那就是它的理想目標——和機器對話,像在跟人類交流。
前不久谷歌研究員爆料“AI具備人格”的事件在科技圈引發(fā)了熱議,雖然后來谷歌對其已經進行了辟謠,但其背后無法掩蓋的事實是AI正在逐漸向人類逼近。
那么在未來,語音語義技術又將如何顛覆人們的生活,是值得期待了。
看多了這種故事,你是不是也覺得,AI太卷了,要上天了。
今天回歸本源,講點不那么玄幻的。AI為什么會進化?底層其實沒有秘密,無非是語言、視覺等幾大基本功。
其中,語言能力對AI的智能水平有決定性影響。視覺研究怎么“看”,語言研究“聽”、“說”和“理解”。
對人類來說,“聽”、“說”、“理解”相加,基本等于思維能力,對AI,道理也差不多。
最近,咨詢機構Gartner發(fā)布《云AI開發(fā)者服務關鍵能力報告》,對全球云服務商的AI能力做了排行。
語言AI這一項,第一名毫不意外是谷歌。
第二名比較驚喜,是阿里巴巴。這是榜單發(fā)布以來,中國公司在該領域第一次進入全球前三。
全球前十中,中國的BAT占了三席,成績可謂是矚目。
谷歌得分3.55,阿里得分3.48
語言AI,包含語音、語義兩個大類。
語音負責讓機器學會“聽”和“說”;語義,也就是自然語言處理(NLP),負責讓機器學會“理解”。
先來看看Gartner報告對語音語義的評判標準:
報告考察了云廠商語言AI的多個細分服務項,比如語音識別、語言理解等,并對每個服務項的功能實現程度進行評級。
Gartner將每種功能的程度分為5個等級,分別對應1-5分,分數越高則表明實力越強。
阿里云上的AI能力,主要包括:
阿里在語音識別、自然語言生成/語音合成、語言理解/處理、文本分析這幾項關鍵能力都獲得了最高分。
報告對每個細分項賦予權重,結合單項得分和項目權重計算總分,最終谷歌的語言AI以3.55的總分排名第一;阿里得分3.48,排名第二。
但除此之外更為細節(jié)的能力,Gartner的報告并未詳細描述。
達摩院加持的云上AI
還是跟著Gartner報告,把“語言AI”一拆為二,看看什么是語音,什么是語義。
首先是語音層面的AI技術。
語音的應用,我們并不陌生,蘋果Siri、微軟小冰等AI助手,都是通過賦予機器語音能力,從而與人類產生交互。
每一個語音產品,背后都有一套語音技術軟硬件作支撐。
阿里云所依托的,是達摩院在語音AI領域的深厚積累。
達摩院在語音AI領域最早以語音識別技術起家,技術能力涵蓋語音識別聲學模型和基礎框架、說話人區(qū)分、語音合成聲學模型和聲碼器、口語語言處理、聯合優(yōu)化的聲學前端等。
2019年,阿里語音AI曾被MIT評選為當年度的“十大突破技術”,這背后的技術能力,就來自于達摩院。
以Gartner報告評估過的Speech to text、也就是我們常說的“語音識別”技術為例。
達摩院的語音AI,在常規(guī)的近場語音識別、遠場語音場景、多人交談“雞尾酒會場景”語音識別技能之外,還有一些別致的長尾技能,比如“中英自由說”、“方言自由說”。
舉個栗子,中英文混說——“借你的iPad給我看下paper”,這句話機器如何理解呢?
業(yè)界通行的端到端語音識別 (End-to-End ASR) 技術,在單語種任務上效果很好,但一切換到多語種混說 (Code-Switch)場景下,還是不太理想。
針對這類問題問題,達摩院語音實驗室借鑒混合專家系統(Mixture of Experts)的思想。
在端到端語音識別模型中,對中文和英文分別設計了一個子網絡,最后通過門控模塊對每個子網絡的輸出進行加權。
為了減少模型參數量,中、英文子網絡采用底層共享,高層獨立的方式。最終使模型在中文、英文、中英文混說場景下都能取得比較好的效果。
在此基礎上,達摩院融合了其自研的端到端語音識別技術SAN-M網絡結構,打造出新一代的端到端中英自由說語音識別系統。
最后的效果就是:阿里的語音AI能在沒有語種信息的前提下,大幅提升中英文混說場景下的識別性能。
△ SAN-M網絡結構框架
借鑒這套模型搭建思路,達摩院又解鎖了“方言自由說”技能,打造了一套端到端方言自由說語音識別系統。
在不需要提供方言id的情況下,用一個模型就能識別14種常用方言,并且保證純中文相對于單語模型的識別性能基本不降。
達摩院的AI技術主要通過阿里云對外提供服務,以“被集成”方式,廣泛應用于運營商、電商、物流、電力等多個行業(yè)。
除了語音AI技術之外,阿里在語義層面同樣形成了一套強大的技術體系。
語言本身就是“音”和“義”的結合體——“聽到”誠可貴,“聽懂”價更高。
人類語言并不難,幾歲孩童便可輕松掌握一門語言。但計算機有自己的編程語言,要它理解人類語言難如登天。
NLP技術的進化,是AI從感知智能向認知智能演進的前提。而在過去十幾年內,NLP技術進化最具標志性的事件,就是大規(guī)模預訓練語言模型的出現。
阿里達摩院是業(yè)界最早開展大模型探索的團隊之一,2019年就開始研發(fā)大規(guī)模預訓練語言模型體系AliceMind,并以此作為技術底座,開展對內對外的技術服務。
“前大模型時代”,NLP技術解決問題的方法,是為每個任務單獨設計模型。模型開發(fā)往往很復雜,缺乏算力、數據、技術力量的中小團隊往往難以負擔。
預訓練語言模型出現后,AI的整體智能比過去大幅提升,NLP技術的賦能方式也逐漸變成“預訓練+微調”范式。
也就是以通用的預訓練模型為基礎,加入簡單的任務層、結合少量場景語料,以較低成本訓練出優(yōu)質的任務模型。
達摩院的阿里的大規(guī)模預訓練語言模型體系,擁有閱讀、寫作、翻譯、問答、搜索、摘要生成、對話等多種能力。
大模型通常并不直接用于解決應用問題,而是通過與具體任務、應用場景的結合,逐層孵化“中模型”、“小模型”。
在大模型體系基礎上,達摩院語言技術實驗室先后孵化了一系列“中模型”,包括:
通用預訓練模型StructBERT
生成式預訓練模型PALM
多語言預訓練模型VECO
超大中文預訓練模型PLUG
多模態(tài)預訓練模型mPLUG
結構化預訓練模型StructuralLM
預訓練對話模型SPACE
表格預訓練模型STAR等
這些模型各有專長,StructBERT、mPLUG和StructuralLM具備挖掘文本、圖像、表格“結構”信息的能力,單語言生成模型PALM、多語言生成模型VECO、超大中文預訓練模型PLUG都為語言生成任務(NLG)而生。
例如StructBERT,是達摩院在谷歌BERT模型基礎之上所提出的優(yōu)化模型,它可以讓機器更好地掌握人類的語法、理解自然的語言。
StructBERT一經推出,便在當時GLUE基準上取得了SOTA(89.0分),并且還將SQuAD v1.1問題回答上的F1得分推至93.0的新高度。
再如多語言預訓練模型VECO,曾拿下國際權威多語言榜單XTREME排名第一,成績遠超Meta和微軟等國際巨頭的模型。
多模態(tài)預訓練模型mPLUG在視覺問答(VQA)任務上首次超過人類結果。對話預訓練模型SPACE在10多個對話國際榜單和數據集上取得SOTA。
基于AliceMind技術,達摩院先后斬獲了35個冠軍,在某些領域的水平已經非常接近人類對語言理解的程度了。并且,該技術已面向全球開發(fā)者開源。
眾所周知,大規(guī)模預訓練模型開發(fā)成本極高,玩家通常集中于頭部科技企業(yè),但新的模型賦能范式,使得更多中小團隊、個人開發(fā)者也能分享大模型的紅利。
……
據了解,目前阿里達摩院語音語義領域的研究已有300百多篇論文被國際頂會收錄,相關研究已應用于醫(yī)療、電力、電商等領域。
此前,IDC發(fā)布《2021H2中國AI云服務市場研究報告》中,阿里在語音和語義市場上的份額便取得了第一的成績。
語音語義的前史和未來
在人工智能發(fā)展長河中,語音語義是最早起步的技術之一,也是人工智能的基石。
語音技術最早可以追溯到1952年,貝爾實驗室的Davis等人研制出了世界上第一個能識別10個英文數字發(fā)音的實驗系統Audry,從此拉開了語音識別發(fā)展的序幕。
語義技術更是可以追溯到1947年,當時英美科學家聯手提出了利用計算機進行語言自動翻譯的設想,機器翻譯的誕生也正意味著打開了語義發(fā)展的大門。
于是,讓機器“聽到”、“聽懂”人類語言這件事,便在那段時間起,成為了學界和產業(yè)界爭相發(fā)展的技術高地。
各界的紛紛投入,也讓工業(yè)界誕生了眾多“史詩級”的產品,例如蘋果在2011年發(fā)布的Siri,以及后來亞馬遜、谷歌、微軟等推出的Alexa、Google Assistant、Cortana等。
另一方面,這背后的技術也產生了革命性的迭代變遷,例如近幾年Transformer、Bert等技術的爆發(fā),極大地推動了語音語義技術的發(fā)展。
在這種大趨勢的背后,更重要的意義在于語音語義已然是普通人“唾手可用”的技術。
以阿里為例,達摩院的機器翻譯技術每天為國內200萬中小商家翻譯上億文字 ,讓不懂英語和小語種的商家也能把國貨賣到全世界。
這樣的技術還已應用到了“買票”場景。
去年年中,北京首都機場和大興機場均開通了語音購票的服務,只需要乘客張張嘴說出目的地,便可以在1.6秒內快速完成選站。
事實上,未來任何硬件終端都可以集成語言AI技術,這樣的應用空間是巨大的,這也正是國內外學者、科技巨頭紛紛發(fā)力于此的原因。
就像中國計算機學會副理事長、瀾舟科技創(chuàng)始人兼CEO周明所評價的那般:
自然語言技術是人工智能領域的核心技術,過去幾年預訓練模型的興起已經讓這一技術領域取得了質的飛躍,也加速了人工智能領域從感知智能走向認知智能的進程。
這一系列突破將給各行各業(yè)乃至個人生活帶來巨大的價值,很高興看到以阿里巴巴為代表的的中國科技公司在該領域進入了世界第一梯隊。”
也正如Gartner在此次報告中所述:
企業(yè)正在開發(fā)大規(guī)模語言模型,以提供更廣泛的語言服務。主要云服務商正在利用其云基礎設施開發(fā)專有語言模型。較小的供應商正在利用開源軟件、數據和機器學習模型進行競爭。
但縱觀語音語義的發(fā)展,有一點是始終未曾變化的,那就是它的理想目標——和機器對話,像在跟人類交流。
前不久谷歌研究員爆料“AI具備人格”的事件在科技圈引發(fā)了熱議,雖然后來谷歌對其已經進行了辟謠,但其背后無法掩蓋的事實是AI正在逐漸向人類逼近。
那么在未來,語音語義技術又將如何顛覆人們的生活,是值得期待了。