核心提示:宇宙創(chuàng)造了人類,人類創(chuàng)造了AI。但似乎,AI比人類更懂這個宇宙。
宇宙“創(chuàng)造”了人類,人類創(chuàng)造了AI。但似乎,AI比人類更“懂”這個宇宙。
用AI來幫助有“中國天眼”之稱的世界最大單口徑射電望遠鏡FAST更好尋找星星的“探星計劃”啟動已過一年,F(xiàn)AST找到了22顆脈沖星候選體。在沒有AI幫助時,這很難做到。
去年的世界人工智能大會上,騰訊與國家天文臺合作的“探星計劃”宣布正式啟動。騰訊優(yōu)圖實驗室的計算機視覺技術能力、騰訊云計算及存儲能力,將會幫助中國天眼FAST提升脈沖星搜索效率,并輔助快速射電暴和近密雙星系統(tǒng)中脈沖星的搜索。
在今年世界人工智能大會的騰訊論壇上,“探星計劃”到目前為止的最新進展首次披露。
騰訊云副總裁、騰訊優(yōu)圖實驗室總經理吳運聲表示,截至目前,優(yōu)圖AI天體探索方案已從巡天觀測數(shù)據中找到22顆脈沖星候選體。其中包括在天體物理中具有較高觀測研究價值的高速自轉的毫秒脈沖星7顆,具有間歇輻射現(xiàn)象的年老脈沖星6顆。
此外,優(yōu)圖實驗室的動態(tài)譜AI模型還首次探測到了某磁陀星射電脈沖。
這是FAST與騰訊優(yōu)圖實驗室連續(xù)第二年一同出現(xiàn)在世界人工智能大會上,背后是天文探索與AI的結合愈發(fā)緊密。
AI在幾十億張圖片中找10顆星星
2017年10月10日,中國科學院國家天文臺公布世界最大單口徑射電望遠鏡,也就是被稱為“中國天眼”的FAST所取得的首批成果。其中最重要的一項是我國射電望遠鏡首次發(fā)現(xiàn)脈沖星。而最新的公開資料顯示,F(xiàn)AST已經捕獲了超過660顆脈沖星。
但FAST的觀測只是發(fā)現(xiàn)脈沖星的第一步,這個500米口徑的龐然巨物帶來的是峰值每秒接近40G的數(shù)據量,以多模態(tài)的數(shù)據形式傳輸回來。于是一個天文問題被轉化成了數(shù)據標注問題。如何在海量而極其相似的數(shù)據中判斷出目標星體的信號,是FAST團隊最核心的工作。
“這份22顆脈沖星的候選名單中,短周期的脈沖星發(fā)現(xiàn)大概是在10顆左右,我們是在幾十億張圖片中找到這10顆脈沖星的”,復旦大學教授池明旻做了個粗略的比方,她也是“探星計劃”中一位同時擁有計算機和天文領域背景的研究成員。
通過大數(shù)據訓練,機器學習能為天體探索標注處理掉其中很大一部分“一眼假”的數(shù)據信息,這種能力通過“半監(jiān)督學習”來實現(xiàn)。
半監(jiān)督學習屬于無監(jiān)督學習(沒有任何標記的訓練數(shù)據)和監(jiān)督學習(完全標記的訓練數(shù)據)的中間地帶。以少量標記數(shù)據結合大量未標記數(shù)據,在機器學習領域中被認為可以明顯提高機器學習的準確性,在對于脈沖星信號數(shù)據的辨識中,這些“標識數(shù)據”可以被理解為天文工作者抽取了某些圖片預先做了標注,這些標注形成一個初篩的判斷標準后會對接收到的所有圖片做第一次的過濾。
“比如色散值,色散有一個曲線,這個曲線如果沒有峰值的話,我們就可以排除掉它是脈沖星的可能”,池明旻表示,“因此我們在機器學習面有一個色散值的判定標注就非常重要。當捕獲的天體信號精度足夠高,色散值就可以起到過濾的作用”,池明旻說。
色散值是FAST接收到天體數(shù)據的其中一個緯度。天體研究中的數(shù)據信息往往是跨模態(tài)的,這有利于對天體是否是脈沖星的綜合判斷。騰訊優(yōu)圖實驗室提供的AI解決方案中加入了包括頻率、色散以及相位的多模態(tài)融合的技術,這是騰訊優(yōu)圖實驗室為天體探索提供的另一項關鍵能力。
天體研究非常獨特和艱難的地方在于,這是一個統(tǒng)計學幾乎無從下手的領域。
根據哈勃太空望遠鏡2019年以前的觀測結果建立的假設是,宇宙共有2萬億個星系,其中小型星系有幾十億顆恒星,大的星系可以包含近4000億顆恒星,如果以每個星系平均2000億顆恒星在估計。全宇宙總共有4千萬億億顆恒星,而這僅僅是恒星。
除了我們所居住的地球以及已知極其有限的天體外,宇宙中幾乎所有空間都藏在未知里,人類對于宇宙的理性認知長期處在極其貧乏的數(shù)據基礎上。
AI、機器學習當下的應用普遍總與大數(shù)據聯(lián)系在一起,但在天文探索的語境下,這個已知數(shù)據的倉庫家徒四壁,于是“小樣本學習(Few-shot Learning)”被更加重視起來。
小樣本學習不是某項技術,而是一種綜合的研究方式,指在有限的信息中建立完整的分類模型,并且以這個模型去對未知的信息完成分類。簡單來說,一個孩子在看了幾張綿羊的照片之后就可以在動物園里認出其他品種的羊,這就是某種通過少量圖像識別某個視覺對象的小樣本學習概念。
這對人類大腦來說輕而易舉,但對于機器學習來說卻非常困難,但由于天體研究的特殊性,小樣本學習又是必不可少的。
騰訊優(yōu)圖實驗室總監(jiān)汪鋮杰表示,雖然整體上優(yōu)圖需要處理處理百億TB(1TB=1024GB)的數(shù)據量,但實際上其中有效樣本很少。“現(xiàn)在為止我們用于學習的也就是100TB左右的脈沖星樣本”,而FAST每天產生的數(shù)據量就高于500TB。
半監(jiān)督學習是小樣本學習的一個思路,在統(tǒng)計學概念缺乏實際土壤時,以脈沖星樣本搭配更多非脈沖星樣本來構建訓練模型,可以使得機器學習整體在特征提取上更加充分。
除此之外,在這個脈沖心探索的項目中有另外兩種小樣本學習的具體思路。
一種是數(shù)據擴增,即在常規(guī)的脈沖星上面做位移的偏移,或加一些宇宙仿真的噪音疊加,通過把觀測數(shù)據的誤差人為地加進去,AI可以將那些“疑似”脈沖星的圖片數(shù)據標注出來。
另一種方式是對抗生成式的學習方法,讓AI在學習過程中從已有樣本中生成新的樣本,然后繼續(xù)用于未來的計算。優(yōu)圖實驗室里與FAST合作的算法團隊在今年新引進了一位國家天文臺的博士后來做小樣本學習的模型設計,也是為了在樣本數(shù)量有限的情況下讓模型能進一步契合對脈沖星特性的預測。
“以M31(仙女座星系)做個例子,到目前為止M31還沒有找到任何一個脈沖星,我們可以預測一下它可能的樣子,然后大量模擬出數(shù)據放到模型里學習,然后用FAST對M31觀測到的大量數(shù)據去比對,因為只要找到一顆,這就是一個從0到1的突破”,汪鋮杰說。
宇宙也在“培養(yǎng)”AI
“探星計劃”一年之后,汪鋮杰提到了優(yōu)圖實驗室與FAST最初結緣的細節(jié)。
2019年騰訊宣布企業(yè)文化升級,科技向善被提到了顯眼位置,那之后優(yōu)圖實驗室團隊在部門內部做了一次討論,關于AI在普適化過程,除了一些常規(guī)應用外還能做哪些事情。“探星計劃”并不產生任何經濟效益,動力在于優(yōu)圖實驗室對于AI普世化的愿景。
那場頭腦風暴之后排出了一個序列,優(yōu)先級最高的就是FAST。
彼時的優(yōu)圖實驗室副總經理黃飛躍帶著項目去見FAST團隊,兩個小時后雙方就簽訂了項目合同。“我從來沒有見過一個項目這么快就定下來的情況,可見大家對這個項目認可度非常高”,池明旻表示。
AI為天文探索帶來了效益,天文反過來對AI帶去了什么?
汪鋮杰總結成三點,技術上“探星計劃“中相當多的數(shù)據對于優(yōu)圖實驗室本身在研究無監(jiān)督學習或者異常檢測算法等技術上都帶來了珍貴的實踐經驗。并且隨著探索脈沖星的積極影響,優(yōu)圖實驗室與更多天文領域相關的的合作也已經提上日程。
最主要的則是探索出了一個AI和天文結合的模式,與基礎科學建立聯(lián)系是AI普適化的一個重要維度。
優(yōu)圖實驗室下一個即將開啟的探索領域是甲骨文的破譯,用AI技術來嘗試對甲骨文進行綴合和摹本,為專家提供破譯線索,其中視覺AI將試圖對甲骨文進行3D建模,以進一步幫助甲骨文的識別與考釋。
汪鋮杰表示,甲骨文的難度可能會比脈沖星會更高,甚至可能要高出一兩個數(shù)量級。因為AI對脈沖星探索的幫助更多在效率層面,但在甲骨文這個領域里面已經有好多年沒有任何新發(fā)現(xiàn)了。
“探尋自己能力的邊界,這可能是每個人、每個團隊或者每家公司都在探究的東西,F(xiàn)AST這個項目實際上是我們朝著自己未知的能力邊界邁出的一步。”
用AI來幫助有“中國天眼”之稱的世界最大單口徑射電望遠鏡FAST更好尋找星星的“探星計劃”啟動已過一年,F(xiàn)AST找到了22顆脈沖星候選體。在沒有AI幫助時,這很難做到。
去年的世界人工智能大會上,騰訊與國家天文臺合作的“探星計劃”宣布正式啟動。騰訊優(yōu)圖實驗室的計算機視覺技術能力、騰訊云計算及存儲能力,將會幫助中國天眼FAST提升脈沖星搜索效率,并輔助快速射電暴和近密雙星系統(tǒng)中脈沖星的搜索。
在今年世界人工智能大會的騰訊論壇上,“探星計劃”到目前為止的最新進展首次披露。
騰訊云副總裁、騰訊優(yōu)圖實驗室總經理吳運聲表示,截至目前,優(yōu)圖AI天體探索方案已從巡天觀測數(shù)據中找到22顆脈沖星候選體。其中包括在天體物理中具有較高觀測研究價值的高速自轉的毫秒脈沖星7顆,具有間歇輻射現(xiàn)象的年老脈沖星6顆。
此外,優(yōu)圖實驗室的動態(tài)譜AI模型還首次探測到了某磁陀星射電脈沖。
這是FAST與騰訊優(yōu)圖實驗室連續(xù)第二年一同出現(xiàn)在世界人工智能大會上,背后是天文探索與AI的結合愈發(fā)緊密。
AI在幾十億張圖片中找10顆星星
2017年10月10日,中國科學院國家天文臺公布世界最大單口徑射電望遠鏡,也就是被稱為“中國天眼”的FAST所取得的首批成果。其中最重要的一項是我國射電望遠鏡首次發(fā)現(xiàn)脈沖星。而最新的公開資料顯示,F(xiàn)AST已經捕獲了超過660顆脈沖星。
但FAST的觀測只是發(fā)現(xiàn)脈沖星的第一步,這個500米口徑的龐然巨物帶來的是峰值每秒接近40G的數(shù)據量,以多模態(tài)的數(shù)據形式傳輸回來。于是一個天文問題被轉化成了數(shù)據標注問題。如何在海量而極其相似的數(shù)據中判斷出目標星體的信號,是FAST團隊最核心的工作。
圖源:貴陽網
“這份22顆脈沖星的候選名單中,短周期的脈沖星發(fā)現(xiàn)大概是在10顆左右,我們是在幾十億張圖片中找到這10顆脈沖星的”,復旦大學教授池明旻做了個粗略的比方,她也是“探星計劃”中一位同時擁有計算機和天文領域背景的研究成員。
通過大數(shù)據訓練,機器學習能為天體探索標注處理掉其中很大一部分“一眼假”的數(shù)據信息,這種能力通過“半監(jiān)督學習”來實現(xiàn)。
半監(jiān)督學習屬于無監(jiān)督學習(沒有任何標記的訓練數(shù)據)和監(jiān)督學習(完全標記的訓練數(shù)據)的中間地帶。以少量標記數(shù)據結合大量未標記數(shù)據,在機器學習領域中被認為可以明顯提高機器學習的準確性,在對于脈沖星信號數(shù)據的辨識中,這些“標識數(shù)據”可以被理解為天文工作者抽取了某些圖片預先做了標注,這些標注形成一個初篩的判斷標準后會對接收到的所有圖片做第一次的過濾。
“比如色散值,色散有一個曲線,這個曲線如果沒有峰值的話,我們就可以排除掉它是脈沖星的可能”,池明旻表示,“因此我們在機器學習面有一個色散值的判定標注就非常重要。當捕獲的天體信號精度足夠高,色散值就可以起到過濾的作用”,池明旻說。
色散值是FAST接收到天體數(shù)據的其中一個緯度。天體研究中的數(shù)據信息往往是跨模態(tài)的,這有利于對天體是否是脈沖星的綜合判斷。騰訊優(yōu)圖實驗室提供的AI解決方案中加入了包括頻率、色散以及相位的多模態(tài)融合的技術,這是騰訊優(yōu)圖實驗室為天體探索提供的另一項關鍵能力。
天體研究非常獨特和艱難的地方在于,這是一個統(tǒng)計學幾乎無從下手的領域。
根據哈勃太空望遠鏡2019年以前的觀測結果建立的假設是,宇宙共有2萬億個星系,其中小型星系有幾十億顆恒星,大的星系可以包含近4000億顆恒星,如果以每個星系平均2000億顆恒星在估計。全宇宙總共有4千萬億億顆恒星,而這僅僅是恒星。
除了我們所居住的地球以及已知極其有限的天體外,宇宙中幾乎所有空間都藏在未知里,人類對于宇宙的理性認知長期處在極其貧乏的數(shù)據基礎上。
AI、機器學習當下的應用普遍總與大數(shù)據聯(lián)系在一起,但在天文探索的語境下,這個已知數(shù)據的倉庫家徒四壁,于是“小樣本學習(Few-shot Learning)”被更加重視起來。
小樣本學習不是某項技術,而是一種綜合的研究方式,指在有限的信息中建立完整的分類模型,并且以這個模型去對未知的信息完成分類。簡單來說,一個孩子在看了幾張綿羊的照片之后就可以在動物園里認出其他品種的羊,這就是某種通過少量圖像識別某個視覺對象的小樣本學習概念。
圖源:源于網絡
這對人類大腦來說輕而易舉,但對于機器學習來說卻非常困難,但由于天體研究的特殊性,小樣本學習又是必不可少的。
騰訊優(yōu)圖實驗室總監(jiān)汪鋮杰表示,雖然整體上優(yōu)圖需要處理處理百億TB(1TB=1024GB)的數(shù)據量,但實際上其中有效樣本很少。“現(xiàn)在為止我們用于學習的也就是100TB左右的脈沖星樣本”,而FAST每天產生的數(shù)據量就高于500TB。
半監(jiān)督學習是小樣本學習的一個思路,在統(tǒng)計學概念缺乏實際土壤時,以脈沖星樣本搭配更多非脈沖星樣本來構建訓練模型,可以使得機器學習整體在特征提取上更加充分。
除此之外,在這個脈沖心探索的項目中有另外兩種小樣本學習的具體思路。
一種是數(shù)據擴增,即在常規(guī)的脈沖星上面做位移的偏移,或加一些宇宙仿真的噪音疊加,通過把觀測數(shù)據的誤差人為地加進去,AI可以將那些“疑似”脈沖星的圖片數(shù)據標注出來。
另一種方式是對抗生成式的學習方法,讓AI在學習過程中從已有樣本中生成新的樣本,然后繼續(xù)用于未來的計算。優(yōu)圖實驗室里與FAST合作的算法團隊在今年新引進了一位國家天文臺的博士后來做小樣本學習的模型設計,也是為了在樣本數(shù)量有限的情況下讓模型能進一步契合對脈沖星特性的預測。
“以M31(仙女座星系)做個例子,到目前為止M31還沒有找到任何一個脈沖星,我們可以預測一下它可能的樣子,然后大量模擬出數(shù)據放到模型里學習,然后用FAST對M31觀測到的大量數(shù)據去比對,因為只要找到一顆,這就是一個從0到1的突破”,汪鋮杰說。
宇宙也在“培養(yǎng)”AI
“探星計劃”一年之后,汪鋮杰提到了優(yōu)圖實驗室與FAST最初結緣的細節(jié)。
2019年騰訊宣布企業(yè)文化升級,科技向善被提到了顯眼位置,那之后優(yōu)圖實驗室團隊在部門內部做了一次討論,關于AI在普適化過程,除了一些常規(guī)應用外還能做哪些事情。“探星計劃”并不產生任何經濟效益,動力在于優(yōu)圖實驗室對于AI普世化的愿景。
那場頭腦風暴之后排出了一個序列,優(yōu)先級最高的就是FAST。
彼時的優(yōu)圖實驗室副總經理黃飛躍帶著項目去見FAST團隊,兩個小時后雙方就簽訂了項目合同。“我從來沒有見過一個項目這么快就定下來的情況,可見大家對這個項目認可度非常高”,池明旻表示。
AI為天文探索帶來了效益,天文反過來對AI帶去了什么?
汪鋮杰總結成三點,技術上“探星計劃“中相當多的數(shù)據對于優(yōu)圖實驗室本身在研究無監(jiān)督學習或者異常檢測算法等技術上都帶來了珍貴的實踐經驗。并且隨著探索脈沖星的積極影響,優(yōu)圖實驗室與更多天文領域相關的的合作也已經提上日程。
圖源:新發(fā)現(xiàn)
最主要的則是探索出了一個AI和天文結合的模式,與基礎科學建立聯(lián)系是AI普適化的一個重要維度。
優(yōu)圖實驗室下一個即將開啟的探索領域是甲骨文的破譯,用AI技術來嘗試對甲骨文進行綴合和摹本,為專家提供破譯線索,其中視覺AI將試圖對甲骨文進行3D建模,以進一步幫助甲骨文的識別與考釋。
汪鋮杰表示,甲骨文的難度可能會比脈沖星會更高,甚至可能要高出一兩個數(shù)量級。因為AI對脈沖星探索的幫助更多在效率層面,但在甲骨文這個領域里面已經有好多年沒有任何新發(fā)現(xiàn)了。
“探尋自己能力的邊界,這可能是每個人、每個團隊或者每家公司都在探究的東西,F(xiàn)AST這個項目實際上是我們朝著自己未知的能力邊界邁出的一步。”