可理解三維場(chǎng)景 處理多模態(tài)關(guān)聯(lián)應(yīng)用需求……“紫東太初”全模態(tài)大模型發(fā)布
新華社北京6月16日電(記者宋晨、張泉)在三維場(chǎng)景里實(shí)現(xiàn)精準(zhǔn)定位,通過圖像與聲音的結(jié)合完成場(chǎng)景分析……中科院自動(dòng)化研究所發(fā)布“紫東太初”全模態(tài)大模型,并首次對(duì)外實(shí)時(shí)展示了該模型在音樂理解與生成、三維場(chǎng)景導(dǎo)航、信號(hào)理解、多模態(tài)對(duì)話等方面的全新功能。
這是記者6月16日在“人工智能框架生態(tài)峰會(huì)2023”上了解到的信息。
中科院自動(dòng)化研究所所長(zhǎng)徐波介紹,“紫東太初”全模態(tài)大模型是在多模態(tài)大模型“紫東太初”1.0基礎(chǔ)上升級(jí)打造的2.0版本,在語音、圖像和文本三模態(tài)的基礎(chǔ)上,加入視頻、信號(hào)、3D點(diǎn)云等模態(tài)數(shù)據(jù),研究突破了認(rèn)知增強(qiáng)的多模態(tài)關(guān)聯(lián)等關(guān)鍵技術(shù),具備全模態(tài)理解能力、生成能力和關(guān)聯(lián)能力。
“紫東太初”2.0可以理解三維場(chǎng)景、信號(hào)等數(shù)字物聯(lián)時(shí)代的重要信息,完成了音樂、圖片和視頻等數(shù)據(jù)之間的跨模態(tài)對(duì)齊,能夠處理音樂視頻分析、三維導(dǎo)航等多模態(tài)關(guān)聯(lián)應(yīng)用需求,并可實(shí)現(xiàn)音樂、視頻等多模態(tài)內(nèi)容理解和生成。
“從1.0到2.0,‘紫東太初’大模型打通了感知、認(rèn)知乃至決策的交互屏障,使人工智能進(jìn)一步感知世界、認(rèn)知世界,從而延伸出更加強(qiáng)大的通用能力。”徐波說。
目前,“紫東太初”大模型在神經(jīng)外科手術(shù)導(dǎo)航、短視頻內(nèi)容審核、法律咨詢、醫(yī)療多模態(tài)鑒別診斷、交通違規(guī)圖像研讀等領(lǐng)域展現(xiàn)出一定的產(chǎn)業(yè)應(yīng)用前景。
比如,在醫(yī)療場(chǎng)景,“紫東太初”大模型部署于神經(jīng)外科機(jī)器人MicroNeuro,可實(shí)現(xiàn)在術(shù)中實(shí)時(shí)融合視覺、觸覺等多模態(tài)信息,協(xié)助醫(yī)生對(duì)手術(shù)場(chǎng)景進(jìn)行實(shí)時(shí)推理判斷。
新華社北京6月16日電(記者宋晨、張泉)在三維場(chǎng)景里實(shí)現(xiàn)精準(zhǔn)定位,通過圖像與聲音的結(jié)合完成場(chǎng)景分析……中科院自動(dòng)化研究所發(fā)布“紫東太初”全模態(tài)大模型,并首次對(duì)外實(shí)時(shí)展示了該模型在音樂理解與生成、三維場(chǎng)景導(dǎo)航、信號(hào)理解、多模態(tài)對(duì)話等方面的全新功能。
這是記者6月16日在“人工智能框架生態(tài)峰會(huì)2023”上了解到的信息。
“紫東太初”全模態(tài)大模型發(fā)布現(xiàn)場(chǎng)。(中科院自動(dòng)化所供圖)
中科院自動(dòng)化研究所所長(zhǎng)徐波介紹,“紫東太初”全模態(tài)大模型是在多模態(tài)大模型“紫東太初”1.0基礎(chǔ)上升級(jí)打造的2.0版本,在語音、圖像和文本三模態(tài)的基礎(chǔ)上,加入視頻、信號(hào)、3D點(diǎn)云等模態(tài)數(shù)據(jù),研究突破了認(rèn)知增強(qiáng)的多模態(tài)關(guān)聯(lián)等關(guān)鍵技術(shù),具備全模態(tài)理解能力、生成能力和關(guān)聯(lián)能力。
“紫東太初”2.0可以理解三維場(chǎng)景、信號(hào)等數(shù)字物聯(lián)時(shí)代的重要信息,完成了音樂、圖片和視頻等數(shù)據(jù)之間的跨模態(tài)對(duì)齊,能夠處理音樂視頻分析、三維導(dǎo)航等多模態(tài)關(guān)聯(lián)應(yīng)用需求,并可實(shí)現(xiàn)音樂、視頻等多模態(tài)內(nèi)容理解和生成。
“從1.0到2.0,‘紫東太初’大模型打通了感知、認(rèn)知乃至決策的交互屏障,使人工智能進(jìn)一步感知世界、認(rèn)知世界,從而延伸出更加強(qiáng)大的通用能力。”徐波說。
目前,“紫東太初”大模型在神經(jīng)外科手術(shù)導(dǎo)航、短視頻內(nèi)容審核、法律咨詢、醫(yī)療多模態(tài)鑒別診斷、交通違規(guī)圖像研讀等領(lǐng)域展現(xiàn)出一定的產(chǎn)業(yè)應(yīng)用前景。
比如,在醫(yī)療場(chǎng)景,“紫東太初”大模型部署于神經(jīng)外科機(jī)器人MicroNeuro,可實(shí)現(xiàn)在術(shù)中實(shí)時(shí)融合視覺、觸覺等多模態(tài)信息,協(xié)助醫(yī)生對(duì)手術(shù)場(chǎng)景進(jìn)行實(shí)時(shí)推理判斷。