核心提示:這個(gè)AI算法竟然可以聽聲辨新冠,而且準(zhǔn)確率高達(dá)89%!
這個(gè)AI算法竟然可以聽聲辨新冠,而且準(zhǔn)確率高達(dá)89%!
新冠病毒的出現(xiàn),真算是打開了潘多拉的魔盒。
如今不斷新出現(xiàn)的變種,打亂了整個(gè)地球人的生活。新冠之前那種不戴口罩的生活,也許再也回不去了。
最近,科學(xué)家們有了一個(gè)新發(fā)現(xiàn),或許未來(lái)可以讓我們告別捅嗓子眼兒的日子。
在西班牙巴塞羅那舉行的歐洲呼吸學(xué)會(huì)國(guó)際會(huì)議上,一項(xiàng)研究顯示,AI可通過(guò)手機(jī)應(yīng)用程序收集到的聲音,判斷用戶有沒有感染新冠肺炎。
根據(jù)News Medical的報(bào)告,本研究中使用的AI模型比快速抗原檢測(cè)更便宜、更快、更易于使用,非常適用于PCR檢測(cè)昂貴的低收入國(guó)家。
此外,這個(gè)AI還有一個(gè)更厲害的地方——準(zhǔn)確率更高。比起快速抗原測(cè)試,它的準(zhǔn)確率能達(dá)到89%。
準(zhǔn)確率達(dá)89%
研究團(tuán)隊(duì)使用了來(lái)自英國(guó)劍橋大學(xué)「新冠肺炎聲音庫(kù)」APP的數(shù)據(jù),該應(yīng)用程序包含來(lái)自4352名健康和非健康參與者的893個(gè)音頻樣本。
研究結(jié)果表明,簡(jiǎn)單的語(yǔ)音記錄和AI算法可以精確確定哪些人感染新冠肺炎。
小編以為發(fā)現(xiàn)寶藏APP了,滿心期待地下載之后發(fā)現(xiàn),這款評(píng)分2.8的應(yīng)用,目前只是用來(lái)收集數(shù)據(jù)的。
高情商:你為科學(xué)的發(fā)展出了一份力。
低情商:這軟件暫時(shí)卵用沒有。
荷蘭馬斯特里赫特大學(xué)數(shù)據(jù)科學(xué)研究所研究員Wafaa Aljbawi女士在大會(huì)上表示,AI模型在89%的情況下是準(zhǔn)確的,而橫向流動(dòng)測(cè)試的準(zhǔn)確度就因品牌而異了,而且,橫向流動(dòng)測(cè)試在檢測(cè)無(wú)癥狀人群時(shí),準(zhǔn)確性要低得多。
這些有希望的結(jié)果表明,簡(jiǎn)單的錄音和微調(diào)的 AI 算法可能會(huì)在確定哪些患者感染 COVID-19方面實(shí)現(xiàn)高精度。此類測(cè)試可以免費(fèi)提供,并且易于解釋。此外,它們支持遠(yuǎn)程虛擬測(cè)試,并且周轉(zhuǎn)時(shí)間不到一分鐘。例如,它們可以用于大型集會(huì)的入口點(diǎn),從而能夠快速篩查人群。”
Wafaa Aljbawi,研究員,數(shù)據(jù)科學(xué)研究所,馬斯特里赫特大學(xué)
這個(gè)結(jié)果太令人興奮了。這意味著:通過(guò)基本語(yǔ)音記錄和定制AI算法,我們就可以以很高的精度識(shí)別COVID-19感染患者。又免費(fèi),又好用。小編興奮地搓手:這是不是意味著,三天一捅的日子可以結(jié)束了?
這個(gè)方法的原理是:感染COVID-19后,人的上呼吸道和聲帶會(huì)受到影響,從而改變聲音。
為了驗(yàn)證這個(gè)方法的可行性,來(lái)自同一數(shù)據(jù)科學(xué)研究所的Visara Urovi博士和馬斯特里赫特大學(xué)醫(yī)學(xué)中心的肺病學(xué)家Sami Simons博士也進(jìn)行了測(cè)試。
他們使用了來(lái)自劍橋大學(xué)的眾包COVID-19Sounds 應(yīng)用程序的信息,包括來(lái)自4,352名健康和不健康受試者的893個(gè)音頻樣本,這其中,有308人的COVID-19測(cè)試結(jié)果是陽(yáng)性的。
測(cè)試時(shí),用戶將APP下載到手機(jī)后,就要開始記錄呼吸音。這個(gè)過(guò)程中,要先咳嗽3次,再用嘴深呼吸3到5次,然后在屏幕上讀一個(gè)簡(jiǎn)短的句子3次。
研究人員采用了一種稱為梅爾譜圖分析的語(yǔ)音分析方法,該技術(shù)可以識(shí)別不同的語(yǔ)音特征,例如響度、功率和隨時(shí)間的變化。
「通過(guò)這種方式,我們可以分解被試聲音的許多屬性,」Aljbawi 女士說(shuō)。「為了區(qū)分COVID-19患者和未患病者的聲音,我們建立了不同的人工智能模型,并評(píng)估了哪一個(gè)模型最適合對(duì)COVID-19病例進(jìn)行分類。」
他們發(fā)現(xiàn),一種被稱為長(zhǎng)短期記憶(LSTM)的模型顯著優(yōu)于其他模型。LSTM基于神經(jīng)網(wǎng)絡(luò),它會(huì)模仿人腦的運(yùn)作方式,識(shí)別出數(shù)據(jù)中的潛在關(guān)系。因?yàn)檫m用于序列,所以它很適合對(duì)隨時(shí)間收集的信號(hào)進(jìn)行建模,比如從語(yǔ)音中收集的信號(hào),因?yàn)樗軌驅(qū)?shù)據(jù)存儲(chǔ)在內(nèi)存中。
其總體準(zhǔn)確率為 89%,正確識(shí)別陽(yáng)性病例的能力(真陽(yáng)性率或「敏感性」)為 89%,正確識(shí)別陰性病例的能力(真陰性率或「特異性」)為 83%。
這些結(jié)果表明,與橫向流動(dòng)測(cè)試等最先進(jìn)的測(cè)試相比,LSTM模型診斷 COVID-19 的準(zhǔn)確性有了顯著提高。
比較結(jié)果可以用一句話總結(jié):LSTM模型對(duì)于陽(yáng)性的識(shí)別率更高,但是也更容易把陰性誤診為陽(yáng)性。
具體來(lái)說(shuō),橫向流動(dòng)測(cè)試的靈敏度僅為 56%,但特異性更高,為 99.5%,因此橫向流動(dòng)測(cè)試會(huì)更頻繁地將陽(yáng)性誤測(cè)為陰性。使用LSTM模型可能會(huì)錯(cuò)過(guò)100個(gè)病例中的11個(gè),而側(cè)向流測(cè)試則會(huì)錯(cuò)過(guò)100個(gè)病例中的44個(gè)。
橫向流動(dòng)測(cè)試的高特異性,意味著只有1/10的陰性會(huì)被誤診為陽(yáng)性,而LSTM測(cè)試的誤診率更高,會(huì)把100名陰性中的17個(gè)誤診為陽(yáng)性。但是,由于該測(cè)試實(shí)際上是免費(fèi)的,如果LSTM顯示是陽(yáng)性,可以再讓人們進(jìn)行PCR測(cè)試。所以后者的影響并不大。
目前,研究人員還在進(jìn)一步驗(yàn)證他們的結(jié)果。他們使用了大量數(shù)據(jù)。自實(shí)驗(yàn)開始以來(lái),他們已經(jīng)收集了來(lái)自36,116個(gè)人的53,449個(gè)音頻樣本,可用于增強(qiáng)和驗(yàn)證模型的準(zhǔn)確性。另外,他們還在進(jìn)行其他研究,來(lái)確定還有哪些語(yǔ)音的因素會(huì)影響 AI 模型。
相關(guān)論文
2021年6月,研究人員開始探索使用AI模型用作COVID-19的自動(dòng)篩選工具時(shí),可以在多大程度上被信任。在這篇 被INTERSPEECH 2021 接收的論文中,他們?cè)囍鴮⒉淮_定性估計(jì)與深度學(xué)習(xí)模型結(jié)合,從聲音中檢測(cè)COVID-19。
論文地址:https://arxiv.org/pdf/2104.02005.pdf
在論文中,研究人員分析了330名陽(yáng)性和919名陰性被試的子集。
他們提出了一個(gè)集成學(xué)習(xí)框架,該框架在訓(xùn)練階段解決了數(shù)據(jù)不平衡的常見問題,并在推理期間提供了預(yù)測(cè)不確定性,具體化為模型集成產(chǎn)生的預(yù)測(cè)的方差。主干模型是一個(gè)名為 VGGish 1的預(yù)訓(xùn)練卷積網(wǎng)絡(luò),經(jīng)過(guò)修改以接收三種聲音的頻譜圖作為輸入。
在這項(xiàng)工作中,10個(gè)深度學(xué)習(xí)模型被訓(xùn)練并聚合成一個(gè)集成模型,產(chǎn)生0.74的 AUC,靈敏度為0.68,特異性為0.69,優(yōu)于每個(gè)模型。一方面,驗(yàn)證了深度學(xué)習(xí)對(duì)基于音頻的COVID-19檢測(cè)的手工制作特征的優(yōu)越性。另一方面,展示了 SVM的集成進(jìn)一步提高了單個(gè)SVM模型的性能,因?yàn)闃颖颈桓行У乩谩?br />
錯(cuò)誤的預(yù)測(cè)通常會(huì)產(chǎn)生更高的不確定性(參加左上圖),因此能夠利用經(jīng)驗(yàn)不確定性閾值來(lái)建議用戶在手機(jī)上重復(fù)音頻測(cè)試或在數(shù)字診斷仍然失敗時(shí)進(jìn)行額外的臨床測(cè)試(參見右上圖)。通過(guò)將不確定性納入自動(dòng)診斷系統(tǒng),可以實(shí)現(xiàn)更好的風(fēng)險(xiǎn)管理和更穩(wěn)健的決策。
2021年11月,研究人員在NeurIPS 2021中發(fā)布了全面的大規(guī)模COVID-19音頻數(shù)據(jù)集,由36,116 名參與者眾包的53,449個(gè)音頻樣本(總共超過(guò)552小時(shí))組成。相關(guān)論文已被NeurIPS 2021 Dataset Track接受發(fā)表。
在論文中,研究人員展示了ROC-AUC在呼吸道癥狀預(yù)測(cè)和COVID-19預(yù)測(cè)任務(wù)上超過(guò)0.7的性能,證實(shí)了基于這些類型數(shù)據(jù)集的機(jī)器學(xué)習(xí)方法的前景。
2022年6月,研究人員希望探索縱向音頻樣本隨著時(shí)間的推移對(duì)COVID-19進(jìn)展預(yù)測(cè)的潛力,尤其是使用順序深度學(xué)習(xí)進(jìn)行恢復(fù)趨勢(shì)預(yù)測(cè)。論文發(fā)表在數(shù)字醫(yī)學(xué)與健康領(lǐng)域的期刊JMIR上。這項(xiàng)研究可以說(shuō)是探索COVID-19疾病進(jìn)展預(yù)測(cè)的縱向音頻動(dòng)力學(xué)的第一項(xiàng)工作。
為了探索個(gè)人歷史音頻生物標(biāo)志物的音頻動(dòng)態(tài),研究人員開發(fā)并驗(yàn)證了一種使用門控循環(huán)單元 (GRU) 檢測(cè)COVID-19疾病進(jìn)展的深度學(xué)習(xí)方法。
所提出的模型包括一個(gè)名為VGGish的預(yù)訓(xùn)練卷積網(wǎng)絡(luò),用于提取高級(jí)音頻信息,以及GRU用于捕獲縱向音頻樣本的時(shí)間依賴性。
研究發(fā)現(xiàn),所提出的系統(tǒng)在區(qū)分COVID-19陽(yáng)性和陰性音頻樣本方面表現(xiàn)出色。
這一系列研究中,也出現(xiàn)了Ting Dang、Jing Han、Tong Xia等中國(guó)學(xué)者的身影。
也許,我們離用app就能檢測(cè)新冠的日子已經(jīng)不遠(yuǎn)了。
新冠病毒的出現(xiàn),真算是打開了潘多拉的魔盒。
如今不斷新出現(xiàn)的變種,打亂了整個(gè)地球人的生活。新冠之前那種不戴口罩的生活,也許再也回不去了。
最近,科學(xué)家們有了一個(gè)新發(fā)現(xiàn),或許未來(lái)可以讓我們告別捅嗓子眼兒的日子。
在西班牙巴塞羅那舉行的歐洲呼吸學(xué)會(huì)國(guó)際會(huì)議上,一項(xiàng)研究顯示,AI可通過(guò)手機(jī)應(yīng)用程序收集到的聲音,判斷用戶有沒有感染新冠肺炎。
根據(jù)News Medical的報(bào)告,本研究中使用的AI模型比快速抗原檢測(cè)更便宜、更快、更易于使用,非常適用于PCR檢測(cè)昂貴的低收入國(guó)家。
此外,這個(gè)AI還有一個(gè)更厲害的地方——準(zhǔn)確率更高。比起快速抗原測(cè)試,它的準(zhǔn)確率能達(dá)到89%。
準(zhǔn)確率達(dá)89%
研究團(tuán)隊(duì)使用了來(lái)自英國(guó)劍橋大學(xué)「新冠肺炎聲音庫(kù)」APP的數(shù)據(jù),該應(yīng)用程序包含來(lái)自4352名健康和非健康參與者的893個(gè)音頻樣本。
研究結(jié)果表明,簡(jiǎn)單的語(yǔ)音記錄和AI算法可以精確確定哪些人感染新冠肺炎。
小編以為發(fā)現(xiàn)寶藏APP了,滿心期待地下載之后發(fā)現(xiàn),這款評(píng)分2.8的應(yīng)用,目前只是用來(lái)收集數(shù)據(jù)的。
高情商:你為科學(xué)的發(fā)展出了一份力。
低情商:這軟件暫時(shí)卵用沒有。
荷蘭馬斯特里赫特大學(xué)數(shù)據(jù)科學(xué)研究所研究員Wafaa Aljbawi女士在大會(huì)上表示,AI模型在89%的情況下是準(zhǔn)確的,而橫向流動(dòng)測(cè)試的準(zhǔn)確度就因品牌而異了,而且,橫向流動(dòng)測(cè)試在檢測(cè)無(wú)癥狀人群時(shí),準(zhǔn)確性要低得多。
這些有希望的結(jié)果表明,簡(jiǎn)單的錄音和微調(diào)的 AI 算法可能會(huì)在確定哪些患者感染 COVID-19方面實(shí)現(xiàn)高精度。此類測(cè)試可以免費(fèi)提供,并且易于解釋。此外,它們支持遠(yuǎn)程虛擬測(cè)試,并且周轉(zhuǎn)時(shí)間不到一分鐘。例如,它們可以用于大型集會(huì)的入口點(diǎn),從而能夠快速篩查人群。”
Wafaa Aljbawi,研究員,數(shù)據(jù)科學(xué)研究所,馬斯特里赫特大學(xué)
這個(gè)結(jié)果太令人興奮了。這意味著:通過(guò)基本語(yǔ)音記錄和定制AI算法,我們就可以以很高的精度識(shí)別COVID-19感染患者。又免費(fèi),又好用。小編興奮地搓手:這是不是意味著,三天一捅的日子可以結(jié)束了?
這個(gè)方法的原理是:感染COVID-19后,人的上呼吸道和聲帶會(huì)受到影響,從而改變聲音。
為了驗(yàn)證這個(gè)方法的可行性,來(lái)自同一數(shù)據(jù)科學(xué)研究所的Visara Urovi博士和馬斯特里赫特大學(xué)醫(yī)學(xué)中心的肺病學(xué)家Sami Simons博士也進(jìn)行了測(cè)試。
他們使用了來(lái)自劍橋大學(xué)的眾包COVID-19Sounds 應(yīng)用程序的信息,包括來(lái)自4,352名健康和不健康受試者的893個(gè)音頻樣本,這其中,有308人的COVID-19測(cè)試結(jié)果是陽(yáng)性的。
測(cè)試時(shí),用戶將APP下載到手機(jī)后,就要開始記錄呼吸音。這個(gè)過(guò)程中,要先咳嗽3次,再用嘴深呼吸3到5次,然后在屏幕上讀一個(gè)簡(jiǎn)短的句子3次。
研究人員采用了一種稱為梅爾譜圖分析的語(yǔ)音分析方法,該技術(shù)可以識(shí)別不同的語(yǔ)音特征,例如響度、功率和隨時(shí)間的變化。
「通過(guò)這種方式,我們可以分解被試聲音的許多屬性,」Aljbawi 女士說(shuō)。「為了區(qū)分COVID-19患者和未患病者的聲音,我們建立了不同的人工智能模型,并評(píng)估了哪一個(gè)模型最適合對(duì)COVID-19病例進(jìn)行分類。」
他們發(fā)現(xiàn),一種被稱為長(zhǎng)短期記憶(LSTM)的模型顯著優(yōu)于其他模型。LSTM基于神經(jīng)網(wǎng)絡(luò),它會(huì)模仿人腦的運(yùn)作方式,識(shí)別出數(shù)據(jù)中的潛在關(guān)系。因?yàn)檫m用于序列,所以它很適合對(duì)隨時(shí)間收集的信號(hào)進(jìn)行建模,比如從語(yǔ)音中收集的信號(hào),因?yàn)樗軌驅(qū)?shù)據(jù)存儲(chǔ)在內(nèi)存中。
其總體準(zhǔn)確率為 89%,正確識(shí)別陽(yáng)性病例的能力(真陽(yáng)性率或「敏感性」)為 89%,正確識(shí)別陰性病例的能力(真陰性率或「特異性」)為 83%。
新冠患者和健康的人的咳嗽序列圖
這些結(jié)果表明,與橫向流動(dòng)測(cè)試等最先進(jìn)的測(cè)試相比,LSTM模型診斷 COVID-19 的準(zhǔn)確性有了顯著提高。
比較結(jié)果可以用一句話總結(jié):LSTM模型對(duì)于陽(yáng)性的識(shí)別率更高,但是也更容易把陰性誤診為陽(yáng)性。
具體來(lái)說(shuō),橫向流動(dòng)測(cè)試的靈敏度僅為 56%,但特異性更高,為 99.5%,因此橫向流動(dòng)測(cè)試會(huì)更頻繁地將陽(yáng)性誤測(cè)為陰性。使用LSTM模型可能會(huì)錯(cuò)過(guò)100個(gè)病例中的11個(gè),而側(cè)向流測(cè)試則會(huì)錯(cuò)過(guò)100個(gè)病例中的44個(gè)。
橫向流動(dòng)測(cè)試的高特異性,意味著只有1/10的陰性會(huì)被誤診為陽(yáng)性,而LSTM測(cè)試的誤診率更高,會(huì)把100名陰性中的17個(gè)誤診為陽(yáng)性。但是,由于該測(cè)試實(shí)際上是免費(fèi)的,如果LSTM顯示是陽(yáng)性,可以再讓人們進(jìn)行PCR測(cè)試。所以后者的影響并不大。
目前,研究人員還在進(jìn)一步驗(yàn)證他們的結(jié)果。他們使用了大量數(shù)據(jù)。自實(shí)驗(yàn)開始以來(lái),他們已經(jīng)收集了來(lái)自36,116個(gè)人的53,449個(gè)音頻樣本,可用于增強(qiáng)和驗(yàn)證模型的準(zhǔn)確性。另外,他們還在進(jìn)行其他研究,來(lái)確定還有哪些語(yǔ)音的因素會(huì)影響 AI 模型。
相關(guān)論文
2021年6月,研究人員開始探索使用AI模型用作COVID-19的自動(dòng)篩選工具時(shí),可以在多大程度上被信任。在這篇 被INTERSPEECH 2021 接收的論文中,他們?cè)囍鴮⒉淮_定性估計(jì)與深度學(xué)習(xí)模型結(jié)合,從聲音中檢測(cè)COVID-19。
論文地址:https://arxiv.org/pdf/2104.02005.pdf
在論文中,研究人員分析了330名陽(yáng)性和919名陰性被試的子集。
他們提出了一個(gè)集成學(xué)習(xí)框架,該框架在訓(xùn)練階段解決了數(shù)據(jù)不平衡的常見問題,并在推理期間提供了預(yù)測(cè)不確定性,具體化為模型集成產(chǎn)生的預(yù)測(cè)的方差。主干模型是一個(gè)名為 VGGish 1的預(yù)訓(xùn)練卷積網(wǎng)絡(luò),經(jīng)過(guò)修改以接收三種聲音的頻譜圖作為輸入。
在這項(xiàng)工作中,10個(gè)深度學(xué)習(xí)模型被訓(xùn)練并聚合成一個(gè)集成模型,產(chǎn)生0.74的 AUC,靈敏度為0.68,特異性為0.69,優(yōu)于每個(gè)模型。一方面,驗(yàn)證了深度學(xué)習(xí)對(duì)基于音頻的COVID-19檢測(cè)的手工制作特征的優(yōu)越性。另一方面,展示了 SVM的集成進(jìn)一步提高了單個(gè)SVM模型的性能,因?yàn)闃颖颈桓行У乩谩?br />
錯(cuò)誤的預(yù)測(cè)通常會(huì)產(chǎn)生更高的不確定性(參加左上圖),因此能夠利用經(jīng)驗(yàn)不確定性閾值來(lái)建議用戶在手機(jī)上重復(fù)音頻測(cè)試或在數(shù)字診斷仍然失敗時(shí)進(jìn)行額外的臨床測(cè)試(參見右上圖)。通過(guò)將不確定性納入自動(dòng)診斷系統(tǒng),可以實(shí)現(xiàn)更好的風(fēng)險(xiǎn)管理和更穩(wěn)健的決策。
2021年11月,研究人員在NeurIPS 2021中發(fā)布了全面的大規(guī)模COVID-19音頻數(shù)據(jù)集,由36,116 名參與者眾包的53,449個(gè)音頻樣本(總共超過(guò)552小時(shí))組成。相關(guān)論文已被NeurIPS 2021 Dataset Track接受發(fā)表。
在論文中,研究人員展示了ROC-AUC在呼吸道癥狀預(yù)測(cè)和COVID-19預(yù)測(cè)任務(wù)上超過(guò)0.7的性能,證實(shí)了基于這些類型數(shù)據(jù)集的機(jī)器學(xué)習(xí)方法的前景。
2022年6月,研究人員希望探索縱向音頻樣本隨著時(shí)間的推移對(duì)COVID-19進(jìn)展預(yù)測(cè)的潛力,尤其是使用順序深度學(xué)習(xí)進(jìn)行恢復(fù)趨勢(shì)預(yù)測(cè)。論文發(fā)表在數(shù)字醫(yī)學(xué)與健康領(lǐng)域的期刊JMIR上。這項(xiàng)研究可以說(shuō)是探索COVID-19疾病進(jìn)展預(yù)測(cè)的縱向音頻動(dòng)力學(xué)的第一項(xiàng)工作。
論文地址:https://www.jmir.org/2022/6/e37004
為了探索個(gè)人歷史音頻生物標(biāo)志物的音頻動(dòng)態(tài),研究人員開發(fā)并驗(yàn)證了一種使用門控循環(huán)單元 (GRU) 檢測(cè)COVID-19疾病進(jìn)展的深度學(xué)習(xí)方法。
所提出的模型包括一個(gè)名為VGGish的預(yù)訓(xùn)練卷積網(wǎng)絡(luò),用于提取高級(jí)音頻信息,以及GRU用于捕獲縱向音頻樣本的時(shí)間依賴性。
研究發(fā)現(xiàn),所提出的系統(tǒng)在區(qū)分COVID-19陽(yáng)性和陰性音頻樣本方面表現(xiàn)出色。
這一系列研究中,也出現(xiàn)了Ting Dang、Jing Han、Tong Xia等中國(guó)學(xué)者的身影。
也許,我們離用app就能檢測(cè)新冠的日子已經(jīng)不遠(yuǎn)了。