在19日上午召開的第五屆中國統(tǒng)計開放日上,國家統(tǒng)計局首次對外展示了其正在研究的基于百度搜索數(shù)據(jù)來預測房地產(chǎn)價格的新工具,并演示了這項工具對北京房價的驚人的預測力。在開放日上,國家統(tǒng)計局也展示了新研發(fā)的網(wǎng)購數(shù)據(jù)統(tǒng)計,而其數(shù)據(jù)來源之一就是剛赴紐約上市的阿里巴巴。
騰訊也沒有缺席這場建設大數(shù)據(jù)統(tǒng)計的國家戰(zhàn)役。甫一開年,國家統(tǒng)計局局長馬建堂就馬不停蹄的走訪了中國最具代表性的互聯(lián)網(wǎng)企業(yè)。馬建堂的身影出現(xiàn)在京東商城和阿里巴巴,以及1號店、CBI易貿(mào)集團、百度等企業(yè)。今年6月末,馬建堂來到了騰訊,并從馬化騰手中接過了一個企鵝公仔。
百度如何統(tǒng)計房價
更為精確的房地產(chǎn)價格統(tǒng)計一直是政府希圖攻克的難題。因為個人隱私、陰陽合同等問題存在可能影響源頭數(shù)據(jù)的真實性,而現(xiàn)有房地產(chǎn)數(shù)據(jù)數(shù)出多門的情況也增加了“數(shù)據(jù)打架”的幾率。
相對而言,海量的搜索數(shù)據(jù)不經(jīng)意就透露了真實的房地產(chǎn)走勢信息。
利用基于百度搜索數(shù)據(jù),國家統(tǒng)計局篩選出同房地產(chǎn)價格有關(guān)的一系列關(guān)鍵詞,然后通過這些關(guān)鍵詞出現(xiàn)的時間頻次同以往實際發(fā)布的新房數(shù)據(jù)和二手房數(shù)據(jù)價格的走勢實施擬合并建立模型,最后根據(jù)所建模型預測未來房地產(chǎn)價格的走勢。這就是國家統(tǒng)計局新工具的基本原理。事實上,除了國家統(tǒng)計局之外,美國的谷歌也是在用這種原理來預測流行病的爆發(fā)趨勢。
利用這一工具,國家統(tǒng)計局在開放日現(xiàn)場演示了一把對北京房價的模擬和預測。
《第一財經(jīng)日報》記者注意到,通過百度數(shù)據(jù)所得出的價格曲線預測值同實際價格曲線之間的擬合程度較高,其中百度搜索數(shù)據(jù)對二手房價格擬合效果比新房更好。這或許是因為剛需人群在尋找二手房交易時更能提供準確而真實的信息。
如果這項工具投入應用,官方內(nèi)部有望提前多天就了解到下月房價的大致走勢。統(tǒng)計部門也希望,在房價實際數(shù)據(jù)出來后能使用這一工具檢驗官方數(shù)據(jù)的有效性,從而提升統(tǒng)計數(shù)據(jù)的有效性。
國家統(tǒng)計局同阿里巴巴的合作則由來已久。在向社會“找數(shù)據(jù)”的進程中,淘寶網(wǎng)是統(tǒng)計部門最先矚目的大數(shù)據(jù)來源。因為淘寶網(wǎng)上的交易數(shù)據(jù)既是實時成交數(shù),又真實有效,這正是統(tǒng)計部門以往驅(qū)動龐大的調(diào)查隊伍所希望尋找的絕佳數(shù)據(jù)。