大數(shù)據(jù)預(yù)測(cè)是大數(shù)據(jù)最核心的應(yīng)用,它將傳統(tǒng)意義的預(yù)測(cè)拓展到“現(xiàn)測(cè)”。大數(shù)據(jù)預(yù)測(cè)的優(yōu)勢(shì)體現(xiàn)在,它把一個(gè)非常困難的預(yù)測(cè)問(wèn)題,轉(zhuǎn)化為一個(gè)相對(duì)簡(jiǎn)單的描述問(wèn)題,而這是傳統(tǒng)小數(shù)據(jù)集根本無(wú)法企及的。從預(yù)測(cè)的角度看,大數(shù)據(jù)預(yù)測(cè)所得出的結(jié)果不僅僅是用于處理現(xiàn)實(shí)業(yè)務(wù)的簡(jiǎn)單、客觀的結(jié)論,更是能用于幫助企業(yè)經(jīng)營(yíng)的決策。
例如,大數(shù)據(jù)曾被洛杉磯警察局和加利福尼亞大學(xué)合作用于預(yù)測(cè)犯罪的發(fā)生;Google 流感趨勢(shì)利用搜索關(guān)鍵詞預(yù)測(cè)禽流感的散布;麻省理工學(xué)院利用手機(jī)定位數(shù)據(jù)和交通數(shù)據(jù)進(jìn)行城市規(guī)劃;氣象局通過(guò)整理近期的氣象情況和衛(wèi)星云圖,更加精確地判斷未來(lái)的天氣狀況。2. 大數(shù)據(jù)預(yù)測(cè)的思維改變?cè)谶^(guò)去,人們的決策主要是依賴 20% 的結(jié)構(gòu)化數(shù)據(jù),而大數(shù)據(jù)預(yù)測(cè)則可以利用另外 80% 的非結(jié)構(gòu)化數(shù)據(jù)來(lái)做決策。大數(shù)據(jù)預(yù)測(cè)具有更多的數(shù)據(jù)維度,更快的數(shù)據(jù)頻度和更廣的數(shù)據(jù)寬度。與小數(shù)據(jù)時(shí)代相比,大數(shù)據(jù)預(yù)測(cè)的思維具有 3 大改變:實(shí)樣而非抽樣;預(yù)測(cè)效率而非精確;相關(guān)關(guān)系而非因果關(guān)系。1)實(shí)樣而非抽樣在小數(shù)據(jù)時(shí)代,由于缺乏獲取全體樣本的手段,人們發(fā)明了“隨機(jī)調(diào)研數(shù)據(jù)”的方法。理論上,抽取樣本越隨機(jī),就越能代表整體樣本。但問(wèn)題是獲取一個(gè)隨機(jī)樣本的代價(jià)極高,而且很費(fèi)時(shí)。人口調(diào)查就是一個(gè)典型例子,一個(gè)國(guó)家很難做到每年都完成一次人口調(diào)查,因?yàn)殡S機(jī)調(diào)研實(shí)在是太耗時(shí)耗力,然而云計(jì)算和大數(shù)據(jù)技術(shù)的出現(xiàn),使得獲取足夠大的樣本數(shù)據(jù)乃至全體數(shù)據(jù)成為可能。2)效率而非精確小數(shù)據(jù)時(shí)代由于使用抽樣的方法,所以需要在數(shù)據(jù)樣本的具體運(yùn)算上非常精確,否則就會(huì)“差之毫厘,失之千里”。例如,在一個(gè)總樣本為 1 億的人口中隨機(jī)抽取 1000 人進(jìn)行人口調(diào)查,如果在 1000 人上的運(yùn)算出現(xiàn)錯(cuò)誤,那么放大到 1 億中時(shí),偏差將會(huì)很大。但在全樣本的情況下,有多少偏差就是多少偏差,而不會(huì)被放大。
在大數(shù)據(jù)時(shí)代,快速獲得一個(gè)大概的輪廓和發(fā)展脈絡(luò),比嚴(yán)格的精確性要重要得多。有時(shí)候,當(dāng)掌握了大量新型數(shù)據(jù)時(shí),精確性就不那么重要了,因?yàn)槲覀內(nèi)匀豢梢哉莆帐虑榈陌l(fā)展趨勢(shì)。大數(shù)據(jù)基礎(chǔ)上的簡(jiǎn)單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效。數(shù)據(jù)分析的目的并非就是數(shù)據(jù)分析,而是用于決策,故而時(shí)效性也非常重要。3)相關(guān)性而非因果關(guān)系大數(shù)據(jù)研究不同于傳統(tǒng)的邏輯推理研究,它需要對(duì)數(shù)量巨大的數(shù)據(jù)做統(tǒng)計(jì)性的搜索、比較、聚類(lèi)、分類(lèi)等分析歸納,并關(guān)注數(shù)據(jù)的相關(guān)性或稱關(guān)聯(lián)性。相關(guān)性是指兩個(gè)或兩個(gè)以上變量的取值之間存在某種規(guī)律性。相關(guān)性沒(méi)有絕對(duì),只有可能性。但是,如果相關(guān)性強(qiáng),則一個(gè)相關(guān)性成功的概率是很高的。
根據(jù)相關(guān)性,我們理解世界不再需要建立在假設(shè)的基礎(chǔ)上,這個(gè)假設(shè)是指針對(duì)現(xiàn)象建立的有關(guān)其產(chǎn)生機(jī)制和內(nèi)在機(jī)理的假設(shè)。因此,我們也不需要建立這樣的假設(shè),即哪些檢索詞條可以表示流感在何時(shí)何地傳播;航空公司怎樣給機(jī)票定價(jià);沃爾瑪?shù)念櫩偷呐腼兿埠檬鞘裁?。取而代之的是,我們可以?duì)大數(shù)據(jù)進(jìn)行相關(guān)性分析,從而知道哪些檢索詞條是最能顯示流感的傳播的,飛機(jī)票的價(jià)格是否會(huì)飛漲,哪些食物是颶風(fēng)期間待在家里的人最想吃的。
相關(guān)性分析本身的意義重大,同時(shí)它也為研究因果關(guān)系奠定了基礎(chǔ)。通過(guò)找出可能相關(guān)的事物,我們可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的因果關(guān)系分析。如果存在因果關(guān)系,則再進(jìn)一步找出原因。這種便捷的機(jī)制通過(guò)嚴(yán)格的實(shí)驗(yàn)降低了因果分析的成本。我們也可以從相互聯(lián)系中找到一些重要的變量,這些變量可以用到驗(yàn)證因果關(guān)系的實(shí)驗(yàn)中去。3. 大數(shù)據(jù)預(yù)測(cè)的典型應(yīng)用領(lǐng)域互聯(lián)網(wǎng)給大數(shù)據(jù)預(yù)測(cè)應(yīng)用的普及帶來(lái)了便利條件,結(jié)合國(guó)內(nèi)外案例來(lái)看,以下 11 個(gè)領(lǐng)域是最有機(jī)會(huì)的大數(shù)據(jù)預(yù)測(cè)應(yīng)用領(lǐng)域。1)天氣預(yù)報(bào)天氣預(yù)報(bào)是典型的大數(shù)據(jù)預(yù)測(cè)應(yīng)用領(lǐng)域。天氣預(yù)報(bào)粒度已經(jīng)從天縮短到小時(shí),有嚴(yán)苛的時(shí)效要求。如果基于海量數(shù)據(jù)通過(guò)傳統(tǒng)方式進(jìn)行計(jì)算,則得出結(jié)論時(shí)明天早已到來(lái),預(yù)測(cè)并無(wú)價(jià)值,而大數(shù)據(jù)技術(shù)的發(fā)展則提供了高速計(jì)算能力,大大提高了天氣預(yù)報(bào)的實(shí)效性和準(zhǔn)確性。2)體育賽事預(yù)測(cè)2014 年世界杯期間,Google、百度、微軟和高盛等公司都推出了比賽結(jié)果預(yù)測(cè)平臺(tái)。百度的預(yù)測(cè)結(jié)果最為亮眼,全程 64 場(chǎng)比賽的預(yù)測(cè)準(zhǔn)確率為 67%,進(jìn)入淘汰賽后準(zhǔn)確率為 94%。這意味著未來(lái)的體育賽事會(huì)被大數(shù)據(jù)預(yù)測(cè)所掌控。
從互聯(lián)網(wǎng)公司的成功經(jīng)驗(yàn)來(lái)看,只要有體育賽事歷史數(shù)據(jù),并且與指數(shù)公司進(jìn)行合作,便可以進(jìn)行其他賽事的預(yù)測(cè),如歐冠、NBA 等賽事。3)股票市場(chǎng)預(yù)測(cè)去年,英國(guó)華威商學(xué)院和美國(guó)波士頓大學(xué)物理系的研究發(fā)現(xiàn),用戶通過(guò) Google 搜索的金融關(guān)鍵詞或許可以預(yù)測(cè)金融市場(chǎng)的走向,相應(yīng)的投資戰(zhàn)略收益高達(dá) 326%。此前則有專(zhuān)家嘗試通過(guò) Twitter 博文情緒來(lái)預(yù)測(cè)股市波動(dòng)。4)市場(chǎng)物價(jià)預(yù)測(cè)CPI 用于表征已經(jīng)發(fā)生的物價(jià)浮動(dòng)情況,但統(tǒng)計(jì)局的數(shù)據(jù)并不權(quán)威。大數(shù)據(jù)則可能幫助人們了解未來(lái)物價(jià)的走向,提前預(yù)知通貨膨脹或經(jīng)濟(jì)危機(jī)。最典型的案例莫過(guò)于馬云通過(guò)阿里 B2B 大數(shù)據(jù)提前知曉亞洲金融危機(jī)。
由于商品的生產(chǎn)、渠道成本和大概毛利在充分競(jìng)爭(zhēng)的市場(chǎng)中是相對(duì)穩(wěn)定的,與價(jià)格相關(guān)的變量是相對(duì)固定的,商品的供需關(guān)系在電子商務(wù)平臺(tái)上可實(shí)時(shí)監(jiān)控,因此價(jià)格可以預(yù)測(cè)?;陬A(yù)測(cè)結(jié)果可提供購(gòu)買(mǎi)時(shí)間建議,或者指導(dǎo)商家進(jìn)行動(dòng)態(tài)價(jià)格調(diào)整和營(yíng)銷(xiāo)活動(dòng)以實(shí)現(xiàn)利益最大化。5)用戶行為預(yù)測(cè)基于用戶搜索行為、瀏覽行為、評(píng)論歷史和個(gè)人資料等數(shù)據(jù),互聯(lián)網(wǎng)業(yè)務(wù)可以洞察消費(fèi)者的整體需求,進(jìn)而進(jìn)行針對(duì)性的產(chǎn)品生產(chǎn)、改進(jìn)和營(yíng)銷(xiāo)?!都埮莆荨愤x擇演員和劇情,百度基于用戶喜好進(jìn)行精準(zhǔn)廣告營(yíng)銷(xiāo),阿里根據(jù)天貓用戶特征包下生產(chǎn)線定制產(chǎn)品,Amazon 預(yù)測(cè)用戶點(diǎn)擊行為提前發(fā)貨均是受益于互聯(lián)網(wǎng)用戶行為預(yù)測(cè)。如圖 1 所示。
受益于傳感器技術(shù)和物聯(lián)網(wǎng)的發(fā)展,線下的用戶行為洞察正在醞釀。免費(fèi)商用 Wi-Fi,iBeacon 技術(shù)、攝像頭影像監(jiān)控、室內(nèi)定位技術(shù)、NFC 傳感器網(wǎng)絡(luò)、排隊(duì)叫號(hào)系統(tǒng),可以探知用戶線下的移動(dòng)、停留、出行規(guī)律等數(shù)據(jù),從而進(jìn)行精準(zhǔn)營(yíng)銷(xiāo)或者產(chǎn)品定制。6)人體健康預(yù)測(cè)中醫(yī)可以通過(guò)望聞問(wèn)切的手段發(fā)現(xiàn)一些人體內(nèi)隱藏的慢性病,甚至通過(guò)看體質(zhì)便可知曉一個(gè)人將來(lái)可能會(huì)出現(xiàn)什么癥狀。人體體征變化有一定規(guī)律,而慢性病發(fā)生前人體已經(jīng)會(huì)有一些持續(xù)性異常。理論上來(lái)說(shuō),如果大數(shù)據(jù)掌握了這樣的異常情況,便可以進(jìn)行慢性病預(yù)測(cè)。
Nature 新聞與觀點(diǎn)報(bào)道過(guò) Zeevi 等人的一項(xiàng)研究,即一個(gè)人的血糖濃度如何受特定的食物影響的復(fù)雜問(wèn)題。該研究根據(jù)腸道中的微生物和其他方面的生理狀況,提岀了一種可以提供個(gè)性化的食物建議的預(yù)測(cè)模型,比目前的標(biāo)準(zhǔn)能更準(zhǔn)確地預(yù)測(cè)血糖反應(yīng)。如圖 2 所示。
智能硬件使慢性病的大數(shù)據(jù)預(yù)測(cè)變?yōu)榭赡堋?纱┐髟O(shè)備和智能健康設(shè)備可幫助網(wǎng)絡(luò)收集人體健康數(shù)據(jù),如心率、體重、血脂、血糖、運(yùn)動(dòng)量、睡眠量等狀況。如果這些數(shù)據(jù)足夠精準(zhǔn)、全面,并且有可以形成算法的慢性病預(yù)測(cè)模式,或許未來(lái)這些穿戴設(shè)備就會(huì)提醒用戶身體罹患某種慢性病的風(fēng)險(xiǎn)。7)疾病疫情預(yù)測(cè)疾病疫情預(yù)測(cè)是指基于人們的搜索情況、購(gòu)物行為預(yù)測(cè)大面積疫情暴發(fā)的可能性,最經(jīng)典的“流感預(yù)測(cè)”便屬于此類(lèi)。如果來(lái)自某個(gè)區(qū)域的“流感”“板藍(lán)根”搜索需求越來(lái)越多,自然可以推測(cè)該處有流感趨勢(shì)。
百度已經(jīng)推出了疾病預(yù)測(cè)產(chǎn)品,目前可以就流感、肝炎、肺結(jié)核、性病這四種疾病,對(duì)全國(guó)每一個(gè)省份以及大多數(shù)地級(jí)市和區(qū)縣的活躍度、趨勢(shì)圖等情況,進(jìn)行全面的監(jiān)控。未來(lái),百度疾病預(yù)測(cè)監(jiān)控的疾病種類(lèi)將從目前的 4 種擴(kuò)展到 30 多種,覆蓋更多的常見(jiàn)病和流行病。用戶可以根據(jù)當(dāng)?shù)氐念A(yù)測(cè)結(jié)果進(jìn)行針對(duì)性的預(yù)防。8)災(zāi)害災(zāi)難預(yù)測(cè)氣象預(yù)測(cè)是最典型的災(zāi)難災(zāi)害預(yù)測(cè)。地震、洪澇、高溫、暴雨這些自然災(zāi)害如果可以利用大數(shù)據(jù)的能力進(jìn)行更加提前的預(yù)測(cè)和告知,便有助于減災(zāi)、防災(zāi)、救災(zāi)、賑災(zāi)。與過(guò)往不同的是,過(guò)去的數(shù)據(jù)收集方式存在著有死角、成本高等問(wèn)題,而在物聯(lián)網(wǎng)時(shí)代,人們可以借助廉價(jià)的傳感器攝像頭和無(wú)線通信網(wǎng)絡(luò),進(jìn)行實(shí)時(shí)的數(shù)據(jù)監(jiān)控收集,再利用大數(shù)據(jù)預(yù)測(cè)分析,做到更精準(zhǔn)的自然災(zāi)害預(yù)測(cè)。9)環(huán)境變遷預(yù)測(cè)除了進(jìn)行短時(shí)間微觀的天氣、災(zāi)害預(yù)測(cè)之外,還可以進(jìn)行更加長(zhǎng)期和宏觀的環(huán)境和生態(tài)變遷預(yù)測(cè)。森林和農(nóng)田面積縮小,野生動(dòng)物植物瀕危,海岸線上升,溫室效應(yīng)這些問(wèn)題是地球面臨的“慢性問(wèn)題”。人類(lèi)知道越多地球生態(tài)系統(tǒng)以及天氣形態(tài)變化的數(shù)據(jù),就越容易模型化未來(lái)環(huán)境的變遷,進(jìn)而阻止不好的轉(zhuǎn)變發(fā)生。大數(shù)據(jù)可幫助人類(lèi)收集、儲(chǔ)存和挖掘更多的地球數(shù)據(jù),同時(shí)還提供了預(yù)測(cè)的工具。10)交通行為預(yù)測(cè)交通行為預(yù)測(cè)是指基于用戶和車(chē)輛的 LBS 定位數(shù)據(jù),分析人車(chē)出行的個(gè)體和群體特征,進(jìn)行交通行為的預(yù)測(cè)。交通部門(mén)可通過(guò)預(yù)測(cè)不同時(shí)點(diǎn)、不同道路的車(chē)流量,來(lái)進(jìn)行智能的車(chē)輛調(diào)度,或應(yīng)用潮汐車(chē)道;用戶則可以根據(jù)預(yù)測(cè)結(jié)果選擇擁堵概率更低的道路。
百度基于地圖應(yīng)用的 LBS 預(yù)測(cè)涵蓋范圍更廣。它在春運(yùn)期間可預(yù)測(cè)人們的遷徙趨勢(shì)來(lái)指導(dǎo)火車(chē)線路和航線的設(shè)置,在節(jié)假日可預(yù)測(cè)景點(diǎn)的人流量來(lái)指導(dǎo)人們的景區(qū)選擇,平時(shí)還有百度熱力圖來(lái)告訴用戶城市商圈、動(dòng)物園等地點(diǎn)的人流情況,從而指導(dǎo)用戶出行選擇和商家的選點(diǎn)選址。11)能源消耗預(yù)測(cè)力口州電網(wǎng)系統(tǒng)運(yùn)營(yíng)中心管理著加州超過(guò) 80% 的電網(wǎng),向 3500 萬(wàn)用戶每年輸送 2.89 億兆瓦電力,電力線 千米。該中心采用了 Space-Time Insight 的軟件進(jìn)行智能管理,綜合分析來(lái)自天氣、傳感器、計(jì)量設(shè)備等各種數(shù)據(jù)源的海量數(shù)據(jù),預(yù)測(cè)各地的能源需求變化,進(jìn)行智能電能調(diào)度,平衡全網(wǎng)的電力供應(yīng)和需求,并對(duì)潛在危機(jī)做出快速響應(yīng)。中國(guó)智能電網(wǎng)業(yè)已在嘗試類(lèi)似的大數(shù)據(jù)預(yù)測(cè)應(yīng)用。
除了上面列舉的 11 個(gè)領(lǐng)域之外,大數(shù)據(jù)預(yù)測(cè)還可被應(yīng)用在房地產(chǎn)預(yù)測(cè)、就業(yè)情況預(yù)測(cè)、高考分?jǐn)?shù)線預(yù)測(cè)、選舉結(jié)果預(yù)測(cè)、奧斯卡大獎(jiǎng)?lì)A(yù)測(cè)、保險(xiǎn)投保者風(fēng)險(xiǎn)評(píng)估、金融借貸者還款能力評(píng)估等領(lǐng)域,讓人類(lèi)具備可量化、有說(shuō)服力、可驗(yàn)證的洞察未來(lái)的能力,大數(shù)據(jù)預(yù)測(cè)的魅力正在釋放出來(lái)。