一般來(lái)說(shuō),建立統(tǒng)計(jì)學(xué)習(xí)模型,簡(jiǎn)單是指利用一個(gè)或多個(gè)輸入變量(一般也稱(chēng)為自變量,預(yù)測(cè)變量)通過(guò)擬合適當(dāng)?shù)年P(guān)系式來(lái)預(yù)測(cè)輸出變量(也稱(chēng)因變量,響應(yīng)變量)的方法。其中f(x)是我們希望探求的關(guān)系式,但一般來(lái)說(shuō)是固定但未知。盡管f(x)未知,但是我們的目標(biāo)就是利用一系列的統(tǒng)計(jì)/數(shù)據(jù)挖掘方法來(lái)盡可能求出接近f(x)的形式,這個(gè)形式可以是一個(gè)簡(jiǎn)單的線性回歸模型(y=a+bx),也可能是一個(gè)曲線形式(y=a+b(x的平方)),當(dāng)然也有可能是一個(gè)神經(jīng)網(wǎng)絡(luò)模型或者一個(gè)決策樹(shù)模型。
,我們希望模型盡可能地精確,相反預(yù)測(cè)模型f的形式可能是一個(gè)黑箱模型(即模型的本身我們不能很好的解釋或者并不清楚,我們更加關(guān)心這當(dāng)中的輸入和輸出,并不試圖考察其內(nèi)部結(jié)構(gòu)),只要能夠提高我們的預(yù)測(cè)精度我們就認(rèn)可達(dá)到目的了。一般認(rèn)為,神經(jīng)網(wǎng)絡(luò)模型屬于黑箱模型,如幾年前Google X實(shí)驗(yàn)室開(kāi)發(fā)出一套具有自主學(xué)習(xí)能力的神經(jīng)網(wǎng)絡(luò)模型,它能夠從一千萬(wàn)中圖片中找出那些有小貓的照片。在這里,輸入就是這一千萬(wàn)張圖片,輸出就是對(duì)于這些圖片的識(shí)別。
2在控制任務(wù)中,預(yù)測(cè)結(jié)果固然重要,但是我們也十分關(guān)心模型的形式具體是怎么樣,或者借助統(tǒng)計(jì)挖掘模型幫助我們生成了怎樣的判別規(guī)則。例如在銀行業(yè),我們希望通過(guò)客戶(hù)的個(gè)人信用信息來(lái)評(píng)價(jià)個(gè)人的借貸風(fēng)險(xiǎn),這就要求我們不但能夠回答這個(gè)客戶(hù)的風(fēng)險(xiǎn)是高是低,還要求我們回答哪些因素對(duì)客戶(hù)風(fēng)險(xiǎn)高低有直接作用,每個(gè)因素的影響程度有多大。
根據(jù)數(shù)據(jù)類(lèi)型,預(yù)測(cè)可以分為兩個(gè)大的類(lèi)別。如果是discrete data,稱(chēng)為classification,這也是目前機(jī)器學(xué)習(xí)中比較重要的組成部分。如果是continuous data,稱(chēng)為regression。
先說(shuō)我大學(xué)課程里系統(tǒng)學(xué)過(guò)的回歸?,F(xiàn)有的很多selection criteria都可以用在回歸里,比如AIC,BIC等等都是很常用的。另外還有常用的likelihood ratio test,比較full model和nested reduced model。我非常同意@慧航說(shuō)的,
。(根據(jù)我目前所學(xué))一般情況下,人們更傾向于選擇簡(jiǎn)單但是在描述數(shù)據(jù)時(shí)又不缺失信息的模型,而這也是LRT的核心思想。另外,當(dāng)你在R中summary一個(gè)model,這個(gè)model中每個(gè)predictor的p value決定了它是否是significant的,即在高度總結(jié)數(shù)據(jù)的過(guò)程中它是否是有用的。假如p value很大的話,我們會(huì)考慮不把它放進(jìn)model里。
而在prediction model里,我們也不再追求簡(jiǎn)單的model,不再過(guò)于關(guān)注這些predictor是否significant,因?yàn)榇藭r(shí)的目的是預(yù)測(cè),而任何一點(diǎn)點(diǎn)的extra information都可能會(huì)讓預(yù)測(cè)結(jié)果變得更準(zhǔn)確。