3.【數(shù)據(jù)清洗】主要內(nèi)容為【缺失數(shù)據(jù)處理】、【上限/下限】、【檢查數(shù)據(jù)分布】。檢查數(shù)據(jù)分布是否和預(yù)期一致,若不一致采用合理方法進(jìn)行調(diào)整。若值過(guò)大或過(guò)小時(shí),應(yīng)通過(guò)限制【上限/下限】進(jìn)行解決。這樣是為了使數(shù)據(jù)分布不至于分散。
6.【模型評(píng)估】主要內(nèi)容為【VIF】、【C值】、【R的平方】、【Lift圖】、【INS/OOS/OOT】。【VIF】是衡量模型中自變量貢獻(xiàn)性的一個(gè)指標(biāo),【VIF】越大表示變量之間的貢獻(xiàn)性越強(qiáng)?!綜值】和【R的平方】是用于評(píng)價(jià)模型本身表現(xiàn)的參數(shù)?!綜值】是用于邏輯回歸模型,【R的平方】是用于線性回歸模型。
13.【藍(lán)色】表示建模數(shù)據(jù)集,【綠線】是建模數(shù)據(jù)集里的子集,【紅線】表示驗(yàn)證數(shù)據(jù)集。在理想狀態(tài)下,我們希望用整體的建模數(shù)據(jù)集的子集,以及驗(yàn)證數(shù)據(jù)集,繪制出的曲線盡可能重合,這樣可以表明模型是相對(duì)穩(wěn)定的。