一般而言,描述性分析是在某種意義上或?yàn)閿?shù)據(jù)集添加某些結(jié)構(gòu)的過程,有時(shí)這可能非常大。因此,大多數(shù)在業(yè)務(wù)中提及“分析”的討論實(shí)際上都是在談?wù)撁枋鲂苑治觯˙ertolucci,2013)。最明顯的例子是當(dāng)我們?cè)谘芯块_始時(shí)進(jìn)行描述性統(tǒng)計(jì),并查看諸如范圍,均值,中位數(shù),四分位數(shù),偏斜和峰度之類的數(shù)據(jù)時(shí)。我們正在了解數(shù)據(jù)如何分解。在某些情況下,這實(shí)際上可能是我們要尋找的全部內(nèi)容,但是在大多數(shù)情況下,我們將希望進(jìn)一步深入了解數(shù)據(jù)。例如,當(dāng)我們運(yùn)行諸如k-means之類的聚類算法時(shí),它使我們能夠?qū)?shù)據(jù)組織成看起來似乎彼此相同的組。
另一方面,預(yù)測(cè)分析還可以查看數(shù)據(jù)的形狀,但是它也使我們能夠識(shí)別趨勢(shì)并對(duì)未來事件進(jìn)行數(shù)學(xué)預(yù)測(cè)。簡而言之,您正在分析過去(也許是最近的過去,如“實(shí)時(shí)”數(shù)據(jù)中的,但仍然是過去),以預(yù)測(cè)未來。理解這一點(diǎn)的最簡單方法可能是考慮回歸技術(shù),即在數(shù)據(jù)中確定趨勢(shì)線時(shí),它的基本數(shù)學(xué)公式使您可以預(yù)測(cè)在類似條件下將來會(huì)發(fā)生什么。掌握代數(shù)的任何人都可以理解其原理-一旦確定了模型的公式及其系數(shù),您只需插入因變量,并獲得結(jié)果的預(yù)測(cè)值。
當(dāng)我們將“推論”引入組合時(shí),這會(huì)讓人感到困惑,這是由Merriam-Webster定義的,涉及“ 通常以計(jì)算出的確定性程度將統(tǒng)計(jì)樣本數(shù)據(jù)傳遞給一般化(根據(jù)總體參數(shù)的值)” 。換句話說,我們正在根據(jù)我們?cè)跀?shù)據(jù)中看到的信息,對(duì)未來可能發(fā)生的情況進(jìn)行有根據(jù)的猜測(cè)。這種推論廣泛應(yīng)用于可 預(yù)測(cè)的數(shù)據(jù)分析以及 描述性數(shù)據(jù)分析。。例如,如果Netflix根據(jù)共同的喜好使用某種形式的聚類來將用戶分組(例如喜歡外國電影的人),那么他們非常會(huì)使用該描述性數(shù)據(jù)來告知電影他們“推薦”給您的電影。實(shí)際上,他們是根據(jù)描述性數(shù)據(jù)進(jìn)行預(yù)測(cè)。它可能沒有附加數(shù)學(xué)方程式(或者也許有,因?yàn)樗麄兛赡苡懈呒?jí)的技巧),但這只是一個(gè)預(yù)測(cè)。另一方面,如果Netflix使用回歸模型,則它可能會(huì)發(fā)現(xiàn)一組變量與另一組變量之間的相關(guān)性,并對(duì)某事進(jìn)行量化預(yù)測(cè)。
總而言之,描述性和預(yù)測(cè)性技術(shù)之間似乎有些重疊,但是其定義可能類似于有監(jiān)督和無監(jiān)督的學(xué)習(xí),其中一種涉及基于過去的場(chǎng)景進(jìn)行預(yù)測(cè),在這種情況下我們可以確定已知的結(jié)果,而另一種則基于涉及經(jīng)歷并規(guī)劃過去發(fā)生的事情。