給定過去一段時(shí)間的數(shù)據(jù)如何對(duì)未來的數(shù)據(jù)進(jìn)行預(yù)測(cè)這類時(shí)間序列預(yù)測(cè)問題是很多領(lǐng)域都關(guān)心的問題。在機(jī)器學(xué)習(xí)中目前主流的方法是利用LSTM等遞歸神經(jīng)網(wǎng)絡(luò)來對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè)這次介紹的DeepAR模型也不例外不過不同的是DeepAR模型并不是這樣做的好處有兩點(diǎn)1、很多過程本身就具有隨機(jī)屬性因此輸出一個(gè)概率分布更加貼近本質(zhì)預(yù)測(cè)的精度反而更高2、可以評(píng)估出預(yù)測(cè)的不確定性和相關(guān)的風(fēng)險(xiǎn)。接下來我們就來看DeepAR模型是如何具體實(shí)現(xiàn)的。
第一個(gè)等號(hào)很好理解就是將原先的聯(lián)合概率分布寫為自回歸的概率乘積形式這在NLP的語言模型中經(jīng)常出現(xiàn)第二個(gè)等號(hào)就是將自回歸概率用一個(gè)參數(shù)化后的似然函數(shù)來表示具體來說
對(duì)于訓(xùn)練過程圖左所有的數(shù)據(jù)都是已知的因此我們可以直接輸入prediction range的數(shù)據(jù)然后計(jì)算下一時(shí)刻的似然函數(shù)通過最大化似然函數(shù)來實(shí)現(xiàn)對(duì)于模型參數(shù)的訓(xùn)練。
可以看出訓(xùn)練和預(yù)測(cè)過程之間其實(shí)存在著一些差別這在一些任務(wù)例如NLP中可能會(huì)造成嚴(yán)重的“脫節(jié)”問題不過論文在實(shí)驗(yàn)中并沒有發(fā)現(xiàn)這個(gè)問題。
另外考慮到模型的輸入是多個(gè)時(shí)間序列這些時(shí)間序列的量級(jí)可能并不一樣因此我們需要對(duì)它們做放縮對(duì)于每一個(gè)時(shí)間序列i都對(duì)應(yīng)有一個(gè)放縮因子
另外最近還有一篇論文利用DeepAR模型做了一些金融領(lǐng)域的實(shí)驗(yàn)這里簡(jiǎn)單介紹兩個(gè)小實(shí)驗(yàn)第一個(gè)是在S&P500股票數(shù)據(jù)上的收益實(shí)驗(yàn)該實(shí)驗(yàn)構(gòu)建了這樣一個(gè)多空交易策略在時(shí)刻t預(yù)測(cè)所有股票在th時(shí)刻的漲跌情況然后做多期望收益最高的k只股票并做空期望損失最大的k支股票利用蒙特卡洛方法來估計(jì)收益期望。得到的收益與目前主流的非概率模型的結(jié)果對(duì)比如下
這篇論文提出的DeepAR模型不同于以往的時(shí)間序列預(yù)測(cè)模型它輸出的是未來數(shù)據(jù)的一個(gè)概率分布我們需要通過采樣的方法用DeepAR遞歸地生成對(duì)于未來一段時(shí)間數(shù)據(jù)的預(yù)測(cè)不過因?yàn)槭菑母怕史植贾胁蓸拥玫降倪@只是一條可能的“軌跡”要計(jì)算期望值的線c;就需要利用蒙特卡洛方法多次重復(fù)采樣后取平均來得到。個(gè)人感覺這種讓模型輸出概率分布的方法特別適用于像金融數(shù)據(jù)這類具有較大不確定性的時(shí)間序列數(shù)據(jù)這類數(shù)據(jù)上往往具有一些噪聲這就導(dǎo)致直接對(duì)未來數(shù)據(jù)做直接預(yù)測(cè)并不一定可靠而對(duì)于預(yù)測(cè)概率分布的DeepAR模型最大化未來序列的似然函數(shù)的方式反而能夠更好地反映出數(shù)據(jù)內(nèi)在的隨機(jī)性質(zhì)它不僅能夠預(yù)測(cè)數(shù)值還可以預(yù)測(cè)未來的波動(dòng)這一特點(diǎn)對(duì)于需要考慮風(fēng)險(xiǎn)的金融領(lǐng)域是非常有幫助的。
為87%,所以她選擇主動(dòng)切除乳腺。當(dāng)時(shí)這篇報(bào)道給我的震驚在于女神的果斷,因?yàn)槲覀兂H藨延袃e幸心理,不到萬不得已絕舍不得給自己來一刀。 不過,如今我們學(xué)習(xí)機(jī)器學(xué)習(xí),那視角就得小小切換一下:女神這 87%的患病
對(duì)向量,矩陣,張量求導(dǎo) 英文原文:Partial Least Squares (PLS) Regression. 目錄 用 [TOC]來生成目錄: 對(duì)向量矩陣張量求導(dǎo) 目錄 Expanding notation into explicit sums and equations for each component 2 Removing summation notation
筆者在看各種NLP的論文、文獻(xiàn)、博客之中發(fā)現(xiàn)在應(yīng)用過程中,有種類繁多的詞向量的表達(dá)。筆者舉例所看到的詞向量有哪些。 詞向量類型: 一個(gè)詞一列向量,Hash算法,word2vec,LDA主題-詞語矩陣; 一個(gè)詞一個(gè)值,bow算法,詞權(quán)重; 根據(jù)詞向量組成句向量的方式: 如果是一詞一列向量,一般用簡(jiǎn)單相加(相加被證明是最科學(xué))來求得; 一個(gè)詞一值的就是用詞權(quán)重組合成向量的方
當(dāng)中。因?yàn)樵贜LP 里面,最細(xì)粒度的是 詞語,詞語組成句子,句子再組成段落、篇章、文檔。所以處理 NLP 的問題,首先就要拿詞語開刀。一般來說,對(duì)文本的預(yù)處理流程如下: 預(yù)處理結(jié)束后,我們得到的是詞匯,而通用的
出現(xiàn)多重共線性、異方差、序列相關(guān)等等問題時(shí),我們需要如何應(yīng)對(duì)與處理。 接下來我們來分別針對(duì)不同的情況看進(jìn)行處理 正文 一,異方差(Heteroscedasticity) (一) 異方差的介紹 在線性...
值與殘差的圖形。例如,如下代碼,可繪制一個(gè)常見的診斷圖: plot(predict(model,type = response),residuals(model,type = deviance))R將列出帽子值(hat value)、學(xué)生化殘差值和Cook