今天SPSSPRO給會(huì)員朋友們分享的主題是《基于數(shù)據(jù)挖掘的電采暖電量預(yù)測(cè)及應(yīng)用》,本文的作者是陳廣宇,袁紹軍,夏革非等,發(fā)表于《科技資訊》。
《科技資訊》是由北京市科學(xué)技術(shù)研究院主管的科技期刊,創(chuàng)刊于2003年。該期刊專注于報(bào)道**動(dòng)態(tài),促進(jìn)科技成果轉(zhuǎn)化,內(nèi)容涵蓋新技術(shù)、材料、設(shè)備及工藝等。設(shè)有多個(gè)欄目,面向科研人員、教育機(jī)構(gòu)和企業(yè),提供學(xué)術(shù)交流平臺(tái),在學(xué)術(shù)界享有較高的聲譽(yù)和影響力。
1.研究背景
在我們的日常生活中,電力的需求正隨著社會(huì)的發(fā)展持續(xù)攀升,而如何提升能源的使用效率,已成為我們迫在眉睫的課題。為此,精確而高效的電力需求預(yù)測(cè)技術(shù)顯得尤為重要,它不僅能夠促進(jìn)能源的合理利用,還能優(yōu)化電網(wǎng)的運(yùn)作狀態(tài),**配電網(wǎng)絡(luò)的經(jīng)濟(jì)和穩(wěn)定運(yùn)行,較為電網(wǎng)公司的策略規(guī)劃和日常工作安排提供了有力的支持。
電量預(yù)測(cè)涉及到利用歷史電量數(shù)據(jù)、天氣狀況等信息,通過(guò)分析其變化趨勢(shì)來(lái)預(yù)測(cè)未來(lái)一段時(shí)間內(nèi)的電量需求。這里,我們可以分為兩大類方法:一是傳統(tǒng)的預(yù)測(cè)技術(shù),如時(shí)間序列和回歸分析法;二是較為現(xiàn)代的方法,比如運(yùn)用支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)技術(shù)。
我們分享一下在SPSSPRO上如何使用傳統(tǒng)的統(tǒng)計(jì)分析方法以及機(jī)器學(xué)習(xí)方法進(jìn)行用電量的預(yù)測(cè)。
2. 數(shù)據(jù)背景
數(shù)據(jù)集涵蓋了從2015年1月1日到2020年10月6日的2016天時(shí)間范圍內(nèi),某個(gè)地區(qū)居民的用電需求,以及在不同季節(jié)和天氣條件下用電量的變化。數(shù)據(jù)集中我們需要研究的變量如下:
從數(shù)據(jù)集的變量我們可以看到,我們需要研究的因變量Y是電力需求量,其他因素都是自變量X。值得注意的是電力需求量可能收到零售價(jià)、氣溫這些數(shù)據(jù)集中已有的因素影響,也有可能受到天氣(晴天、雨天、陰天等)、日照時(shí)長(zhǎng)、季節(jié)等因素的影響。
是否需要考慮更多影響因素,受到我們選擇的分析方法所影響,對(duì)于像時(shí)間序列分析(ARIMA) 這樣的單序列模型,我們只需要有電力需求量這一因變量Y就可以分析和建模,而對(duì)于回歸分析的話,則需要將相關(guān)產(chǎn)生影響的自變量X也納入模型中。如果我們數(shù)據(jù)集中的自變量X并不能解釋因變量Y的變化情況,那么建立的模型有效性會(huì)較低,從而導(dǎo)致我們無(wú)法作出準(zhǔn)確的預(yù)測(cè)。下面我們對(duì)比一下不同分析方法的特點(diǎn)。
3.統(tǒng)計(jì)學(xué)VS機(jī)器學(xué)習(xí)
統(tǒng)計(jì)學(xué)方法提供了理論基礎(chǔ)堅(jiān)實(shí)、可解釋性強(qiáng)且廣泛適用的分析框架,特別適用于數(shù)據(jù)量較小且要求模型可解釋性的情況。然而,它們?cè)谔幚韽?fù)雜非線性關(guān)系、大數(shù)據(jù)集和高維度特征方面可能顯得能力有限,且對(duì)數(shù)據(jù)質(zhì)量和預(yù)處理的要求較高。在實(shí)踐中,結(jié)合使用統(tǒng)計(jì)學(xué)方法和機(jī)器學(xué)習(xí)技術(shù)往往能夠較好地解決分析問(wèn)題,平衡各自的優(yōu)勢(shì)和劣勢(shì)。
4.灰色關(guān)聯(lián)分析
4.1.概念
灰色關(guān)聯(lián)分析通常用于處理不完全、不確定或不充分的信息?;疑P(guān)聯(lián)分析通過(guò)測(cè)量序列之間的相似度,來(lái)識(shí)別它們之間的關(guān)系強(qiáng)度、關(guān)聯(lián)度或影響程度。若兩個(gè)因素變化的趨勢(shì)具有一致性,即同步變化程度較高,即可謂二者關(guān)聯(lián)程度較高;反之,則較低。它特別適用于樣本數(shù)據(jù)量小和信息不完全的情況。
4.2.使用方法
一般來(lái)講,電力需求量具有明顯的季節(jié)氣候特性,受氣溫變化影響顯著,而且具有較強(qiáng)的時(shí)序特征。在案例數(shù)據(jù)中,電量各影響因素之間的關(guān)系無(wú)法用固定的公式表示,變量之間關(guān)系呈灰態(tài),是典型的灰色系統(tǒng)。 同時(shí),電量與影響因素之間的關(guān)系是非線性的,因此平常的相關(guān)性分析方法并不適用。灰色關(guān)聯(lián)分析從模糊的角度出發(fā),分析影響因素與電量之間的關(guān)聯(lián)性,對(duì)樣本數(shù)據(jù)沒(méi)有特殊的要求。相比于傳統(tǒng)的相關(guān)性分析方法,灰色關(guān)聯(lián)分析較適用于電采暖電量影響因素辨識(shí),為建立電量預(yù)測(cè)模型打下基礎(chǔ)。
接下來(lái)我們利用灰色關(guān)聯(lián)分析求取各類影響因素與用電量之間的相關(guān)性,確定每一個(gè)因素與用電量之間的關(guān)聯(lián)度,根據(jù)關(guān)聯(lián)度大小選取特征指標(biāo)。
4.3.分析過(guò)程
1. 確定分析數(shù)列,母序列為電力需求,其他因素是特征序列。
2. 數(shù)據(jù)歸一化,由于不同變量之間單位不同,需要使用均值化方法統(tǒng)一量綱。
3. 計(jì)算關(guān)聯(lián)系數(shù)。
4. 計(jì)算關(guān)聯(lián)度,由于關(guān)聯(lián)系數(shù)是比較序列與參考 序列在各個(gè)時(shí)刻的關(guān)聯(lián)程度值,所以它不止一個(gè)。因此將各個(gè)時(shí)刻的關(guān)聯(lián)系數(shù)取平均值,作為比較數(shù)列與參考數(shù)列間關(guān)聯(lián)程度的數(shù)量表示。
4.4.分析結(jié)果
關(guān)聯(lián)度表示各比較數(shù)列與參考數(shù)列之間的相似關(guān) 聯(lián)程度,介于 0~1 之間。該值越大表示比較數(shù)列與參 考數(shù)列的關(guān)聯(lián)度越高,意味著比較數(shù)列與參考數(shù)列之 間關(guān)系越緊密,相關(guān)性越高。
根據(jù)關(guān)聯(lián)度大小將特征指標(biāo)排序,分析指標(biāo)對(duì)電 采暖電量的影響程度。在表中我們可以看到,各個(gè)影響因素與用電量之間的關(guān)聯(lián)度都**過(guò)0.95,具有較強(qiáng)的關(guān)聯(lián)關(guān)系,我們需要將全部數(shù)據(jù)集中的影響因素都納入模型進(jìn)行分析。值得注意的是,雖然我們認(rèn)為這些因素都是跟因變量Y有灰色關(guān)聯(lián)關(guān)系,但不代表這些因素可以全部解釋因變量Y的變化情況。接下來(lái)我們分別是用統(tǒng)計(jì)學(xué)的回歸分析以及機(jī)器學(xué)習(xí)方法來(lái)建立預(yù)測(cè)模型。
5.線性回歸分析
5.1.概念
線性回歸是用來(lái)確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法,在線性回歸分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。
5.2.使用方法
在灰色關(guān)聯(lián)分析中,全部數(shù)據(jù)集中的自變量X都有比較強(qiáng)的灰色關(guān)聯(lián)度,所以我們將全部變量都納入線性回歸分析模型中。
從分析結(jié)果來(lái)看,除了較高氣溫以外,其他自變量都是顯著的,與灰色關(guān)聯(lián)分析的結(jié)果較為一致。但模型預(yù)測(cè)的準(zhǔn)確性指標(biāo)R^2僅有0.136,預(yù)測(cè)效果較差,導(dǎo)致這個(gè)結(jié)果的主要原因可能有兩個(gè),**是因變量Y和自變量X之間并非線性關(guān)系,*二是有其他較重要的因素影響用電量。針對(duì)**個(gè)問(wèn)題,我們可以嘗試使用機(jī)器學(xué)習(xí)的方法進(jìn)行模型擬合和預(yù)測(cè)。
6.機(jī)器學(xué)習(xí) - XGboost回歸
6.1.概念
XGBoost(Extreme Gradient Boosting)是一種高效的機(jī)器學(xué)習(xí)算法,基于梯度提升框架的優(yōu)化實(shí)現(xiàn),XGBoost在回歸和分類問(wèn)題上表現(xiàn)出色,可以被用于預(yù)測(cè)短期或長(zhǎng)期的電力需求、負(fù)荷或價(jià)格。
6.2.使用方法
在SPSSPRO上,即使是復(fù)雜的機(jī)器學(xué)習(xí)算法,也可以通過(guò)簡(jiǎn)單的拖拉拽操作,將我們需要研究的變量放在合適的變量選擇框中即可,使用方法與線性回歸的基本一致。
在機(jī)器學(xué)習(xí)的算法中,我們需要選擇的參數(shù)比較多,常見(jiàn)的有以下幾個(gè):
1. 數(shù)據(jù)洗牌,對(duì)于有序數(shù)據(jù),我們選擇否。2. 訓(xùn)練占比,選擇訓(xùn)練集和測(cè)試機(jī)的比例,我們將一部份(默認(rèn)70%)數(shù)據(jù)作為訓(xùn)練集,訓(xùn)練出來(lái)的模型再用于測(cè)試集的預(yù)測(cè),由于測(cè)試集我們已經(jīng)知道因變量Y的值,所以通過(guò)對(duì)比模型生成的結(jié)果,以及原始數(shù)據(jù)中測(cè)試機(jī)的因變量Y的結(jié)果,即可知道我們模型的準(zhǔn)確性。
3. 樹(shù)算法參數(shù),較深入的模型應(yīng)用,我們可以調(diào)整算法參數(shù),例如基學(xué)習(xí)器的種類和數(shù)量,學(xué)習(xí)呂、樣本采樣率等等,通過(guò)仔細(xì)調(diào)整算法參數(shù),可以進(jìn)一步提高模型的準(zhǔn)確性。
6.3.分析結(jié)果
在機(jī)器學(xué)習(xí)中,我們關(guān)注的結(jié)果更多是模型的準(zhǔn)確性(性能),沒(méi)有統(tǒng)計(jì)分析中的假設(shè)以及前提條件,所以我們重點(diǎn)是通過(guò)調(diào)整變量和參數(shù),不斷提升有效性指標(biāo)例,從而能獲得準(zhǔn)確的預(yù)測(cè)結(jié)果。
從模型評(píng)估結(jié)果可以看到,訓(xùn)練集中模型的擬合效果較好(R^2為0.959),而測(cè)試集的擬合效果較差(R^2為0.406),這種典型問(wèn)題稱為“過(guò)擬合”。
● 過(guò)擬合(Overfitting)
指的是模型在訓(xùn)練集上表現(xiàn)得非常好,幾乎能夠**地預(yù)測(cè)或解釋數(shù)據(jù),但在未見(jiàn)過(guò)的測(cè)試集上表現(xiàn)很差。這意味著模型可能過(guò)度學(xué)習(xí)了訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié),而不是捕捉到了數(shù)據(jù)的真實(shí)潛在規(guī)律。過(guò)擬合導(dǎo)致模型泛化能力差,即模型不能很好地適應(yīng)新數(shù)據(jù)。
● 優(yōu)化方向
1. 改變模型
XGboost是梯度提升方法,另外SPSSPRO中還提供了較為決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等機(jī)器學(xué)習(xí)方法,對(duì)比使用不同模型的預(yù)測(cè)準(zhǔn)確性并選擇合適的模型。
2. 調(diào)整參數(shù)
通過(guò)調(diào)整模型復(fù)雜度、學(xué)習(xí)速率、采樣方式等等,經(jīng)過(guò)對(duì)比測(cè)試,看能否有效的提高在測(cè)試集上的準(zhǔn)確性,值得注意的是機(jī)器學(xué)習(xí)算法本身具有隨機(jī)性,所以即使參數(shù)一致,多次運(yùn)算也會(huì)產(chǎn)生變化,我們要區(qū)分清楚變化是由參數(shù)引起的,還是隨機(jī)性引起的。
3. 特征工程(調(diào)整變量)
特征工程是機(jī)器學(xué)習(xí)中的一個(gè)關(guān)鍵過(guò)程,涉及使用領(lǐng)域知識(shí)選擇、修改和構(gòu)建適用于創(chuàng)建有效模型的特征。例如從原始數(shù)據(jù)中選擇較相關(guān)的特征,減少模型的復(fù)雜性,提高模型的性能;創(chuàng)建新的特征,以揭示數(shù)據(jù)中的重要信息或模式;將特征轉(zhuǎn)換為較適合模型的形式。常見(jiàn)的轉(zhuǎn)換包括歸一化、標(biāo)準(zhǔn)化、對(duì)數(shù)轉(zhuǎn)換和箱型轉(zhuǎn)換等。
提高模型性能的方法并非一蹴而就,隨著我們對(duì)分析場(chǎng)景的深入理解,進(jìn)行有效的特征工程,選擇合適的模型,可以逐步提升模型性能,進(jìn)而對(duì)研究問(wèn)題由較加深入的洞察,并且將結(jié)果應(yīng)用于實(shí)踐,提高我們的用電效率,降低成本。
參考:
【1】數(shù)據(jù)集來(lái)自國(guó)家公開(kāi)的數(shù)據(jù)庫(kù)kaggle
以上文章來(lái)源于SPSSPRO,作者SPSSPRO
北京天演融智軟件有限公司(科學(xué)軟件網(wǎng))是SPSSPRO在中國(guó)的授權(quán)經(jīng)銷商,為中國(guó)的軟件用戶提供優(yōu)質(zhì)的軟件銷售和培訓(xùn)服務(wù)。
詞條
詞條說(shuō)明
Matlab費(fèi)用Matlab是一款由美國(guó)MathWorks公司出品的商業(yè)數(shù)學(xué)軟件,被廣泛應(yīng)用于科學(xué)計(jì)算、數(shù)據(jù)分析、可視化以及交互式程序設(shè)計(jì)等領(lǐng)域。在如今科技發(fā)展飛速的時(shí)代,Matlab作為一款功能強(qiáng)大的科學(xué)計(jì)算軟件,受到了越來(lái)越多科研機(jī)構(gòu)、高校、企業(yè)事業(yè)單位的青睞。那么,在選擇Matlab時(shí),我們需要了解哪些費(fèi)用信息呢?一、Matlab軟件費(fèi)用Matlab軟件的費(fèi)用通常是使用Matlab的個(gè)成本。
Visual MODFLOW Flex 地下水流動(dòng)與污染物運(yùn)移模擬軟件介紹
Visual MODFLOW Flex不僅僅是MODFLOW地下水模擬的圖形用戶界面。Visual MODFLOW Flex還是行業(yè)標(biāo)準(zhǔn)規(guī)范軟件,將地下水流和污染物運(yùn)移、基本分析和校準(zhǔn)工具,以及強(qiáng)大的三維可視化功能集成在一個(gè)單一的,易于使用的軟件環(huán)境中。使用Visual MODFLOW Flex,用戶將擁有所有的工具,可用來(lái)解決局部區(qū)域范圍內(nèi)的水質(zhì)、地下水補(bǔ)給和水源的保護(hù)問(wèn)題。?Visu
石景山地球地理軟件流程 地球地理軟件在如今科技高速發(fā)展的時(shí)代,扮演著愈發(fā)重要的角色。北京天演融智軟件有限公司(科學(xué)軟件網(wǎng))在地球地理軟件領(lǐng)域提供著一系列產(chǎn)品和服務(wù)。通過(guò)其強(qiáng)大的技術(shù)支持、豐富的資源庫(kù)和用戶友好的特點(diǎn),為用戶提供了的解決方案。讓我們深入了解一下“石景山地球地理軟件流程”。 產(chǎn)品與服務(wù) 科學(xué)軟件網(wǎng)作為北京天演融智軟件有限公司的官方平臺(tái),提供了過(guò)800款正版軟件,覆蓋了多個(gè)領(lǐng)域,其中就包
門頭溝nvivo標(biāo)準(zhǔn)在當(dāng)今信息爆炸的時(shí)代,如何有效地管理和分析數(shù)據(jù)成為了許多研究者和學(xué)者的挑戰(zhàn)。而NVivo作為一款功能強(qiáng)大的軟件,專門用于對(duì)文本、音頻、視頻和其他非結(jié)構(gòu)化數(shù)據(jù)源進(jìn)行定性和混合方法分析,為用戶提供了一種、系統(tǒng)化的數(shù)據(jù)分析解決方案。作為科學(xué)軟件網(wǎng)的一員,在門頭溝地區(qū)我們將提供標(biāo)準(zhǔn)化的NVivo服務(wù),助力用戶在研究和分析中獲得加準(zhǔn)確和深入的洞察力。作為一款良好的質(zhì)性數(shù)據(jù)分析軟件,NVi
公司名: 北京天演融智軟件有限公司
聯(lián)系人: 王經(jīng)理
電 話: 4008104001
手 機(jī): 18510103847
微 信: 18510103847
地 址: 北京海淀北京市海淀區(qū)上地東路35號(hào)院1號(hào)樓3層1-312-318、1-312-319
郵 編:
網(wǎng) 址: turntech8843.b2b168.com
公司名: 北京天演融智軟件有限公司
聯(lián)系人: 王經(jīng)理
手 機(jī): 18510103847
電 話: 4008104001
地 址: 北京海淀北京市海淀區(qū)上地東路35號(hào)院1號(hào)樓3層1-312-318、1-312-319
郵 編:
網(wǎng) 址: turntech8843.b2b168.com