0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中國(guó)團(tuán)隊(duì)Getmax為何能在高手如云的KDD Cup中脫穎而出?

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-07-23 09:03 ? 次閱讀

近日,有數(shù)據(jù)挖掘領(lǐng)域“奧運(yùn)會(huì)”之稱的KDD Cup 2018比賽結(jié)果出爐。今年的主題為空氣質(zhì)量預(yù)測(cè),中國(guó)團(tuán)隊(duì)Getmax包攬三項(xiàng)大獎(jiǎng),獲得兩項(xiàng)第一,一項(xiàng)第二的好成績(jī)。本文帶來(lái)該團(tuán)隊(duì)親述算法思路與技術(shù)細(xì)節(jié)。

KDD Cup是由 ACM 的數(shù)據(jù)挖掘及知識(shí)發(fā)現(xiàn)專委會(huì)(SIGKDD)主辦的數(shù)據(jù)挖掘研究領(lǐng)域的國(guó)際頂級(jí)賽事,從1997年至今已有 21 年的歷史。作為目前數(shù)據(jù)挖掘領(lǐng)域最有影響力、最高水平的國(guó)際頂級(jí)賽事,KDD Cup 每年都會(huì)吸引來(lái)自世界各地?cái)?shù)據(jù)挖掘領(lǐng)域的頂尖專家、學(xué)者和工程師參賽,因此也有“大數(shù)據(jù)奧運(yùn)會(huì)”之名。

與往年只有最終成績(jī)獎(jiǎng)項(xiàng)不同,KDD Cup 2018計(jì)算了比賽過(guò)程中的成績(jī)并設(shè)立了三項(xiàng)大獎(jiǎng)——“The General Track”、“最后10天專項(xiàng)獎(jiǎng)”、“最佳長(zhǎng)期預(yù)測(cè)獎(jiǎng)”,從三個(gè)維度來(lái)獎(jiǎng)勵(lì)比賽中表現(xiàn)突出的隊(duì)伍。而“Getmax”也因全面而突出的表現(xiàn),從4000多個(gè)參賽隊(duì)伍中脫穎而出,成為唯一包攬三項(xiàng)大獎(jiǎng)的隊(duì)伍,分別取得一項(xiàng)亞軍、兩項(xiàng)冠軍的成績(jī)。

如何在KDD Cup這樣高手如云的國(guó)際賽事中脫穎而出?Getmax團(tuán)隊(duì)向新智元詳細(xì)介紹了他們今年的參賽解決方案,包括如何理解空氣質(zhì)量問(wèn)題,分析數(shù)據(jù),特征工程,以及如何針對(duì)應(yīng)用特點(diǎn)進(jìn)行深度學(xué)習(xí)建模與優(yōu)化。

背景介紹:KDD CUP 2018預(yù)測(cè)空氣質(zhì)量

KDD Cup 2018關(guān)注空氣質(zhì)量問(wèn)題。在過(guò)去幾年中,空氣質(zhì)量問(wèn)題已經(jīng)影響了很多發(fā)展中國(guó)家的大城市。2011年,康奈爾大學(xué)空氣質(zhì)量專家Dane Westerdahl在接受《洛杉磯時(shí)報(bào)》的采訪時(shí)表示,有些時(shí)候,發(fā)展中國(guó)家城市的空氣質(zhì)量和“森林大火下風(fēng)口的空氣質(zhì)量”相當(dāng)。

在眾多空氣污染物中,懸浮顆粒(particulate matters,簡(jiǎn)稱PM)是最致命的一種之一。直徑小于或等于2.5 μm的懸浮顆??梢赃M(jìn)入肺部深處,進(jìn)入血管,導(dǎo)致 DNA 突變和癌癥,中樞神經(jīng)系統(tǒng)損傷和過(guò)早死亡。

主辦方在比賽中提供中國(guó)北京和英國(guó)倫敦的數(shù)據(jù)。比賽選手需要預(yù)測(cè)未來(lái)48小時(shí)內(nèi) PM2.5, PM10和O3的濃度(倫敦只需要預(yù)測(cè)PM2.5和PM10)。

Getmanx團(tuán)隊(duì)介紹:

羅志鵬微軟Bing搜索廣告算法工程師,北京大學(xué)軟件工程專業(yè)碩士,專注于深度學(xué)習(xí)技術(shù)在NLP, 廣告相關(guān)性匹配,CTR預(yù)估等方面的研究及應(yīng)用。

胡可阿里媽媽搜索直通車團(tuán)隊(duì)算法專家,碩士畢業(yè)于香港中文大學(xué)機(jī)器學(xué)習(xí)方向。工作技術(shù)方向?yàn)樯疃葘W(xué)習(xí)與廣告算法。

黃堅(jiān)強(qiáng)北京大學(xué)軟件工程專業(yè)碩士在讀,擅長(zhǎng)特征工程、自然語(yǔ)言處理、深度學(xué)習(xí)。

評(píng)測(cè)指標(biāo)

每天,提交的結(jié)果將會(huì)和真實(shí)空氣質(zhì)量數(shù)據(jù)(也就是空氣監(jiān)測(cè)站測(cè)量的污染物濃度)比較,并根據(jù)Symmetric mean absolute percentage error評(píng)分:

At是真實(shí)值,F(xiàn)t是預(yù)測(cè)值。

題目特點(diǎn)以及常用方法

空氣質(zhì)量相關(guān)預(yù)測(cè)問(wèn)題相對(duì)比較新,涉及的領(lǐng)域包括環(huán)境科學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué),近年也有機(jī)器學(xué)習(xí)方面的研究工作。國(guó)內(nèi)外多個(gè)網(wǎng)站,APP都有對(duì)空氣質(zhì)量預(yù)測(cè)的應(yīng)用?,F(xiàn)有的方法主要集中于統(tǒng)計(jì)學(xué)以及線性回歸等機(jī)器學(xué)習(xí)模型,近年也有RNN相關(guān)的研究[1],現(xiàn)有的模型主要預(yù)測(cè)時(shí)間段在8~24小時(shí)以內(nèi)。

空氣質(zhì)量預(yù)測(cè)具有規(guī)律性弱,不穩(wěn)定,易突變的特點(diǎn)。因?yàn)楸荣愐A(yù)測(cè)48小時(shí)時(shí)間序列以及北京/倫敦城市內(nèi)幾十個(gè)預(yù)測(cè)地點(diǎn),建模更長(zhǎng)的時(shí)間序列以及地理拓?fù)潢P(guān)系給機(jī)器學(xué)習(xí)模型帶來(lái)挑戰(zhàn)。

現(xiàn)有的方法針對(duì)的預(yù)測(cè)的時(shí)間段較短,沒(méi)有基于位置拓?fù)湟约袄锰鞖忸A(yù)報(bào)進(jìn)行建模,在機(jī)器學(xué)習(xí)尤其深度學(xué)習(xí)模型的運(yùn)用也處于探索階段。并且,由于比賽賽制每天需提交未來(lái)結(jié)果,相對(duì)于很多基于固定測(cè)試集的方案或比賽更接近真實(shí)工業(yè)界,對(duì)模型的穩(wěn)定性以及迭代開銷也有很多挑戰(zhàn)。

比賽數(shù)據(jù)與數(shù)據(jù)分析

本題提供主要三方面數(shù)據(jù):

空氣質(zhì)量數(shù)據(jù), 主要包括以下幾種重要的空氣污染物:PM2.5, PM10, O3

天氣氣象數(shù)據(jù):地理網(wǎng)格數(shù)據(jù)點(diǎn)的天氣,溫度,氣壓,濕度,風(fēng)速,風(fēng)向

未來(lái)48小時(shí)天氣預(yù)報(bào):與天氣氣象數(shù)據(jù)相同網(wǎng)格點(diǎn)的天氣,溫度,氣壓,濕度,風(fēng)速,風(fēng)向預(yù)報(bào)值

其中過(guò)去一年的數(shù)據(jù)有空氣質(zhì)量數(shù)據(jù)與天氣數(shù)據(jù),過(guò)去一個(gè)月的數(shù)據(jù)有天氣預(yù)報(bào)數(shù)據(jù)。

首先,我們觀察了北京站點(diǎn)2018年2月到5月之間的空氣污染物(PM2.5)濃度變化情況,以北京奧體中心站點(diǎn)PM2.5為例,下圖顯示了PM2.5隨時(shí)間的變化,從圖中可以看出,北京的PM2.5濃度變化不定,最低能達(dá)到10以內(nèi),最高能達(dá)到350左右。并且在數(shù)小時(shí)就可以產(chǎn)生劇烈的變換,為預(yù)測(cè)增加了很大的難度。

特征工程

我們首先提取了每個(gè)站點(diǎn)過(guò)去72小時(shí)的空氣質(zhì)量,以及每個(gè)站點(diǎn)最近網(wǎng)格過(guò)去72小時(shí)的氣象數(shù)據(jù)來(lái)作為站點(diǎn)的氣象特征,使用這些特征構(gòu)建了第一個(gè)模型。

我們發(fā)現(xiàn),基于歷史統(tǒng)計(jì)量的模型對(duì)于長(zhǎng)期預(yù)測(cè)尤其是突變效果并不理想。以 5 月 7 號(hào)對(duì)于未來(lái)兩天預(yù)測(cè)為例,下圖可以看出,在 5 月 8 日到 5 月 9 日模型一的 PM2.5 濃度從 40 上升到 80 又下降到 40,而我們基于歷史統(tǒng)計(jì)量特征的模型始終保持在 50 左右,經(jīng)過(guò)數(shù)據(jù)分析我們發(fā)現(xiàn),這段時(shí)間的天氣發(fā)生了一定的變化,我們分析未來(lái)天氣預(yù)報(bào)是問(wèn)題的關(guān)鍵并構(gòu)建相關(guān)特征。

北京奧體中心站點(diǎn)5月8號(hào)-5月9號(hào)的PM2.5預(yù)測(cè)值及真實(shí)值

而天氣預(yù)報(bào)數(shù)據(jù)只有 2018 年 4 月 10 號(hào)后約一個(gè)月的數(shù)據(jù),在此前一年的訓(xùn)練數(shù)據(jù)缺失天氣預(yù)報(bào),沒(méi)法做有效的訓(xùn)練。所以我們使用 2018 年 4 月 10 號(hào)以前的真實(shí)氣象數(shù)據(jù)代替此時(shí)段天氣預(yù)報(bào)數(shù)據(jù)。

然而,由于真實(shí)天氣數(shù)據(jù)與預(yù)測(cè)天氣數(shù)據(jù)分布并不一致,我們采取對(duì)訓(xùn)練數(shù)據(jù)中的真實(shí)數(shù)據(jù)引入高斯噪聲,并且考慮到短期預(yù)報(bào)與長(zhǎng)期預(yù)報(bào)估計(jì)誤差的不同,針對(duì)于不同的預(yù)測(cè)小時(shí)段進(jìn)行了不同的參數(shù)估計(jì),緩解了訓(xùn)練集與預(yù)測(cè)集合不一致所造成的過(guò)擬合問(wèn)題。

針對(duì)于某些特殊時(shí)段天氣預(yù)報(bào)預(yù)測(cè)偏差過(guò)大造成的不穩(wěn)定問(wèn)題,我們進(jìn)一步使用分箱平滑。參照真實(shí)天氣預(yù)報(bào)一個(gè)月數(shù)據(jù)的樹模型訓(xùn)練集上的特征重要性與測(cè)試集效果進(jìn)行了超參數(shù)確定。并且我們也嘗試transfer learning等方法優(yōu)化分布不一致問(wèn)題,但由于最后一個(gè)月數(shù)據(jù)太少效果不穩(wěn)定,并且迭代開銷大沒(méi)有采用。

在基于單點(diǎn)構(gòu)建天氣預(yù)報(bào)特征后,我們發(fā)現(xiàn)很多周圍方位的天氣預(yù)報(bào)信息對(duì)于當(dāng)前點(diǎn)也有很大影響。我們由利用幾百個(gè)網(wǎng)格數(shù)據(jù)點(diǎn)進(jìn)行拓?fù)湫畔⑻卣鳂?gòu)建。首先我們針對(duì)每個(gè)城市的每個(gè)站點(diǎn)的 8 個(gè)臨近方位角去提取 8 個(gè)網(wǎng)格數(shù)據(jù)點(diǎn)的天氣預(yù)報(bào)特征。考慮到其他位置的天氣如風(fēng)速等會(huì)影響到當(dāng)前方位的污染狀況,我們也針對(duì)北京 12 個(gè)經(jīng)緯度跨度較大的網(wǎng)格數(shù)據(jù)點(diǎn)作為全局預(yù)報(bào)特征,取得了較大的提升。Model1 是基于歷史統(tǒng)計(jì)量以及初步天氣預(yù)報(bào)特征模型,Model2 是細(xì)化天氣預(yù)報(bào)特征與地理位置特征的模型。

北京奧體中心站點(diǎn)5月8號(hào)到5月9號(hào)的PM2.5預(yù)測(cè)值及真實(shí)值

我們也在其他預(yù)測(cè)日驗(yàn)證了模型效果。下圖為兩個(gè)模型在 5 月 28 號(hào)和 29 號(hào)的效果圖(29 日后面有數(shù)據(jù)缺失),我們的細(xì)粒度天氣預(yù)報(bào)特征也可以更好的預(yù)測(cè)趨勢(shì)。圖中空氣質(zhì)量有較大的突變,而我們的模型也捕捉到了突變趨勢(shì)。突變是對(duì)于實(shí)際應(yīng)用有重要應(yīng)用價(jià)值的場(chǎng)景,在這次突變天氣提交我們成績(jī)?yōu)?.48,同當(dāng)日第二名成績(jī) 0.54 相比有明顯優(yōu)勢(shì)。

北京奧體中心站點(diǎn)5月28號(hào)到5月29號(hào)的PM2.5預(yù)測(cè)值及真實(shí)值

最終,特征主要分為六類:

基本特征:需預(yù)測(cè)的第幾個(gè)小時(shí),樣本是在當(dāng)天的第幾小時(shí),所在的經(jīng)緯度等

空氣質(zhì)量特征:過(guò)去1,3,5……72小時(shí)的污染物濃度/過(guò)去1,3,5, 7天同小時(shí)時(shí)間污染物濃度均值,中位數(shù),最大值,最小值等統(tǒng)計(jì)值,不同小時(shí)之間rate/diff等趨勢(shì)特征等

天氣特征:過(guò)去1,3,5……48小時(shí)平均風(fēng)速,風(fēng)向分箱聚合

天氣預(yù)報(bào)特征:預(yù)測(cè)時(shí)間所在小時(shí)風(fēng)速風(fēng)向,預(yù)測(cè)時(shí)間之前1,3,6,12小時(shí)風(fēng)速平滑統(tǒng)計(jì)量累計(jì)值、極值等,按照風(fēng)向分箱聚合等統(tǒng)計(jì)量等

拓?fù)湮恢孟嚓P(guān)特征:全局統(tǒng)計(jì)量,離當(dāng)前位置最近的 8 個(gè)方位統(tǒng)計(jì)量,該城市 12 個(gè)方位統(tǒng)計(jì)量等

歷史突變相關(guān)特征:歷史最大/最小統(tǒng)計(jì)量距離當(dāng)前隔多久,相隔的時(shí)間內(nèi)平均統(tǒng)計(jì)量,極值的差,以及歷史的極值之間的時(shí)間差等

我們從 2027 個(gè)特征中采用較為重要的 885 個(gè)特征,訓(xùn)練數(shù)據(jù)共 75 萬(wàn)條。

實(shí)驗(yàn)?zāi)P停篏BDT、DNN、RNN

我們主要用采用3種模型,GBDT, DNN與RNN(Seq2Seq-GRU) 模型。由于數(shù)據(jù)分布差異很大,我們對(duì)于不同城市以及不同污染物分別建模。針對(duì)時(shí)間序列問(wèn)題我們一共有 2 種建模方式,序列模型 (RNN) 是每條樣本未來(lái) 48 小時(shí)的空氣質(zhì)量為 48 個(gè)label,而常規(guī)回歸模型(GBDT/DNN)是將一條序列樣本根據(jù)預(yù)測(cè)未來(lái)的 48 小時(shí)序列數(shù)展開為48條樣本,每條樣本預(yù)測(cè)一個(gè)狀態(tài),48 條樣本間歷史統(tǒng)計(jì)特征相同,存在二個(gè)區(qū)別:1)用hour flag標(biāo)識(shí)是第幾個(gè)樣本;2)天氣預(yù)報(bào)特征。

GBDT模型用 LightGBM 兩種模型,主要用于特征迭代。針對(duì)問(wèn)題特點(diǎn)對(duì) DNN 模型和RNNSeq2Seq-GRU 模型進(jìn)行了優(yōu)化。

DNN模型相對(duì)于 GBDT 模型有更強(qiáng)的特征交叉關(guān)系學(xué)習(xí)能力,并且可以學(xué)習(xí)到一些在訓(xùn)練集中沒(méi)有出現(xiàn)的交叉關(guān)系,下圖為 DNN 模型的結(jié)構(gòu)圖。

基于DNN模型,我們有如下調(diào)整與優(yōu)化:

對(duì)特征進(jìn)行標(biāo)準(zhǔn)化處理,計(jì)算均值和方差的時(shí)候?qū)θ笔е禃翰蛔鎏幚?/p>

標(biāo)準(zhǔn)化后進(jìn)行特征值clip,減少離群特征值對(duì)模型的影響

對(duì)缺失值填充 0,并添加缺失標(biāo)志位

使用b-swish激活函數(shù)[2],其公式為 b-swish(x) = x*sigmoid(b*x),b為可訓(xùn)練參數(shù);b-swish 擁有不飽和、光滑、非單調(diào)性的特征

參考 product neural network[3]概念以及 LSTM 中的 Gate 設(shè)計(jì),對(duì)時(shí)間與位置信息 embedding 進(jìn)行了 product 以及后面 sigmoid 激活,再與模型本身的統(tǒng)計(jì)特征進(jìn)行組合

傳統(tǒng)的回歸損失函數(shù)MSE與比賽的評(píng)分函數(shù)SMAPE有較大的差異,直接優(yōu)化MSE會(huì)導(dǎo)致與評(píng)測(cè)目標(biāo)不一致。而SMAPE在0點(diǎn)不可導(dǎo)且有臨近點(diǎn)不穩(wěn)定問(wèn)題,我們?yōu)榱酥苯觾?yōu)化SMAPE參照kaggle web traffic prediction比賽分享進(jìn)行了損失函數(shù)逼近[4],使得模型優(yōu)化與評(píng)測(cè)更一致:

epsilon = 0.1

summ = tf.maximum(tf.abs(true) + tf.abs(predicted) + epsilon, 0.5 + epsilon)

smape = tf.abs(predicted - true) / summ * 2.0

由于空氣質(zhì)量預(yù)測(cè)特征的噪音較大,神經(jīng)網(wǎng)絡(luò)相對(duì)于樹模型對(duì)于異常值更敏感,我們做了更多的數(shù)據(jù)處理(a/b/c)。并且由于傳統(tǒng)回歸模型由于基于歷史統(tǒng)計(jì)量相同,會(huì)有序列間預(yù)測(cè)值接近問(wèn)題,以及不能很好的利用其他拓?fù)浞轿坏慕y(tǒng)計(jì)信息。我們針對(duì)時(shí)間與空間概念,參考了LSTM中的 Gate,通過(guò)點(diǎn)乘與后續(xù)連接,增強(qiáng)時(shí)間/空間特征在模型中的區(qū)分度,并且相對(duì)于普通全連接網(wǎng)絡(luò)更好建模了時(shí)間/空間信息與統(tǒng)計(jì)特征的組合能力。最終結(jié)果序列間預(yù)測(cè)值方差顯著增加,提升了模型精度與相對(duì)于樹模型的模型差異性。

同時(shí),在基于時(shí)間/空間的點(diǎn)乘優(yōu)化時(shí)間序列取得增益后,我們?yōu)榱诉M(jìn)一步建模時(shí)間序列,進(jìn)行了 RNN 模型的嘗試。使用 RNN 模型的主要好處是,能夠根據(jù)上一步的模型預(yù)測(cè)信息結(jié)合當(dāng)前步的輸入特征進(jìn)行預(yù)測(cè)當(dāng)前步,并且可以對(duì)不同狀態(tài)學(xué)習(xí)不同的權(quán)重。這樣可以進(jìn)一步使得序列間結(jié)果的方差,與常規(guī)回歸建模方式形成很好的融合差異性。

下圖為RNN (Seq2Seq-GRU)模型結(jié)構(gòu):

在RNN每一步從上一步獲得預(yù)測(cè)結(jié)果,并加入到當(dāng)前時(shí)間步的輸入特征中(以天氣預(yù)報(bào)特征為主)。考慮到了模型精度以及訓(xùn)練速度,模型在 Encoder 和 Decoder 中均使用 GRU。

除采用在 DNN 模型中的 a/b/c/d/g 優(yōu)化方法,RNN 模型有如下優(yōu)化:

在 Seq2Seq 網(wǎng)絡(luò)中加入狀態(tài)間隱藏層正則項(xiàng)[5],解決模型不穩(wěn)定的問(wèn)題。

傳統(tǒng)的 Seq2Seq 模型中 decoder 的輸入信息主要來(lái)自 encoder, 由于本次任務(wù)的預(yù)測(cè)序列比較長(zhǎng),并且我們有天氣預(yù)報(bào)這種未來(lái)信息可以用,因此我們針對(duì)decoder 的每個(gè)時(shí)態(tài)設(shè)計(jì)了特定的特征 T1-T48(當(dāng)前時(shí)態(tài)的天氣預(yù)報(bào)等其他空氣質(zhì)量特征)。

Seq2Seq 模型訓(xùn)練開銷大并且對(duì)于參數(shù)更敏感,我們使用 Cocob優(yōu)化器[6],結(jié)合梯度截?cái)噙M(jìn)行訓(xùn)練。主要可以通過(guò)預(yù)測(cè)學(xué)習(xí)率加快收斂速度,對(duì)迭代的速度有一定幫助,也可以少量提高模型精度。

由于我們預(yù)測(cè)序列含有 48 狀態(tài),每個(gè)狀態(tài)都依賴于之前狀態(tài)學(xué)習(xí),而空氣質(zhì)量以及天氣預(yù)報(bào)數(shù)據(jù)含有大量噪音,前面序列預(yù)測(cè)不準(zhǔn)確經(jīng)常會(huì)導(dǎo)致后面預(yù)測(cè)偏移較大,我們使用狀態(tài)間正則項(xiàng),可以使得模型更穩(wěn)定,提升模型精度。

由于未來(lái)每個(gè)狀態(tài)均有天氣預(yù)報(bào)特征,我們不同于傳統(tǒng)的 decoder,在未來(lái)時(shí)態(tài)也輸入了本狀態(tài)特征(空氣預(yù)報(bào)等特征),這樣相對(duì)于把這些特征直接輸入到 encoder 端具有更強(qiáng)的表達(dá)能力,并且可以緩解長(zhǎng)序列梯度消失等問(wèn)題。

模型融合

模型融合是算法大賽中常用的提高模型精度方法,有些比賽在競(jìng)爭(zhēng)激烈的后期用了幾十甚至上百模型。由于本次比賽賽制是每天早上 8 點(diǎn)提交,預(yù)測(cè)未來(lái) 2 天成績(jī),相對(duì)于靜態(tài)測(cè)試集更接近真實(shí)工業(yè)屆天級(jí)更新模型場(chǎng)景。為了平衡模型精度和迭代成本,我們用了 5 個(gè)基模型,融合結(jié)構(gòu)主要是 2 層 stacking 結(jié)構(gòu)[7],第1層(L1) 是基模型,主要包括 GBDT/DNN/Seq2Seq 等模型差異以及特征差異,第2層(L2) 模型 L1 模型之后的 7 天數(shù)據(jù)進(jìn)行訓(xùn)練?;诜蔷€性模型的L2 模型有更強(qiáng)的表達(dá)能力,也是我們之前比賽最常用方案之一。

由于天氣數(shù)據(jù)噪音重等數(shù)據(jù)特點(diǎn),采用非線性模型如GBDT易引起模型過(guò)擬合。我們最終根據(jù)融合建模特點(diǎn)采用基于約束的線性模型,并且我們基于時(shí)間,地點(diǎn)等多個(gè)維度進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)不同模型在不同預(yù)測(cè)段之間的相對(duì)精度有一定差異,不同于一個(gè)整體的L2模型,我們對(duì)每一個(gè)預(yù)測(cè)小時(shí)分別求解一個(gè)L2模型,精度有進(jìn)一步提升。相對(duì)于L2在基于約束的線性模型的基礎(chǔ)上基于統(tǒng)計(jì)適當(dāng)引入非線性,取得表達(dá)能力與泛化能力的一個(gè)平衡。

下面是單模型和融合模型的結(jié)果,相對(duì)于更依賴網(wǎng)絡(luò)調(diào)優(yōu)的深度學(xué)習(xí)模型, GBDT 模型更依賴于特征工程,深度學(xué)習(xí)與樹模型本身有較強(qiáng)的差異性產(chǎn)生較大的融合增益。

空氣質(zhì)量預(yù)測(cè)問(wèn)題不同于KDD Cup 早年的一些廣告、推薦類題目,已經(jīng)在工業(yè)屆有了大量應(yīng)用,我們的努力也是做了初步探索。我們先是從數(shù)據(jù)與特征角度出發(fā),對(duì)天氣預(yù)報(bào)做了大量特征以及添加高斯噪音都處理,同時(shí)又在時(shí)間與空間維度進(jìn)行進(jìn)一步添加特征。而單純從特征角度解決問(wèn)題也逐漸遇到瓶頸,我們進(jìn)一步運(yùn)用深度學(xué)習(xí)模型角度對(duì)時(shí)間以及空間角度進(jìn)行進(jìn)一步建模,可以與本身基于大量特征工程的樹模型有很好的補(bǔ)充,為后續(xù)融合打下很好的基礎(chǔ)。之后我們基于多個(gè)單模型優(yōu)化最終的第二層融合模型。

在比賽中做了很多嘗試,我們認(rèn)為這次過(guò)程中比較重要是基于空氣質(zhì)量問(wèn)題的理解以及找到問(wèn)題的關(guān)鍵點(diǎn),在建模過(guò)程中盡量從多方面(如特征+特征)對(duì)關(guān)鍵問(wèn)題進(jìn)行求解,從多個(gè)角度優(yōu)化到高精度的模型是最終融合模型取得效果的基礎(chǔ)與關(guān)鍵。

進(jìn)一步工作

我們?cè)鴩L試用CNN建模地理位置拓?fù)潢P(guān)系,沒(méi)有取得明顯增益,考慮到地理數(shù)據(jù)不夠充足以及時(shí)間有限放棄此嘗試,考慮到基于地理位置的特征帶來(lái)了一定的增益,地理位置的進(jìn)一步建模也是有意思的進(jìn)一步嘗試點(diǎn)。

同時(shí),在比賽中也提供了 5 年的北京歷史空氣質(zhì)量數(shù)據(jù),由于時(shí)間有限我們沒(méi)有使用,數(shù)據(jù)的增加,以及以年為單位進(jìn)行建立周期性特征也是后面的一個(gè)嘗試點(diǎn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:中國(guó)團(tuán)隊(duì)兩冠一亞包攬KDD CUP三項(xiàng)大獎(jiǎng),作者親述技術(shù)細(xì)節(jié)

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    國(guó)產(chǎn)MCU廠商,靠什么從內(nèi)卷脫穎而出

    的競(jìng)爭(zhēng)日益激烈,價(jià)格戰(zhàn)已成常態(tài),MCU市場(chǎng)亦不例外。SIA數(shù)據(jù)顯示,中國(guó)MCU市場(chǎng)占全球25%左右。盡管市場(chǎng)規(guī)模龐大,但國(guó)內(nèi)MCU廠商的產(chǎn)品主要集中在中低端市場(chǎng),同質(zhì)
    的頭像 發(fā)表于 10-22 16:20 ?98次閱讀
    國(guó)產(chǎn)MCU廠商,靠什么從內(nèi)卷<b class='flag-5'>中</b><b class='flag-5'>脫穎而出</b>?

    捷報(bào) | 美格智能成功中標(biāo)中國(guó)電信云芯AI模組招標(biāo)項(xiàng)目

    近期,中國(guó)電信天翼物聯(lián)科技有限公司采購(gòu)公開比選項(xiàng)目招標(biāo)結(jié)果正式出爐,美格智能成功中標(biāo)云芯AI模組CTL03-RV項(xiàng)目,在眾多參標(biāo)廠商脫穎而出,充分彰顯美格智能在智能模組領(lǐng)域深厚的技術(shù)
    的頭像 發(fā)表于 08-14 17:11 ?271次閱讀
    捷報(bào) | 美格智能成功中標(biāo)<b class='flag-5'>中國(guó)</b>電信云芯AI模組招標(biāo)項(xiàng)目

    TE Connectivity AI Cup 第五屆全球競(jìng)賽結(jié)果揭曉 中國(guó)高校團(tuán)隊(duì)連續(xù)兩年奪得桂冠

    中國(guó)上海 - 2024 年 7 月 31 日 - 近日,由全球行業(yè)技術(shù)領(lǐng)先企業(yè)TE Connectivity(以下簡(jiǎn)稱“TE”)主辦的TE AI Cup第五屆全球競(jìng)賽圓滿收官。來(lái)自華南農(nóng)業(yè)大學(xué)
    發(fā)表于 08-01 14:39 ?324次閱讀
    TE Connectivity AI <b class='flag-5'>Cup</b> 第五屆全球競(jìng)賽結(jié)果揭曉 <b class='flag-5'>中國(guó)</b>高校<b class='flag-5'>團(tuán)隊(duì)</b>連續(xù)兩年奪得桂冠

    NAS設(shè)備鐵威馬F4-424是如何從市場(chǎng)脫穎而出

    簡(jiǎn)便又性能卓越的家用NAS,成為了眾多家庭面臨的難題。今天,我們將聚焦于鐵威馬F4-424這款NAS設(shè)備,探討它是如何憑借其出色的性能與易用性,在家用NAS市場(chǎng)脫穎而出,成為家庭用戶的理想之選。
    的頭像 發(fā)表于 07-18 17:28 ?692次閱讀

    解析中國(guó)儲(chǔ)能產(chǎn)業(yè)格局 探索背后發(fā)展之道

    【嗶哥嗶特導(dǎo)讀】?jī)?chǔ)能產(chǎn)業(yè)發(fā)展迅猛,各地競(jìng)爭(zhēng)正酣。今日,就讓我們一起揭開這場(chǎng)儲(chǔ)能區(qū)域競(jìng)爭(zhēng)的神秘面紗,看看哪些地區(qū)脫穎而出,同時(shí)探索它們背后的成功經(jīng)驗(yàn)。 在新能源革命的浪潮,儲(chǔ)能作為能源轉(zhuǎn)型的關(guān)鍵一環(huán)
    的頭像 發(fā)表于 07-11 10:07 ?214次閱讀
    解析<b class='flag-5'>中國(guó)</b>儲(chǔ)能產(chǎn)業(yè)格局 探索背后發(fā)展之道

    易特馳榮獲2024世界智能駕駛挑戰(zhàn)賽(WIDC)銀獎(jiǎng)

    我司任建文擔(dān)任隊(duì)長(zhǎng)的“安全脈脈”團(tuán)隊(duì)從眾多來(lái)自汽車行業(yè)領(lǐng)軍企業(yè)和知名高校80支精英團(tuán)隊(duì)脫穎而出,成功晉級(jí)決賽,并最終斬獲了銀牌。
    的頭像 發(fā)表于 07-01 10:40 ?718次閱讀

    運(yùn)動(dòng)相機(jī)為什么會(huì)脫穎而出

    ? 01 運(yùn)動(dòng)相機(jī)為什么會(huì)脫穎而出 與傳統(tǒng)相機(jī)或手機(jī)拍攝相比,運(yùn)動(dòng)相機(jī)具備防水和耐沖擊的特性,適合在戶外活動(dòng)中使用。運(yùn)動(dòng)相機(jī)通常具有的廣角鏡頭、高分辨率和高幀率的功能,可以拍攝的范圍更廣,畫面也更
    的頭像 發(fā)表于 06-27 16:01 ?429次閱讀
    運(yùn)動(dòng)相機(jī)為什么會(huì)<b class='flag-5'>脫穎而出</b>

    新一代驅(qū)動(dòng)器產(chǎn)品,PI SCALE-iFlex? XLT如何脫穎而出?

    即插即用!作為新一代驅(qū)動(dòng)器產(chǎn)品,看SCALE-iFlex? XLT如何以其獨(dú)特的設(shè)計(jì)和出色的性能,在市場(chǎng)脫穎而出! 在電力電子領(lǐng)域,高效、緊湊且安全的門極驅(qū)動(dòng)器產(chǎn)品設(shè)計(jì)一直是研發(fā)的焦點(diǎn)。隨著儲(chǔ)能
    的頭像 發(fā)表于 05-27 14:55 ?232次閱讀
    新一代驅(qū)動(dòng)器產(chǎn)品,PI SCALE-iFlex? XLT如何<b class='flag-5'>脫穎而出</b>?

    慧視圖像處理板 究竟憑什么脫穎而出?

    圖像處理板的開發(fā)應(yīng)用,有著超十年開發(fā)經(jīng)驗(yàn)的團(tuán)隊(duì)成員,能夠快速進(jìn)行軟硬件的模塊化集成,定制出符合行業(yè)需求的圖像處理板。曾服務(wù)過(guò)安防巡檢、鐵路、空港、高校研究院、事業(yè)研
    的頭像 發(fā)表于 04-30 08:29 ?285次閱讀
    慧視圖像處理板  究竟憑什么<b class='flag-5'>脫穎而出</b>?

    大模型推理顯卡選購(gòu)指南:4090顯卡為何成為不二之選

    開發(fā)者非常關(guān)注的話題。 現(xiàn)在市面上加速卡型號(hào)多如牛毛,但說(shuō)到適用大模型推理的顯卡,那4090顯卡絕對(duì)是現(xiàn)階段“推理王卡”般的存在。論性能不如H100,論價(jià)格不如3090,看似平平無(wú)奇的4090顯卡為何能在眾多競(jìng)爭(zhēng)者脫穎而出,成
    的頭像 發(fā)表于 04-11 11:00 ?642次閱讀
    大模型推理顯卡選購(gòu)指南:4090顯卡<b class='flag-5'>為何</b>成為不二之選

    歷史的佼佼者,F(xiàn)PGA為何能脫穎而出?

    數(shù)字電路有兩大類:組合電路和時(shí)序電路,時(shí)序電路即“組合電路+存儲(chǔ)”。所有組合電路都有對(duì)應(yīng)的真值表,F(xiàn)PGA的可編程邏輯塊的LUT,本質(zhì)上是一個(gè)對(duì)應(yīng)真值表輸出的查找表,可以完成任意組合電路的功能。
    發(fā)表于 02-21 12:33 ?436次閱讀

    回流焊爐選購(gòu)指南:這些國(guó)內(nèi)廠家為何能脫穎而出?

    在現(xiàn)代電子制造業(yè),回流焊爐作為關(guān)鍵的生產(chǎn)設(shè)備,其性能與質(zhì)量直接影響到電子產(chǎn)品的成品率和可靠性。隨著國(guó)內(nèi)電子制造業(yè)的迅猛發(fā)展,回流焊爐的市場(chǎng)需求也日益增長(zhǎng)。那么,在眾多的國(guó)內(nèi)回流焊爐廠家中,究竟哪家的產(chǎn)品更好用呢?本文將從多個(gè)維度對(duì)這一問(wèn)題進(jìn)行分析和探討。
    的頭像 發(fā)表于 01-04 10:34 ?1392次閱讀
    回流焊爐選購(gòu)指南:這些國(guó)內(nèi)廠家<b class='flag-5'>為何能</b><b class='flag-5'>脫穎而出</b>?

    無(wú)刷電機(jī)技術(shù)演進(jìn)與高速風(fēng)筒行業(yè)現(xiàn)狀【其利天下高速風(fēng)筒PCBA方案】

    在市場(chǎng)層面,仿佛大品牌的逐步介入將推動(dòng)高速風(fēng)筒行業(yè)朝著更高水平發(fā)展。對(duì)于小公司而言,保持創(chuàng)新并構(gòu)建良好的產(chǎn)品生態(tài)是關(guān)鍵。觀察這個(gè)行業(yè)的動(dòng)態(tài),我相信未來(lái)將迎來(lái)更多的技術(shù)革新和市場(chǎng)變革,而小公司有望在這場(chǎng)高手如云的競(jìng)技脫穎而出。
    的頭像 發(fā)表于 12-27 21:40 ?1321次閱讀
    無(wú)刷電機(jī)技術(shù)演進(jìn)與高速風(fēng)筒行業(yè)現(xiàn)狀【其利天下高速風(fēng)筒PCBA方案】

    NVG002F語(yǔ)音芯片:低功耗 寬電壓工作與可重復(fù)燒寫脫穎而出

    在芯片日益發(fā)展的時(shí)期,為滿足用戶的需求,九芯一款具有頗高競(jìng)爭(zhēng)力的語(yǔ)音芯片-NVG002F出現(xiàn)在市場(chǎng)上。這款芯片低成本、生產(chǎn)周期短,適合大中小型批量生產(chǎn)以及在2.4V~5.2V寬電壓范圍內(nèi)工作的特性,特別是可重復(fù)燒寫的特點(diǎn),在語(yǔ)音芯片市場(chǎng)脫穎而出。
    的頭像 發(fā)表于 11-29 15:59 ?363次閱讀

    靈犀微光榮獲2023中國(guó)眼谷眼視光創(chuàng)新創(chuàng)業(yè)全球挑戰(zhàn)賽優(yōu)秀獎(jiǎng)

    近日,2023中國(guó)眼谷眼視光創(chuàng)新創(chuàng)業(yè)全球挑戰(zhàn)賽總決賽落下帷幕,經(jīng)過(guò)多輪激烈又精彩的角逐,靈犀微光從眾多的全球前沿眼健康科技項(xiàng)目中脫穎而出,榮獲本次大賽優(yōu)秀獎(jiǎng)。
    的頭像 發(fā)表于 11-15 17:30 ?474次閱讀