又嫩又硬又黄又爽的视频,大肥臀风间由美中文字幕,午夜y视频

1.問(wèn)題

Kaggle競(jìng)賽Bag of Words Meets Bags of Popcorn是電影評(píng)論（review）的情感分析，可以視作為短文本的二分類問(wèn)題（正向、負(fù)向）。標(biāo)注數(shù)據(jù)集長(zhǎng)這樣：

傳統(tǒng)方法和深度學(xué)習(xí)的情感分析

評(píng)價(jià)指標(biāo)是AUC。因此，在測(cè)試數(shù)據(jù)集上應(yīng)該給出概率而不是類別；即為predict_proba而不是predict：

# random frorest result = forest.predict_proba(test_data_features)[:, 1] # not `predict` result = forest.predict(test_data_features)

采用BoW特征、RF (random forest)分類器，預(yù)測(cè)類別的AUC為0.84436，預(yù)測(cè)概率的AUC則為0.92154。

2.分析

傳統(tǒng)方法

傳統(tǒng)方法一般會(huì)使用到兩種特征：BoW (bag of words)，n-gram。BoW忽略了詞序，只是單純對(duì)詞計(jì)數(shù)；而n-gram則是考慮到了詞序，比如bigram詞對(duì)"dog run"、"run dog"是兩個(gè)不同的特征。BoW可以用CountVectorizer向量化：

from sklearn.feature_extrac tion.text import CountVectorizer vectorizer = CountVectorizer(analyzer="word", tokenizer=None, preprocessor=None, stop_words=None, max_features=5000) train_data_features = vectorizer.fit_transform(clean_train_reviews)

在一個(gè)句子中，不同的詞重要性是不同的；需要用TFIDF來(lái)給詞加權(quán)重。n-gram特征則可以用TfidfVectorizer向量化：

from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = TfidfVectorizer(max_features=40000, ngram_range=(1, 3), sub linear_tf=True) train_x = vectorizer.fit_transform(clean_train_reviews)

使用unigram、bigram、trigram特征 + RF分類器，AUC為0.93058；如果改成LR分類器，則AUC為0.96330。

深度學(xué)習(xí)

競(jìng)賽tutorial給出用word2vec詞向量特征來(lái)做分類，并兩個(gè)生成特征思路：

對(duì)每一條評(píng)論的所有詞向量求平均，將其平均值作為改評(píng)論的特征；

對(duì)訓(xùn)練的詞向量做聚類，然后對(duì)評(píng)論中的詞類別進(jìn)行計(jì)數(shù)，把這種bag-of-centroids作為特征。

把生成這種特征喂給分類器，進(jìn)行分類。但是，這種方法的AUC不是太理想（在0.91左右）。無(wú)論是做平均還是聚類，一方面丟失了詞向量的特征，另一方面忽略了詞序還有詞的重要性。因此，分類效果不如tfidf化的n-gram。

大神Mikolov在推出word2vec之后，又鼓搗出了doc2vec（gensim有實(shí)現(xiàn)）。簡(jiǎn)單地說(shuō)，就是可以把一段文本變成一個(gè)向量。與word2vec不同的是，參數(shù)除了doc對(duì)應(yīng)的詞列表外，還有類別（TaggedDocument)。結(jié)果證明doc2vec的效果還不如word2vec生成特征，AUC只有0.87915。

doc2vec = Doc2Vec(sentences, workers=8, size=300, min_count=40, window=10, sample=1e-4)

pangolulu嘗試把BoW與doc2vec做ensemble，采用stacking的思路——L1層BoW特征做LR分類、doc2vec特征做RBF-SVM分類，L2層將L1層的預(yù)測(cè)概率組合成一個(gè)新特征，喂給LR分類器；多次迭代后求平均。ensemble結(jié)構(gòu)圖如下：

傳統(tǒng)方法和深度學(xué)習(xí)的情感分析

以上所有方法的AUC對(duì)比如下：

傳統(tǒng)方法和深度學(xué)習(xí)的情感分析

3.參考資料：

[1] Zygmunt Z.,Classifying text with bag-of-words: a tutorial.

[2] Michael Czerny,Modern Methods for Sentiment Analysis.

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5431

瀏覽量
120790

原文標(biāo)題：【從傳統(tǒng)方法到深度學(xué)習(xí)】情感分析

文章出處：【微信號(hào)：AI_shequ，微信公眾號(hào)：人工智能愛(ài)好者社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

微表情識(shí)別-深度學(xué)習(xí)探索情感

來(lái)源：易百納技術(shù)社區(qū) 隨著人工智能技術(shù)的不斷進(jìn)步，深度學(xué)習(xí)成為計(jì)算機(jī)視覺(jué)領(lǐng)域的重要技術(shù)。微表情識(shí)別作為人類情感分析的一種重要手段，受到了越來(lái)越多的關(guān)注。本文將介紹基于

發(fā)表于 08-14 17:27 ?1961次閱讀

微表情識(shí)別-<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>探索<b class='flag-5'>情感</b>

#硬聲創(chuàng)作季 #深度學(xué)習(xí) 深度學(xué)習(xí)基礎(chǔ)-7.1.1 情感分析及傳統(tǒng)求解方法

深度學(xué)習(xí)

水管工

發(fā)布于 :2022年10月27日 18:30:08

[7.1]--7.1情感分析及傳統(tǒng)求解方法

深度學(xué)習(xí)

jf_60701476

發(fā)布于 :2022年12月01日 02:28:28

圖像分類的方法之深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)

實(shí)際情況非常復(fù)雜，傳統(tǒng)的分類方法不堪重負(fù)?，F(xiàn)在，我們不再試圖用代碼來(lái)描述每一個(gè)圖像類別，決定轉(zhuǎn)而使用機(jī)器學(xué)習(xí)的方法處理圖像分類問(wèn)題。目前，許多研究者使用CNN等

發(fā)表于 09-28 19:43 ?0次下載

基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型分析文本的情感傾向

神經(jīng)網(wǎng)絡(luò)模型均未考慮句子的結(jié)構(gòu)信息，并且在訓(xùn)練時(shí)很容易發(fā)生過(guò)擬合。針對(duì)這兩方面的不足，使用基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型分析文本的情感傾向，采用分段池化的策略將句子結(jié)構(gòu)考慮進(jìn)來(lái)，分段提

發(fā)表于 11-23 15:10 ?11次下載

如何提取文本實(shí)體？深度學(xué)習(xí)遠(yuǎn)遠(yuǎn)領(lǐng)先傳統(tǒng)算法

文本實(shí)體提取是自然語(yǔ)言處理（NLP）的主要任務(wù)之一。隨著近期深度學(xué)習(xí)領(lǐng)域快速發(fā)展，我們可以將這些算法應(yīng)用到 NLP 任務(wù)中，并得到準(zhǔn)確率遠(yuǎn)超傳統(tǒng)方法的結(jié)果。我嘗試過(guò)分別使用

發(fā)表于 07-13 08:33 ?6685次閱讀

如何提取文本實(shí)體？<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>遠(yuǎn)遠(yuǎn)領(lǐng)先<b class='flag-5'>傳統(tǒng)</b>算法

基于CD-RBM深度學(xué)習(xí)的產(chǎn)品評(píng)論情感分析

針對(duì)目前大部分情感分析技術(shù)需要人工標(biāo)注建立情感詞典提取情感特征的問(wèn)題，提出一種基于對(duì)比散度一受限玻爾茲曼機(jī)（ CD-RBM）深度

發(fā)表于 12-20 11:24 ?2次下載

基于CD-RBM<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的產(chǎn)品評(píng)論<b class='flag-5'>情感</b><b class='flag-5'>分析</b>

主題種子詞的情感分析方法

方法在自動(dòng)構(gòu)建領(lǐng)域主題種子詞及主題文本基礎(chǔ)上，利用主題種子詞監(jiān)督的情感分析模型（ SAA_SSW）實(shí)現(xiàn)主題及其關(guān)聯(lián)情感的聯(lián)合發(fā)現(xiàn)。實(shí)驗(yàn)結(jié)果表明，相比

發(fā)表于 01-04 14:33 ?1次下載

基于上下文語(yǔ)境的微博情感分析

傳統(tǒng)情感分析方法僅考慮單一文本，對(duì)長(zhǎng)度短小且口語(yǔ)化嚴(yán)重的微博文本情感極性識(shí)別率較低。針對(duì)上述問(wèn)題，提出一種結(jié)合上下文消息的

發(fā)表于 02-24 11:34 ?0次下載

如何使用遷移學(xué)習(xí)的分層注意力網(wǎng)絡(luò)情感分析來(lái)算法的詳細(xì)資料概述

文本情感分析的目的是判斷文本的情感類型。傳統(tǒng)的基于神經(jīng)網(wǎng)絡(luò)的研究方法主要依賴于無(wú)監(jiān)督訓(xùn)練的詞向量，但這些詞向量無(wú)法準(zhǔn)確體現(xiàn)上下文語(yǔ)境關(guān)系;常

發(fā)表于 11-14 09:56 ?19次下載

如何使用情感分析和深度學(xué)習(xí)實(shí)現(xiàn)宏觀經(jīng)濟(jì)預(yù)測(cè)方法

和深度學(xué)習(xí)的預(yù)測(cè)方法（SA-LSTM）。首先考慮微博的強(qiáng)時(shí)效性，確定了微博爬取和情感分析的方法，

發(fā)表于 11-16 10:41 ?15次下載

深度學(xué)習(xí)中圖像分割的方法和應(yīng)用

介紹使圖像分割的方法，包括傳統(tǒng)方法和深度學(xué)習(xí)方法，以及應(yīng)用場(chǎng)景。基于人工智能和深度

發(fā)表于 11-27 10:29 ?3083次閱讀

傳統(tǒng)CV和深度學(xué)習(xí)方法的比較

深度學(xué)習(xí)推動(dòng)了數(shù)字圖像處理領(lǐng)域的極限。但是，這并不是說(shuō)傳統(tǒng)計(jì)算機(jī)視覺(jué)技術(shù)已經(jīng)過(guò)時(shí)了。本文將分析每種方法的優(yōu)缺點(diǎn)。本文的目的是促進(jìn)有關(guān)是否應(yīng)保

發(fā)表于 11-29 17:09 ?1029次閱讀

基于深度學(xué)習(xí)的情感語(yǔ)音識(shí)別模型優(yōu)化策略

情感語(yǔ)音識(shí)別技術(shù)是一種將人類語(yǔ)音轉(zhuǎn)化為情感信息的技術(shù)，其應(yīng)用范圍涵蓋了人機(jī)交互、智能客服、心理健康監(jiān)測(cè)等多個(gè)領(lǐng)域。隨著人工智能技術(shù)的不斷發(fā)展，深度學(xué)習(xí)在

發(fā)表于 11-09 16:34 ?590次閱讀

深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對(duì)比

在人工智能的浪潮中，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)無(wú)疑是兩大核心驅(qū)動(dòng)力。它們各自以其獨(dú)特的方式推動(dòng)著技術(shù)的進(jìn)步，為眾多領(lǐng)域帶來(lái)了革命性的變化。然而，盡管它們都屬于機(jī)器學(xué)習(xí)的范疇，但

發(fā)表于 07-01 11:40 ?929次閱讀