0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

構(gòu)建中文網(wǎng)頁(yè)分類器對(duì)網(wǎng)頁(yè)進(jìn)行文本分類

電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2018-09-13 08:06 ? 次閱讀

網(wǎng)絡(luò)原指用一個(gè)巨大的虛擬畫面,把所有東西連接起來(lái),也可以作為動(dòng)詞使用。在計(jì)算機(jī)領(lǐng)域中,網(wǎng)絡(luò)就是用物理鏈路將各個(gè)孤立的工作站或主機(jī)相連在一起,組成數(shù)據(jù)鏈路,從而達(dá)到資源共享和通信的目的。凡將地理位置不同,并具有獨(dú)立功能的多個(gè)計(jì)算機(jī)系統(tǒng)通過(guò)通信設(shè)備和線路而連接起來(lái),且以功能完善的網(wǎng)絡(luò)軟件(網(wǎng)絡(luò)協(xié)議、信息交換方式及網(wǎng)絡(luò)操作系統(tǒng)等)實(shí)現(xiàn)網(wǎng)絡(luò)資源共享的系統(tǒng),可稱為計(jì)算機(jī)網(wǎng)絡(luò)。網(wǎng)絡(luò)的迅速發(fā)展,使人們不僅面臨信息爆炸,同時(shí)也面臨著如何從浩如煙海的信息中獲取自己所需信息的難題。如何有效地組織和處理海量的信息,并過(guò)濾和管理網(wǎng)絡(luò)資源,已成為必須面對(duì)的問(wèn)題。

為了網(wǎng)頁(yè)信息的有效組織和檢索,人們開(kāi)發(fā)了各種網(wǎng)絡(luò)信息搜索器,在一定程度上確實(shí)提高了網(wǎng)絡(luò)信息的利用率。與文本分類技術(shù)相比較,網(wǎng)頁(yè)分類更加復(fù)雜,這是由網(wǎng)頁(yè)的結(jié)構(gòu)特征決定的,但是網(wǎng)頁(yè)的信息主要是通過(guò)文本的方式向人們傳遞的,所以在對(duì)網(wǎng)頁(yè)分類之前,首先要對(duì)其中的文本進(jìn)行提取,對(duì)所提取的文本分類,最終使網(wǎng)頁(yè)分類問(wèn)題轉(zhuǎn)化為文本分類問(wèn)題。

目前,文本分類技術(shù)的研究比較活躍,已經(jīng)出現(xiàn)了多種文本分類算法,并且被廣泛應(yīng)用于多個(gè)領(lǐng)域:信息檢索、搜索引擎、文本數(shù)據(jù)庫(kù)等。文本分類算法基本是基于概率統(tǒng)計(jì)模型,本文就是基于互信息(MI)提出一種改進(jìn)的特征提取方法,并根據(jù)TFIDF提出一種新的特征權(quán)值計(jì)算方法構(gòu)建中文網(wǎng)頁(yè)分類器。

1 網(wǎng)頁(yè)預(yù)處理

網(wǎng)頁(yè)分類之前首先要進(jìn)行預(yù)處理,實(shí)際上就是HTML解析,把解析出來(lái)的內(nèi)容用于文本分類,選取網(wǎng)頁(yè)中的下面這些文本用于分類:

(1)錨文本。錨文本是網(wǎng)頁(yè)中用于指示所連接網(wǎng)頁(yè)內(nèi)容的提示,由于后面要對(duì)提取的文本進(jìn)行分類,所以只提取文字形式的錨文本。

(2)title文本。這樣的文本可能是網(wǎng)頁(yè)中最重要的標(biāo)簽,必須取得。

(3)meta標(biāo)簽。其重要的功能就是設(shè)置關(guān)鍵字,網(wǎng)頁(yè)的制作者往往都設(shè)置了關(guān)鍵字,來(lái)提高網(wǎng)頁(yè)的搜索點(diǎn)擊率。可以利用meta標(biāo)簽中的有關(guān)文本內(nèi)容進(jìn)行網(wǎng)頁(yè)分類。

(4)主文本。上面這些信息獲取之后,網(wǎng)頁(yè)中剩余的文本信息還在各種HTML標(biāo)簽中,在HTML源文件中,主文本有可能不是連續(xù)出現(xiàn)的。主文本一般是網(wǎng)頁(yè)中文字最集中的較長(zhǎng)的字符串,查看源文件,那些比較長(zhǎng)的字符串是整個(gè)出現(xiàn)在1個(gè)標(biāo)簽中的。

文本首先要確定的問(wèn)題就是表示文本的基本單位,用于表示文本的基本單位通常稱為文本的特征或特征項(xiàng)。中文文本不同于英文文本,英文文本以空格為分隔符,非常明確。而中文文本需要對(duì)其進(jìn)行分詞處理才能得出每個(gè)特征。本文采用中科院計(jì)算技術(shù)研究所漢語(yǔ)詞法分析系統(tǒng)ICTCLAS3.0進(jìn)行分詞。如果把這些對(duì)文本分類沒(méi)有意義的虛詞作為特征,將會(huì)帶來(lái)很大噪音,降低文本分類的效率和準(zhǔn)確率。因此,在提取文本特征時(shí),應(yīng)首先考慮剔除這些對(duì)文本分類沒(méi)有用處的虛詞,而在實(shí)詞中,又以名詞和動(dòng)詞對(duì)于文本的類別特性的表現(xiàn)力最強(qiáng)。

2 特征提取

特征提取就是提取出最能代表某篇文章或某類的特征項(xiàng),以達(dá)到降維的效果從而減少文本分類的計(jì)算量。典型特征提取方法:信息增益(Information Gain),互信息(MI)、文檔頻度(DF)。傳統(tǒng)的MI特征提取方法:

計(jì)算出所有特征詞的統(tǒng)計(jì)值后,從大到小進(jìn)行排序,然后根據(jù)需要從上到下選取一定數(shù)量的特征詞構(gòu)建文本分類的特征詞庫(kù)。

3 特征加權(quán)及向量化

TFIDF算法及其改進(jìn)型[5]有多種公式,本文使用一種新的改進(jìn)的TF-IDF公式來(lái)計(jì)算特征詞的權(quán)重。TF-IDF公式有很多變種,比較常見(jiàn)的TF-IDF公式:

文本分類



:

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • HTML
    +關(guān)注

    關(guān)注

    0

    文章

    277

    瀏覽量

    33647
  • 分類器
    +關(guān)注

    關(guān)注

    0

    文章

    152

    瀏覽量

    13159
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    118

    瀏覽量

    17047
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    pyhanlp文本分類與情感分析

    得到一個(gè)分類,利用該分類,我們就可以進(jìn)行文本分類了。IClassifier classifier = new NaiveBayesCla
    發(fā)表于 02-20 15:37

    TensorFlow的CNN文本分類

    在TensorFlow中實(shí)現(xiàn)CNN進(jìn)行文本分類(譯)
    發(fā)表于 10-31 09:27

    NLPIR平臺(tái)在文本分類方面的技術(shù)解析

    一下NLPIR大數(shù)據(jù)語(yǔ)義智能分析系統(tǒng)是怎樣實(shí)現(xiàn)文本分類的。NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)的文本分類有兩種模式:專家規(guī)則分類與機(jī)器學(xué)習(xí)分類。專家規(guī)則
    發(fā)表于 11-18 17:46

    基于文本分類網(wǎng)頁(yè)排序算法

             隨著web 技術(shù)的發(fā)展,好的網(wǎng)頁(yè)排序算法越來(lái)越重要。本文主要討論了網(wǎng)頁(yè)排序應(yīng)當(dāng)考慮的因素如網(wǎng)頁(yè)更新時(shí)間等。在對(duì)這些因素
    發(fā)表于 09-12 11:29 ?8次下載

    基于AdaBoost_Bayes算法的中文文本分類系統(tǒng)

    基于AdaBoost_Bayes算法的中文文本分類系統(tǒng)_徐凱
    發(fā)表于 01-07 18:56 ?2次下載

    融合詞語(yǔ)類別特征和語(yǔ)義的短文本分類方法

    LDA主題模型從背景知識(shí)中選擇最優(yōu)主題形成新的短文本特征,在此基礎(chǔ)上建立分類進(jìn)行分類。采用支持向量機(jī)SVM與是近鄰法k-NN
    發(fā)表于 11-22 16:29 ?0次下載
    融合詞語(yǔ)類別特征和語(yǔ)義的短<b class='flag-5'>文本分類</b>方法

    基于級(jí)聯(lián)式分類網(wǎng)頁(yè)分類方法

    針對(duì)海量網(wǎng)頁(yè)在線自動(dòng)高效獲取網(wǎng)頁(yè)分類系統(tǒng)設(shè)計(jì)中如何更有效地平衡準(zhǔn)確度與資源開(kāi)銷之間的矛盾問(wèn)題,提出一種基于級(jí)聯(lián)式分類
    發(fā)表于 12-05 08:44 ?0次下載
    基于級(jí)聯(lián)式<b class='flag-5'>分類</b><b class='flag-5'>器</b>的<b class='flag-5'>網(wǎng)頁(yè)</b><b class='flag-5'>分類</b>方法

    textCNN論文與原理——短文本分類

    是處理圖片的torchvision,而處理文本的少有提及,快速處理文本數(shù)據(jù)的包也是有的,那就是torchtext[1]。下面還是結(jié)合上一個(gè)案例:【深度學(xué)習(xí)】textCNN論文與原理——短文本分類(基于pytorch)[2],使用
    的頭像 發(fā)表于 12-31 10:08 ?2468次閱讀
    textCNN論文與原理——短<b class='flag-5'>文本分類</b>

    基于深度神經(jīng)網(wǎng)絡(luò)的文本分類分析

      隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,許多研究者嘗試?yán)蒙疃葘W(xué)習(xí)來(lái)解決文本分類問(wèn)題,特別是在卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)方面,出現(xiàn)了許多新穎且有效的分類方法。對(duì)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類問(wèn)題進(jìn)行
    發(fā)表于 03-10 16:56 ?37次下載
    基于深度神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>文本分類</b>分析

    結(jié)合BERT模型的中文文本分類算法

    針對(duì)現(xiàn)有中文短文夲分類算法通常存在特征稀疏、用詞不規(guī)范和數(shù)據(jù)海量等問(wèn)題,提出一種基于Transformer的雙向編碼表示(BERT)的中文文本分
    發(fā)表于 03-11 16:10 ?6次下載
    結(jié)合BERT模型的<b class='flag-5'>中文文本分類</b>算法

    基于LSTM的表示學(xué)習(xí)-文本分類模型

    的關(guān)鍵。為了獲得妤的文本表示,提高文本分類性能,構(gòu)建了基于LSTM的表示學(xué)習(xí)-文本分類模型,其中表示學(xué)習(xí)模型利用語(yǔ)言模型為文本分類模型提供初
    發(fā)表于 06-15 16:17 ?18次下載

    帶你從頭構(gòu)建文本分類

    文本分類是 NLP 中最常見(jiàn)的任務(wù)之一, 它可用于廣泛的應(yīng)用或者開(kāi)發(fā)成程序,例如將用戶反饋文本標(biāo)記為某種類別,或者根據(jù)客戶文本語(yǔ)言自動(dòng)歸類。另外向我們平時(shí)見(jiàn)到的郵件垃圾過(guò)濾器也是文本分類
    的頭像 發(fā)表于 03-22 10:49 ?3416次閱讀

    深度學(xué)習(xí)——如何用LSTM進(jìn)行文本分類

    簡(jiǎn)介 主要內(nèi)容包括 如何將文本處理為Tensorflow LSTM的輸入 如何定義LSTM 用訓(xùn)練好的LSTM進(jìn)行文本分類 代碼 導(dǎo)入相關(guān)庫(kù) #coding=utf-8 import
    的頭像 發(fā)表于 10-21 09:57 ?1532次閱讀

    PyTorch文本分類任務(wù)的基本流程

    文本分類是NLP領(lǐng)域的較為容易的入門問(wèn)題,本文記錄文本分類任務(wù)的基本流程,大部分操作使用了**torch**和**torchtext**兩個(gè)庫(kù)。 ## 1. 文本數(shù)據(jù)預(yù)處理
    的頭像 發(fā)表于 02-22 14:23 ?1020次閱讀

    NLP中的遷移學(xué)習(xí):利用預(yù)訓(xùn)練模型進(jìn)行文本分類

    遷移學(xué)習(xí)徹底改變了自然語(yǔ)言處理(NLP)領(lǐng)域,允許從業(yè)者利用預(yù)先訓(xùn)練的模型來(lái)完成自己的任務(wù),從而大大減少了訓(xùn)練時(shí)間和計(jì)算資源。在本文中,我們將討論遷移學(xué)習(xí)的概念,探索一些流行的預(yù)訓(xùn)練模型,并通過(guò)實(shí)際示例演示如何使用這些模型進(jìn)行文本分類。我們將使用擁抱面轉(zhuǎn)換庫(kù)來(lái)實(shí)現(xiàn)。
    發(fā)表于 06-14 09:30 ?411次閱讀