寫在前面

之前看了一篇很不錯的外文博客，結(jié)合自己查閱學(xué)習(xí)的一些論文和資料，加上自己的理解，整理了一些內(nèi)容，準(zhǔn)備來跟大家分享關(guān)于文本分割任務(wù)的相關(guān)內(nèi)容。

文本分割任務(wù)的目的是將文本劃分為若干有意義的文本塊，不同的分割目的有不同的分割粒度，比如：詞、句子或者主題。

今天我們將要分享的文本分割任務(wù)的分割粒度聚焦在主題上，這類文本分割任務(wù)也稱為主題分割：識別文本主題的過渡從而將長文本劃分若干具有不同主題的文本塊。

1. 不同的文本形式

文本分割非常實(shí)用。在日常生活學(xué)習(xí)中，我們會接觸到各種各樣的文本：

書面文本，如：博客、文章、新聞等
各種轉(zhuǎn)錄文本（即記錄文本）：
- 電視新聞的轉(zhuǎn)錄
- 播客的轉(zhuǎn)錄
- 電話的轉(zhuǎn)錄
- 在線會議的轉(zhuǎn)錄

這些文本通常都非常長，需要利用文本分割技術(shù)來處理這些文本，將它們按照主題的轉(zhuǎn)移或變化劃分為若干主題段落，每個(gè)主題段落內(nèi)部所表達(dá)的主題一致且連貫，不同主題段落間則描述不同的主題。

當(dāng)然，針對不同的文本，“主題”定義不同。比如：新聞文本分割中，主題可能是指一則新聞故事（Story）；在線會議轉(zhuǎn)錄文本分割中，主題可能指的是不同的會議議題。無論“主題”代表的是什么，利用文本分割技術(shù)劃分長文本最直接的目的都是增加文本的可讀性。

當(dāng)然以上這些文本中可能含有各種會影響文本分割結(jié)果的噪聲，最常見的就是錯別字。當(dāng)然在英文場景下還可能有拼寫錯誤、語法錯誤，在自動轉(zhuǎn)錄的情況下出現(xiàn)使用不當(dāng)?shù)膯卧~。

轉(zhuǎn)錄需要自動識別語音并將所說的內(nèi)容轉(zhuǎn)錄成等效的書面格式（依賴ASR技術(shù)），所以通常來說相對于書面文本，轉(zhuǎn)錄文本中含有更多的噪聲，尤其是在線會議的轉(zhuǎn)錄文本。這點(diǎn)很容易理解，因?yàn)樵诰€會議中，參會人有各種各樣的口音、網(wǎng)絡(luò)連接質(zhì)量也常常不太穩(wěn)定、參會人使用的介質(zhì)（麥克風(fēng)）的質(zhì)量也參差不齊。

2. 文本分割技術(shù)的應(yīng)用場景

通過前面的介紹，我們已經(jīng)了解了文本分割（主題分割）任務(wù)是什么以及它所處理的文本的各種形式，現(xiàn)在我們一起來看看文本分割的應(yīng)用場景。

2.1 增加可讀性

現(xiàn)在給你兩篇文章：一篇沒有任何章節(jié)名稱、沒有任何段落，就只是長長的文本字符串；另一篇分段合理，每個(gè)自然段落過渡合理，邏輯自洽。

你愿意讀哪一篇？不用想，當(dāng)然是第二篇。文本分割最基礎(chǔ)的作用就是將冗長的文本劃分為讀者更易閱讀的一個(gè)個(gè)文本塊，也就是把形如第一篇的文章變成第二篇。

2.2 更全面的摘要

文本摘要技術(shù)是用于總結(jié)提煉文章的。通常我們在閱讀文章前，可以先通過文章的摘要了解內(nèi)容概況，如果感興趣再逐字逐句進(jìn)行精讀。就跟我們挑選要去電影院看的電影一樣，先看簡介，看看是不是自己的菜，免得浪費(fèi)電影票和自己的時(shí)間。

但是，多數(shù)文本摘要模型在處理多主題的文章上效果還沒那么好，生成的摘要通常很難囊括文章所涵蓋的所有主題。

在處理多主題文章時(shí)，一個(gè)很直接且有效的解決方案就是，先利用文本分割模型將文章分成若干個(gè)具有不同主題的文本塊，再利用摘要模型為每個(gè)文本塊生成摘要，在進(jìn)行進(jìn)一步的組織和編排。

2.3 視頻轉(zhuǎn)文章

融合媒體時(shí)代，新聞報(bào)道需要以不同的形式（如：視頻、文章、博客等）分發(fā)至不同的渠道（如：短視頻app、微信、微博等）。借助ASR技術(shù)，我們可以將新聞視頻中的語音文本提取出來并轉(zhuǎn)化成書面格式。為增加可讀性，再利用文本分割技術(shù)將轉(zhuǎn)換的書面文本劃分成有意義的段落，組織成更適合閱讀的形式。

當(dāng)然文本分割技術(shù)在信息檢索、寫作助手、對話建模等等其他NLP下游任務(wù)上也有其相應(yīng)的應(yīng)用。

3. 文本分割任務(wù)的評價(jià)指標(biāo)

文本分割任務(wù)是識別文本主題的過渡從而將長文本劃分若干具有不同主題的文本塊。所以，如下圖所示文本分割模型實(shí)際上就是在對文本中的每個(gè)句子進(jìn)行二分類，判斷每個(gè)句子是否是分割邊界（也就是文本塊的最后一句）。

在這樣一個(gè)任務(wù)上，比較常用的評價(jià)指標(biāo)有：Precision&Recall（也就是我們在《二分類任務(wù)評價(jià)指標(biāo)（中）》介紹過的查準(zhǔn)率和查全率）、Pk、WindowDiff。

3.1 Precision & Recall

3.1 Precision & Recall的含義

既然文本分割（主題分割）本質(zhì)上是在句子級的二分類任務(wù)，那么自然可以使用Precision與Recall，對應(yīng)的含義如下：

Precision（查準(zhǔn)率）：衡量了“被判別為分割邊界的句子中有多少比例是真正的邊界” ；
Recall（查全率）：衡量了“所有真正的分割邊界中有多少比例被模型識別出來了” ；

3.2 Precision & Recall 的問題

然而，Precision&Recall這兩個(gè)指標(biāo)對“near miss”不敏感。

在上圖中，Ref 是 ground truth，每個(gè)塊代表一個(gè)句子，垂直線表示真實(shí)的分割邊界。A-0 與 A-1 是兩個(gè)文本分割模型。

從圖中可以清楚地看到，模型 A-0 預(yù)測的分割邊界非常接近 ground truth，這就是所謂的“near miss”，即預(yù)測結(jié)果與真實(shí)結(jié)果偏離得很少，大概一兩句話。另一方面，模型 A-1 預(yù)測的分割邊界與ground truth 就差得遠(yuǎn)了。

也就是說，雖然兩個(gè)模型都沒有預(yù)測正確，但從“near miss”角度來看，模型 A-0 相對優(yōu)于模型 A-1。但是，Precision&Recall指標(biāo)可不會考慮這些，它們不在乎預(yù)測邊界與真實(shí)邊界的相對距離，只管預(yù)測正確與否，所以 A-0 與 A-1 從Precision、Recall值來看效果是相當(dāng)?shù)摹?/p>

3.2 Pk 指標(biāo)

3.2.1 Pk 指標(biāo)定義

針對 “near miss”， Beeferemen 等人提出了Pk指標(biāo)。

Pk是基于滑動窗口計(jì)算的，窗口大小可以自行指定，如果沒有指定一般就取真實(shí)文本段平均長度的的一半。在滑動窗口的同時(shí)，判斷窗口的兩端的節(jié)點(diǎn)是否屬于同一文本段，并比較真實(shí)結(jié)果與模型預(yù)測的結(jié)果是否一致，最后將不一致的數(shù)量除以滑動次數(shù)即可得到Pk值。所以模型的Pk值越低，說明模型預(yù)測得越好。

Pk指標(biāo)在nltk中有相應(yīng)實(shí)現(xiàn)，可以直接調(diào)用（nltk.pk^[1]）:

下面是Pk的實(shí)現(xiàn)源碼（為了便于大家結(jié)合定義看代碼實(shí)現(xiàn)，小喵已經(jīng)在下面的源代碼中添加了相應(yīng)注釋）：

#Beeferman'sPktextsegmentationevaluationmetric

[docs]defpk(ref,hyp,k=None,boundary='1'):
"""
ComputethePkmetricforapairofsegmentationsAsegmentation
isanysequenceoveravocabularyoftwoitems(e.g."0","1"),
wherethespecifiedboundaryvalueisusedtomarktheedgeofa
segmentation.

>>>'%.2f'%pk('0100'*100,'1'*400,2)
'0.50'
>>>'%.2f'%pk('0100'*100,'0'*400,2)
'0.50'
>>>'%.2f'%pk('0100'*100,'0100'*100,2)
'0.00'

:paramref:thereferencesegmentation
:typeref:strorlist
:paramhyp:thesegmentationtoevaluate
:typehyp:strorlist
:paramk:windowsize,ifNone,settohalfoftheaveragereferencesegmentlength
:typeboundary:strorintorbool
:paramboundary:boundaryvalue
:typeboundary:strorintorbool
float
"""
#若k未指定，則k設(shè)置為真實(shí)分割結(jié)果中文本段平均長度的一半
ifkisNone:
k=int(round(len(ref)/(ref.count(boundary)*2.)))
#不匹配計(jì)數(shù)
err=0
#滑動
foriinxrange(len(ref)-k+1):
#判斷是否屬于同一文本段，只需要判斷窗口內(nèi)是否出現(xiàn)了分割邊界，若出現(xiàn)了就不屬于同一文本段
r=ref[i:i+k].count(boundary)>0
h=hyp[i:i+k].count(boundary)>0
ifr!=h:
err+=1
#pk值為不匹配次數(shù)除以總的滑動次數(shù)
returnerr/(len(ref)-k+1.)

3.2.2 Pk 指標(biāo)問題

Pk指標(biāo)也存在一些問題：

對文本塊大小過于敏感
沒有考慮分割邊界數(shù)量
假負(fù)例比假正例更易受到懲罰
對于“near miss”處罰太多

對Pk指標(biāo)存在的問題感興趣的讀者可以細(xì)讀相關(guān)論文。小喵在這里僅針對“假負(fù)例比假正例更易受到懲罰”展開提一下。

我們來看上面這幅圖，圖中滑動窗口大小為4 (表示在窗口兩端點(diǎn)內(nèi)潛在的分割邊界數(shù)為4)。模型將兩個(gè)真實(shí)的分割邊界都預(yù)測了出來，同時(shí)也多預(yù)測了一個(gè)（即假正例，本來不是分割邊界的被預(yù)測為分割邊界）。

但是從Pk的定義來看，在每一個(gè)窗口內(nèi)，模型預(yù)測與真實(shí)結(jié)果都是一致的，即窗口兩端情況都是一樣的，要么都是在同一文本段內(nèi)，要么都在不同文本段內(nèi)。也就是說只要窗口兩端情況一致，不管窗口內(nèi)部情況如何，Pk都認(rèn)為模型做對了，這樣“假正例”逃脫了懲罰。

3.3 WindowDiff 指標(biāo)

針對Pk指標(biāo)存在的問題，WindowDiff指標(biāo)被提了出來（《A Critique and Improvement of an Evaluation Metric for Text Segmentation》^[2]）。

WindowDiff指標(biāo)也是基于滑動窗口計(jì)算。不同的是，WindowDiff指標(biāo)直接判別在窗口內(nèi)部真實(shí)結(jié)果與預(yù)測結(jié)果分割邊界數(shù)量的異同。

也就是說Pk與WindowDiff的計(jì)算類似，都是在分割結(jié)果上每次移動一個(gè)固定大小的窗口，并在窗口內(nèi)計(jì)算模型預(yù)測結(jié)果與真實(shí)結(jié)果不匹配情況，最終求平均。不同之處在于，Pk是從“窗口兩端的句子是否位于同一個(gè)文本”的角度來判斷，而WindowDiff則是根據(jù)“窗口內(nèi)所包含的分割邊界個(gè)數(shù)”來判斷。

同樣地，模型的WindowDiff值越低，說明模型預(yù)測的分割邊界與真實(shí)的分割邊界越接近，模型預(yù)測得越好。

WindowDiff在nltk中也有相應(yīng)的實(shí)現(xiàn)（nltk.windowdiff()^[3]）：

下面是WindowDiff的實(shí)現(xiàn)源碼（小喵也在代碼中添加了相應(yīng)注釋）：

defwindowdiff(seg1,seg2,k,boundary="1",weighted=False):
"""
Computethewindowdiffscoreforapairofsegmentations.A
segmentationisanysequenceoveravocabularyoftwoitems
(e.g."0","1"),wherethespecifiedboundaryvalueisusedto
marktheedgeofasegmentation.

>>>s1="000100000010"
>>>s2="000010000100"
>>>s3="100000010000"
>>>'%.2f'%windowdiff(s1,s1,3)
'0.00'
>>>'%.2f'%windowdiff(s1,s2,3)
'0.30'
>>>'%.2f'%windowdiff(s2,s3,3)
'0.80'

:paramseg1:asegmentation
:typeseg1:strorlist
:paramseg2:asegmentation
:typeseg2:strorlist
:paramk:windowwidth
:typek:int
:paramboundary:boundaryvalue
:typeboundary:strorintorbool
:paramweighted:usetheweightedvariantofwindowdiff
:typeweighted:boolean
float
"""
#句子數(shù)相同
iflen(seg1)!=len(seg2):
raiseValueError("Segmentationshaveunequallength")
ifk>len(seg1):
raiseValueError("Windowwidthkshouldbesmallerorequalthansegmentationlengths")
#不匹配計(jì)數(shù)
wd=0
#滑動
foriinrange(len(seg1)-k+1):
#預(yù)測結(jié)果與真實(shí)結(jié)果在窗口內(nèi)的分割邊界數(shù)的差值
ndiff=abs(seg1[i:i+k].count(boundary)-seg2[i:i+k].count(boundary))
ifweighted:
wd+=ndiff
else:
#分割邊界不相同，即邊界數(shù)差值不為人零時(shí)，不匹配計(jì)數(shù)加1
wd+=min(1,ndiff)
#不匹配次數(shù)除以總的滑動次數(shù)
returnwd/(len(seg1)-k+1.)

總結(jié)

在今天的文章中，小喵跟大家一起學(xué)習(xí)了什么是文本分割（主題分割）、文本分割任務(wù)的應(yīng)用場景以及文本分割任務(wù)的相關(guān)評價(jià)指標(biāo)，如：Precision&Recall、Pk、WindowDiff。

希望大家通過本文能夠?qū)ξ谋痉指钊蝿?wù)有一個(gè)基本的認(rèn)識。在接下來的文章里，小喵將跟大家一起閱讀文本分割的相關(guān)論文、學(xué)習(xí)文本分割的相關(guān)模型。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

自動識別

自動識別

+關(guān)注

關(guān)注
3

文章
214

瀏覽量
22802
文本

文本

+關(guān)注

關(guān)注
0

文章
118

瀏覽量
17047

原文標(biāo)題：總結(jié)

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

便攜式示波器的技術(shù)原理和應(yīng)用場景

便攜式示波器作為示波器的一種，具有體積小、重量輕、便于攜帶等特點(diǎn)，在多個(gè)領(lǐng)域有著廣泛的應(yīng)用。以下是對其技術(shù)原理和應(yīng)用場景的詳細(xì)介紹：一、技術(shù)原理便攜式示波器的基本原理與傳統(tǒng)示波器相同，都是通過采集

發(fā)表于 10-24 14:31

實(shí)時(shí)示波器的技術(shù)原理和應(yīng)用場景

實(shí)時(shí)示波器是一種高性能的電子測量儀器，其技術(shù)原理和應(yīng)用場景對于電子工程和通信技術(shù)領(lǐng)域具有重要意義。以下是對實(shí)時(shí)示波器的技術(shù)原理和應(yīng)用場景的詳

發(fā)表于 10-23 14:22

源測量單元設(shè)備的技術(shù)原理和應(yīng)用場景

源測量單元（SMU）設(shè)備是一種集成了精密電源（PPS）和高性能數(shù)字萬用表（DMM）功能的測試設(shè)備。以下是對其技術(shù)原理和應(yīng)用場景的詳細(xì)解析：一、技術(shù)原理集成功能： SMU在單個(gè)儀器中集成了電源

發(fā)表于 10-22 11:10

頻率計(jì)數(shù)器的技術(shù)原理和應(yīng)用場景

頻率計(jì)數(shù)器，又稱頻率計(jì)，是一種專門用于測量信號頻率的電子測量儀器。以下是對其技術(shù)原理和應(yīng)用場景的詳細(xì)分析：一、技術(shù)原理頻率計(jì)數(shù)器的技術(shù)原理基于周期計(jì)數(shù)

發(fā)表于 10-18 14:03

參數(shù)分析儀的技術(shù)原理和應(yīng)用場景

參數(shù)分析儀的技術(shù)原理和應(yīng)用場景因其具體類型和用途的不同而有所差異。以下是對參數(shù)分析儀技術(shù)原理和應(yīng)用場景的詳細(xì)歸納： 技術(shù)原理基于物理性質(zhì)的

發(fā)表于 10-17 14:42

太陽膜測試儀的技術(shù)原理和應(yīng)用場景

太陽膜測試儀的技術(shù)原理和應(yīng)用場景可以詳細(xì)闡述如下：技術(shù)原理太陽膜測試儀的技術(shù)原理主要基于光學(xué)測量和物理定律。具體來說，它通過模擬太陽光中的各種波長（主要是紫外線、可見光和紅外線）的輻射

發(fā)表于 09-29 14:18

超聲波測厚儀的技術(shù)原理和應(yīng)用場景

超聲波測厚儀的技術(shù)原理和應(yīng)用場景詳細(xì)如下：技術(shù)原理超聲波測厚儀利用超聲波脈沖反射原理來測量材料的厚度。具體工作原理如下：發(fā)射超聲波脈沖：測厚儀的探頭（也稱為換能器）向被測物體發(fā)射一束高頻超聲波脈沖

發(fā)表于 09-27 15:06

智能IC卡測試設(shè)備的技術(shù)原理和應(yīng)用場景

智能IC卡測試設(shè)備的技術(shù)原理和應(yīng)用場景，可以從以下幾個(gè)方面進(jìn)行闡述：技術(shù)原理智能IC卡測試設(shè)備的技術(shù)原理主要圍繞IC卡的通信和數(shù)據(jù)處理機(jī)制展開。IC卡（包括智能IC卡）通常內(nèi)置有微電子

發(fā)表于 09-26 14:27

NFC協(xié)議分析儀的技術(shù)原理和應(yīng)用場景

NFC協(xié)議分析儀的技術(shù)原理和應(yīng)用場景可以詳細(xì)闡述如下：技術(shù)原理NFC（Near Field Communication，近場通信）協(xié)議分析儀是一種用于分析NFC通信協(xié)議和性能的專業(yè)設(shè)備。其技術(shù)

發(fā)表于 09-25 14:45

LCR數(shù)字電橋的技術(shù)原理和應(yīng)用場景

LCR數(shù)字電橋是一種高精度的電子測量儀器，其技術(shù)原理和應(yīng)用場景可以詳細(xì)闡述如下：技術(shù)原理LCR數(shù)字電橋基于電學(xué)濾波理論和數(shù)字技術(shù)，通過信號源、自動調(diào)諧電路、比例放大器以及A/D轉(zhuǎn)換器等

發(fā)表于 09-19 16:47

脈沖式線圈測試儀的技術(shù)原理和應(yīng)用場景

脈沖式線圈測試儀，也被稱為數(shù)字式匝間絕緣測試儀，其技術(shù)原理和應(yīng)用場景如下：技術(shù)原理脈沖式線圈測試儀的技術(shù)原理主要基于電磁感應(yīng)和瞬態(tài)波形分析。具體來說，測試儀會對標(biāo)準(zhǔn)線圈繞組和被測試?yán)@組

發(fā)表于 09-18 14:29

卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用

在自然語言處理（NLP）領(lǐng)域，文本分類一直是一個(gè)重要的研究方向。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，簡稱CNN）在圖像識別領(lǐng)域取得了

發(fā)表于 07-01 16:25 ?510次閱讀

NanoEdge AI的技術(shù)原理、應(yīng)用場景及優(yōu)勢

能耗并提高數(shù)據(jù)安全性。本文將對 NanoEdge AI 的技術(shù)原理、應(yīng)用場景以及優(yōu)勢進(jìn)行綜述。 1、技術(shù)原理 NanoEdge AI 的核心技術(shù)包括邊緣計(jì)算、神經(jīng)網(wǎng)絡(luò)壓縮和低功耗硬

發(fā)表于 03-12 08:09

AG32VF-MIPI應(yīng)用場景

MIPI接口技術(shù)在圖像和視頻傳輸中的應(yīng)用越來越廣泛，應(yīng)用場景也在不斷拓展，而不僅限于移動設(shè)備。MIPI接口在物聯(lián)網(wǎng)、智能家居、智能監(jiān)控、智能電視、智能汽車等領(lǐng)域也得到廣泛應(yīng)用。 MIPI還可

發(fā)表于 01-22 08:56

人工智能中文本分類的基本原理和關(guān)鍵技術(shù)

在本文中，我們?nèi)嫣接懥?b class='flag-5'>文本分類技術(shù)的發(fā)展歷程、基本原理、關(guān)鍵技術(shù)、深度學(xué)習(xí)的應(yīng)用，以及從RNN到Transformer的技術(shù)演進(jìn)。文章詳細(xì)介紹了各種模型的原理和實(shí)戰(zhàn)應(yīng)用，旨在提供對

發(fā)表于 12-16 11:37 ?1107次閱讀

搜索歷史