人妻出轨无码中文一区二区,欧美日韩高清观看一区二区

在2020年初開(kāi)始的新冠病毒蔓延影響下，NLPCC 2020采取線(xiàn)上+線(xiàn)下的會(huì)議方式，線(xiàn)上線(xiàn)下共繳費(fèi)注冊(cè)496人，其中現(xiàn)場(chǎng)參會(huì)總?cè)藬?shù)達(dá)372人，線(xiàn)上參會(huì)人數(shù)124人，另有15個(gè)贊助單位參展。匯聚了眾多國(guó)內(nèi)外NLP領(lǐng)域的知名學(xué)者。本次會(huì)議總投稿數(shù)是445篇，會(huì)議有效投稿404篇。其中，主會(huì)有效總投稿377篇，Workshop有效投稿27篇。在主會(huì)377篇有效投稿中，英文論文315篇，中文論文62篇；接收Oral論文83篇，其中英文論文70篇，中文論文13篇，錄用率為22%；接收Poster 論文30篇。Workshop共計(jì)錄取14篇論文。在本次會(huì)議上評(píng)選出最佳論文、最佳學(xué)生論文各1篇，并進(jìn)行了頒獎(jiǎng)儀式。來(lái)自清華大學(xué)朱小燕、黃民烈團(tuán)隊(duì)的王義達(dá)作為一作發(fā)表的《A Large-Scale Chinese Short-Text Conversation Dataset》獲得了最佳學(xué)生論文，以下是王義達(dá)本人對(duì)獲獎(jiǎng)?wù)撐牡挠H自解讀。

基于Transformer的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型極大地促進(jìn)了開(kāi)放領(lǐng)域?qū)υ?huà)的研究進(jìn)展。然而目前這一技術(shù)在中文對(duì)話(huà)領(lǐng)域并未被廣泛應(yīng)用，主要原因在于目前缺乏大規(guī)模高質(zhì)量的中文對(duì)話(huà)開(kāi)源數(shù)據(jù)。為了推動(dòng)中文對(duì)話(huà)領(lǐng)域的研究，彌補(bǔ)中文對(duì)話(huà)語(yǔ)料不足這一問(wèn)題，我們發(fā)布了一個(gè)包含1200萬(wàn)對(duì)話(huà)的大規(guī)模中文對(duì)話(huà)數(shù)據(jù)集LCCC，并開(kāi)源了在LCCC上預(yù)訓(xùn)練的大規(guī)模中文對(duì)話(huà)生成模型CDial-GPT。開(kāi)源地址：https://github.com/thu-coai/CDial-GPT 1

LCCC數(shù)據(jù)集的構(gòu)建

LCCC（Large-scale Cleaned Chinese Conversation）數(shù)據(jù)集有LCCC-base與LCCC-large兩個(gè)版本，其中LCCC-base和LCCC-large中各包含6.8M和12M對(duì)話(huà)。這些數(shù)據(jù)是從79M原始對(duì)話(huà)數(shù)據(jù)中經(jīng)過(guò)嚴(yán)格清洗得到的，也是目前所開(kāi)源的規(guī)模最大、清洗最嚴(yán)格的中文對(duì)話(huà)數(shù)據(jù)集。

表1. 被過(guò)濾掉的噪音數(shù)據(jù) 開(kāi)放領(lǐng)域?qū)υ?huà)數(shù)據(jù)的構(gòu)建通常有三種方式：1、抽取劇本對(duì)話(huà)；2、人工眾包構(gòu)建對(duì)話(huà)；3、爬取社交媒體上用戶(hù)的交流記錄。使用第一種方式構(gòu)建的對(duì)話(huà)在內(nèi)容上依賴(lài)于特定劇情和場(chǎng)景，與日常對(duì)話(huà)有較大差異。使用第二種方式構(gòu)建的對(duì)話(huà)質(zhì)量最高，但是由于人力成本過(guò)高，無(wú)法使用這一方式構(gòu)建大規(guī)模數(shù)據(jù)集。使用第三種方式可以較為廉價(jià)地獲取大規(guī)模對(duì)話(huà)數(shù)據(jù)，因此LCCC數(shù)據(jù)集中的原始數(shù)據(jù)主要使用第三種方式收集。我們同時(shí)注意到，來(lái)自社交媒體的對(duì)話(huà)數(shù)據(jù)中存在各種各樣的噪音（表1），為了保證LCCC中對(duì)話(huà)數(shù)據(jù)的質(zhì)量，我們?cè)O(shè)計(jì)了如下數(shù)據(jù)獲取和清洗策略：

1. 數(shù)據(jù)獲取我們的數(shù)據(jù)獲取流程分為兩個(gè)階段。在第一個(gè)階段，我們挑選了微博上由專(zhuān)業(yè)媒體團(tuán)隊(duì)運(yùn)營(yíng)的新聞媒體賬號(hào)，然后收集了一批在這些新聞媒體下留言互動(dòng)的活躍用戶(hù)。在第二個(gè)階段中，我們收集了這些活躍用戶(hù)微博下的留言互動(dòng)，并將其作為我們的原始數(shù)據(jù)。微博下的留言回復(fù)一般以一個(gè)樹(shù)形結(jié)構(gòu)展開(kāi)，我們將這一樹(shù)形回復(fù)結(jié)構(gòu)中每一條從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑作為一個(gè)完整對(duì)話(huà)，最終共收集到了79M對(duì)話(huà)數(shù)據(jù)。

2. 數(shù)據(jù)清洗為了保證數(shù)據(jù)質(zhì)量，我們對(duì)收集到的原始對(duì)話(huà)數(shù)據(jù)進(jìn)行了兩個(gè)階段的清洗。第一階段的清洗主要基于手工規(guī)則。這一階段的主要目的是為了過(guò)濾掉對(duì)話(huà)數(shù)據(jù)中的明顯噪聲，如臟話(huà)、特殊符號(hào)、病句、復(fù)讀機(jī)句式、廣告、違法暴力信息等。在這一階段中，我們花費(fèi)了數(shù)周時(shí)間使用人工排查的方式優(yōu)化規(guī)則。

第二階段的清洗主要基于分類(lèi)器過(guò)濾。在這一階段中，我們基于BERT訓(xùn)練了兩個(gè)文本分類(lèi)器，第一個(gè)分類(lèi)器主要用于甄別那些無(wú)法通過(guò)規(guī)則檢測(cè)的噪音，如：1、語(yǔ)義模糊、語(yǔ)法錯(cuò)亂或有嚴(yán)重拼寫(xiě)錯(cuò)誤的語(yǔ)句；2、時(shí)效性太強(qiáng)的對(duì)話(huà)；3、與上下文語(yǔ)義不相關(guān)的回復(fù)。第二個(gè)分類(lèi)器主要用于甄別那些需要依賴(lài)額外上下文信息，如圖片或視頻等，才能理解的對(duì)話(huà)。這兩個(gè)分類(lèi)器均使用人工標(biāo)注數(shù)據(jù)訓(xùn)練，我們?yōu)槠錁?biāo)注了共計(jì)11萬(wàn)對(duì)話(huà)數(shù)據(jù)，最終的分類(lèi)器在人工標(biāo)注的測(cè)試集上分別達(dá)到了73.76%和77.60%的準(zhǔn)確率。我們通過(guò)F1-score選擇閾值來(lái)過(guò)濾得到高質(zhì)量的對(duì)話(huà)數(shù)據(jù)。

表2. 數(shù)據(jù)統(tǒng)計(jì)信息，左側(cè)為L(zhǎng)CCC-base，右側(cè)為L(zhǎng)CCC-large 最終我們基于上述原始對(duì)話(huà)數(shù)據(jù)過(guò)濾得到了6.8M高質(zhì)量的對(duì)話(huà)數(shù)據(jù)LCCC-base。此外，我們還收集了目前已公開(kāi)的其他對(duì)話(huà)數(shù)據(jù)，并使用同樣的清洗流程，結(jié)合LCCC-base構(gòu)造了包含12M對(duì)話(huà)的數(shù)據(jù)集LCCC-large。表2展示了這兩個(gè)數(shù)據(jù)集中單輪對(duì)話(huà)和多輪對(duì)話(huà)的詳細(xì)統(tǒng)計(jì)信息。 2

中文對(duì)話(huà)預(yù)訓(xùn)練模型CDial-GPT

為促進(jìn)中文對(duì)話(huà)預(yù)訓(xùn)練模型的發(fā)展，我們基于LCCC數(shù)據(jù)集預(yù)訓(xùn)練了大規(guī)模中文對(duì)話(huà)生成模型CDial-GPT。該模型的訓(xùn)練過(guò)程包含兩個(gè)階段，首先，我們?cè)诳傆?jì)5億字符、包含各類(lèi)題材的小說(shuō)數(shù)據(jù)上訓(xùn)練得到了一個(gè)中文小說(shuō)GPT預(yù)訓(xùn)練模型，然后在該模型的基礎(chǔ)上，我們使用LCCC中的對(duì)話(huà)數(shù)據(jù)繼續(xù)對(duì)模型進(jìn)行訓(xùn)練，最終得到了中文對(duì)話(huà)預(yù)訓(xùn)練模型CDial-GPT。

圖1. 輸入編碼示例該模型擁有12層Transformer結(jié)構(gòu)，我們按字分詞，字典大小13088，字向量維度768，最長(zhǎng)上下文長(zhǎng)度為513。我們沿用TransferTransfo的方式對(duì)對(duì)話(huà)進(jìn)行建模，即把對(duì)話(huà)歷史拼接為長(zhǎng)文本，并使用段分割向量加以區(qū)分。具體來(lái)說(shuō)：我們使用[CLS]字符標(biāo)志文本起始，在段落后使用[SEP]字符表示段落結(jié)束，在段落中對(duì)相鄰輪次對(duì)話(huà)使用[speaker1]、[speaker2]交替分割，并在segment embedding中使用[speaker1]、[speaker2]進(jìn)行編碼。圖1為輸入數(shù)據(jù)示例。 3

模型效果評(píng)測(cè)

為了評(píng)估對(duì)話(huà)預(yù)訓(xùn)練模型的質(zhì)量，我們?cè)?40萬(wàn)規(guī)模的中文對(duì)話(huà)數(shù)據(jù)集STC上對(duì)其進(jìn)行了評(píng)測(cè)實(shí)驗(yàn)，并對(duì)比了現(xiàn)有的中文對(duì)話(huà)預(yù)訓(xùn)練模型和一些經(jīng)典的非預(yù)訓(xùn)練對(duì)話(huà)模型。我們主要通過(guò)PPL這一指標(biāo)來(lái)反映模型的擬合能力，PPL越低表示模型的擬合能力越強(qiáng)。我們通過(guò)基于n-gram重合度的指標(biāo)BLEU和基于Embedding相似度的指標(biāo)Greedy Matching 和Embedding Average來(lái)衡量對(duì)話(huà)回復(fù)與真實(shí)回復(fù)的相關(guān)性，并通過(guò)Dist-n指標(biāo)來(lái)衡量生成回復(fù)的多樣性。實(shí)驗(yàn)結(jié)果展示在表3中。可以看到我們的模型在絕大多數(shù)指標(biāo)上達(dá)到了最好的效果。由于自動(dòng)指標(biāo)無(wú)法完全反映生成對(duì)話(huà)的質(zhì)量，于是我們對(duì)各模型生成的對(duì)話(huà)進(jìn)行了人工評(píng)測(cè)。

表3. 自動(dòng)指標(biāo)評(píng)估

表4. 人工評(píng)價(jià) 在人工評(píng)測(cè)中我們主要考慮3個(gè)方面：1、語(yǔ)法性，也就是生成語(yǔ)句的流暢性；2、相關(guān)性，即生成語(yǔ)句與對(duì)話(huà)上文的相關(guān)性；3、信息量，即生成結(jié)果自身含有的信息量。具體來(lái)說(shuō)，不符合語(yǔ)法性或與對(duì)話(huà)上文不相關(guān)的生成結(jié)果我們給予0分；語(yǔ)句流暢、和對(duì)話(huà)上文相關(guān)但信息量不足的生成結(jié)果給予1分；語(yǔ)句流暢、和對(duì)話(huà)上文相關(guān)并且信息量充足的生成結(jié)果給予2分，我們將人工評(píng)測(cè)結(jié)果展示在表4中。實(shí)驗(yàn)結(jié)果顯示，我們的預(yù)訓(xùn)練模型擁有出色的生成質(zhì)量，可以在生成信息量充足的回復(fù)的同時(shí)，保持較高的流暢性與相關(guān)性，優(yōu)于其他基線(xiàn)模型，一些生成例子展示在表5，6中。

表5. 人機(jī)交互示例（左）和模型互相交互示例（右）

表6.在STC微調(diào)的生成結(jié)果示例目前CDial-GPT模型以及LCCC數(shù)據(jù)集都已公開(kāi)，我們提供了訓(xùn)練以及微調(diào)代碼，可以方便地應(yīng)用于各種數(shù)據(jù)和下游任務(wù)上。

責(zé)任編輯：xj

原文標(biāo)題：一作解讀NLPCC最佳學(xué)生論文：1200萬(wàn)中文對(duì)話(huà)數(shù)據(jù)和預(yù)訓(xùn)練模型CDial-GPT

文章出處：【微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
6767

瀏覽量
88636
nlp

nlp

+關(guān)注

關(guān)注
1

文章
483

瀏覽量
21976
訓(xùn)練模型

訓(xùn)練模型

+關(guān)注

關(guān)注
1

文章
35

瀏覽量
3794

原文標(biāo)題：一作解讀NLPCC最佳學(xué)生論文：1200萬(wàn)中文對(duì)話(huà)數(shù)據(jù)和預(yù)訓(xùn)練模型CDial-GPT

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

AI大模型的訓(xùn)練數(shù)據(jù)來(lái)源分析

AI大模型的訓(xùn)練數(shù)據(jù)來(lái)源廣泛且多元化，這些數(shù)據(jù)源對(duì)于構(gòu)建和優(yōu)化AI模型至關(guān)重要。以下是對(duì)AI大模型

發(fā)表于 10-23 15:32 ?172次閱讀

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日（周三）20：00精彩開(kāi)播期待與您云相聚，共襄學(xué)術(shù)盛宴！|直播信息報(bào)告題目

發(fā)表于 10-18 08:09 ?86次閱讀

蘋(píng)果揭示AI新動(dòng)向:Apple Intelligence模型在谷歌云端芯片上預(yù)訓(xùn)練

蘋(píng)果公司在最新的技術(shù)論文中披露了一項(xiàng)重要信息，其全新的人工智能系統(tǒng)Apple Intelligence所依賴(lài)的模型并非傳統(tǒng)上大型科技公司首選的NVIDIA GPU，而是選擇了在谷歌設(shè)計(jì)的云端芯片上進(jìn)行預(yù)

發(fā)表于 07-30 15:00 ?442次閱讀

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念，它們?cè)谔岣?b class='flag-5'>模型性能、減少訓(xùn)練時(shí)間和降低對(duì)數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定

發(fā)表于 07-11 10:12 ?573次閱讀

大語(yǔ)言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練，使

發(fā)表于 07-11 10:11 ?326次閱讀

LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì)

在人工智能和自然語(yǔ)言處理（NLP）領(lǐng)域，大型語(yǔ)言模型（Large Language Model，簡(jiǎn)稱(chēng)LLM）的興起極大地推動(dòng)了技術(shù)的進(jìn)步和應(yīng)用的發(fā)展。LLM通過(guò)在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練

發(fā)表于 07-10 11:03 ?843次閱讀

人臉識(shí)別模型訓(xùn)練流程

人臉識(shí)別模型訓(xùn)練流程是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)重要技術(shù)。本文將詳細(xì)介紹人臉識(shí)別模型的訓(xùn)練流程，包括數(shù)據(jù)準(zhǔn)備、

發(fā)表于 07-04 09:19 ?681次閱讀

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

預(yù)訓(xùn)練模型（Pre-trained Model）是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念，尤其是在自然語(yǔ)言處理（NLP）和計(jì)算機(jī)視覺(jué)（CV）等領(lǐng)域中得到了廣泛應(yīng)用。預(yù)

發(fā)表于 07-03 18:20 ?1848次閱讀

解讀PyTorch模型訓(xùn)練過(guò)程

PyTorch作為一個(gè)開(kāi)源的機(jī)器學(xué)習(xí)庫(kù)，以其動(dòng)態(tài)計(jì)算圖、易于使用的API和強(qiáng)大的靈活性，在深度學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用。本文將深入解讀PyTorch模型訓(xùn)練的全過(guò)程，包括數(shù)據(jù)準(zhǔn)備、

發(fā)表于 07-03 16:07 ?739次閱讀

PyTorch如何訓(xùn)練自己的數(shù)據(jù)集

的數(shù)據(jù)集。本文將深入解讀如何使用PyTorch訓(xùn)練自己的數(shù)據(jù)集，包括數(shù)據(jù)準(zhǔn)備、模型定義、

發(fā)表于 07-02 14:09 ?1000次閱讀

大語(yǔ)言模型：原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

解鎖我理解的是基于深度學(xué)習(xí)，需要訓(xùn)練各種數(shù)據(jù)知識(shí)最后生成自己的的語(yǔ)言理解和能力的交互模型。對(duì)于常說(shuō)的RNN是處理短序列的數(shù)據(jù)時(shí)表現(xiàn)出色，耳真正厲害的是Transformer，此框架

發(fā)表于 05-12 23:57

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

增長(zhǎng)。DeepMind在相關(guān)論文中指出，模型大小和訓(xùn)練Token數(shù)應(yīng)以相似速率增長(zhǎng)，以確保最佳性能。因此，構(gòu)建與模型規(guī)模相匹配的

發(fā)表于 05-07 17:10

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

模型架構(gòu)奠定基礎(chǔ)。然后，引介一些經(jīng)典的預(yù)訓(xùn)練模型，如BERT、GPT等。最后，解讀ChatGPT和LLaMA系列

發(fā)表于 05-05 12:17

【大語(yǔ)言模型：原理與工程實(shí)踐】核心技術(shù)綜述

其預(yù)訓(xùn)練和微調(diào)，直到模型的部署和性能評(píng)估。以下是對(duì)這些技術(shù)的綜述：模型架構(gòu): LLMs通常采用深層的神經(jīng)網(wǎng)絡(luò)架構(gòu)，最常見(jiàn)的是Transformer網(wǎng)絡(luò)，它包含多個(gè)自注意力層，能夠捕

發(fā)表于 05-05 10:56

谷歌模型訓(xùn)練軟件有哪些功能和作用

谷歌模型訓(xùn)練軟件主要是指ELECTRA，這是一種新的預(yù)訓(xùn)練方法，源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢(shì)，而且在效率上更勝一籌。

發(fā)表于 02-29 17:37 ?699次閱讀

搜索歷史

解讀NLPCC最佳學(xué)生論文：數(shù)據(jù)和預(yù)訓(xùn)練模型

評(píng)論

AI大模型的訓(xùn)練數(shù)據(jù)來(lái)源分析

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

蘋(píng)果揭示AI新動(dòng)向:Apple Intelligence模型在谷歌云端芯片上預(yù)訓(xùn)練

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

大語(yǔ)言模型的預(yù)訓(xùn)練

LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì)

人臉識(shí)別模型訓(xùn)練流程

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

解讀PyTorch模型訓(xùn)練過(guò)程

PyTorch如何訓(xùn)練自己的數(shù)據(jù)集

大語(yǔ)言模型：原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

【大語(yǔ)言模型：原理與工程實(shí)踐】核心技術(shù)綜述

谷歌模型訓(xùn)練軟件有哪些功能和作用