成人VA亚洲VA欧美天堂,国产在线精品一区二区

1.1 什么是知識圖譜

知識圖譜是一種用圖模型來描述知識和建模世界萬物之間的關聯(lián)關系的技術方法[1]。知識圖譜由節(jié)點和邊組成。節(jié)點可以是實體，如一個人、一本書等，或是抽象的概念，如人工智能、知識圖譜等。邊可以是實體的屬性，如姓名、書名，或是實體之間的關系，如朋友、配偶。知識圖譜的早期理念來自Semantic Web[2,3]（語義網(wǎng)），其最初理想是把基于文本鏈接的萬維網(wǎng)轉(zhuǎn)化成基于實體鏈接的語義網(wǎng)。

1989年，Tim Berners-Lee 提出構建一個全球化的以“鏈接”為中心的信息系統(tǒng)（Linked Information System）。任何人都可以通過添加鏈接把自己的文檔鏈入其中。他認為，相比基于樹的層次化組織方式，以鏈接為中心和基于圖的組織方式更加適合互聯(lián)網(wǎng)這種開放的系統(tǒng)。這一思想逐步被人們實現(xiàn)，并演化發(fā)展成為今天的World Wide Web。

1994年，Tim Berners-Lee 又提出 Web 不應該僅僅只是網(wǎng)頁之間的互相鏈接。實際上，網(wǎng)頁中描述的都是現(xiàn)實世界中的實體和人腦中的概念。網(wǎng)頁之間的鏈接實際包含語義，即這些實體或概念之間的關系；然而，機器卻無法有效地從網(wǎng)頁中識別出其中蘊含的語義。他于1998年提出了Semantic Web的概念[4]。Semantic Web仍然基于圖和鏈接的組織方式，只是圖中的節(jié)點代表的不只是網(wǎng)頁，而是客觀世界中的實體（如人、機構、地點等），而超鏈接也被增加了語義描述，具體標明實體之間的關系（如出生地是、創(chuàng)辦人是等）。相對于傳統(tǒng)的網(wǎng)頁互聯(lián)網(wǎng)，Semantic Web的本質(zhì)是數(shù)據(jù)的互聯(lián)網(wǎng)（Web of Data）或事物的互聯(lián)網(wǎng)（Web of Things）。

在 Semantic Web 被提出之后，出現(xiàn)了一大批新興的語義知識庫。如作為谷歌知識圖譜后端的Freebase[5]，作為IBM Waston后端的DBpedia[6]和Yago[7]，作為Amazon Alexa后端的True Knowledge，作為蘋果Siri后端的Wolfram Alpha，以及開放的Semantic Web Schema——Schema.ORG[8]，目標成為世界最大開放知識庫的Wikidata[9]等。尤其值得一提的是，2010年谷歌收購了早期語義網(wǎng)公司 MetaWeb，并以其開發(fā)的 Freebase 作為數(shù)據(jù)基礎之一，于2012年正式推出了稱為知識圖譜的搜索引擎服務。隨后，知識圖譜逐步在語義搜索[10,11]、智能問答[12-14]、輔助語言理解[15,16]、輔助大數(shù)據(jù)分析[17-19]、增強機器學習的可解釋性[20]、結合圖卷積輔助圖像分類[21,22]等多個領域發(fā)揮出越來越重要的作用。

如圖1-1所示，知識圖譜旨在從數(shù)據(jù)中識別、發(fā)現(xiàn)和推斷事物與概念之間的復雜關系，是事物關系的可計算模型。知識圖譜的構建涉及知識建模、關系抽取、圖存儲、關系推理、實體融合等多方面的技術，而知識圖譜的應用則涉及語義搜索、智能問答、語言理解、決策分析等多個領域。構建并利用好知識圖譜需要系統(tǒng)性地利用包括知識表示（Knowledge Representation）、圖數(shù)據(jù)庫、自然語言處理、機器學習等多方面的技術。

圖1-1 知識圖譜：事物關系的可計算模型

1.2 知識圖譜的發(fā)展歷史

知識圖譜并非突然出現(xiàn)的新技術，而是歷史上很多相關技術相互影響和繼承發(fā)展的結果，包括語義網(wǎng)絡、知識表示、本體論、Semantic Web、自然語言處理等，有著來自Web、人工智能和自然語言處理等多方面的技術基因。從早期的人工智能發(fā)展歷史來看， Semantic Web是傳統(tǒng)人工智能與Web融合發(fā)展的結果，是知識表示與推理在Web中的應用；RDF（Resource Description Framework，資源描述框架）、OWL（Web Ontology Language，網(wǎng)絡本體語言）都是面向 Web 設計實現(xiàn)的標準化的知識表示語言；而知識圖譜則可以看作是Semantic Web的一種簡化后的商業(yè)實現(xiàn)，如圖1-2所示。

圖1-2 從語義網(wǎng)絡到知識圖譜

在人工智能的早期發(fā)展流派中，符號派（Symbolism）側重于模擬人的心智，研究怎樣用計算機符號表示人腦中的知識并模擬心智的推理過程；連接派（Connectionism）側重于模擬人腦的生理結構，即人工神經(jīng)網(wǎng)絡。符號派一直以來都處于人工智能研究的核心位置。近年來，隨著數(shù)據(jù)的大量積累和計算能力的大幅提升，深度學習在視覺、聽覺等感知處理中取得突破性進展，進而又在圍棋等博弈類游戲、機器翻譯等領域獲得成功，使得人工神經(jīng)網(wǎng)絡和機器學習獲得了人工智能研究的核心地位。深度學習在處理感知、識別和判斷等方面表現(xiàn)突出，能幫助構建聰明的人工智能，但在模擬人的思考過程、處理常識知識和推理，以及理解人的語言方面仍然舉步維艱。

哲學家柏拉圖把知識（Knowledge）定義為“Justified True Belief”，即知識需要滿足三個核心要素：合理性（Justified）、真實性（True）和被相信（Believed）。簡而言之，知識是人類通過觀察、學習和思考有關客觀世界的各種現(xiàn)象而獲得并總結出的所有事實（Fact）、概念（Concept）、規(guī)則（Rule）或原則（Principle）的集合。人類發(fā)明了各種手段來描述、表示和傳承知識，如自然語言、繪畫、音樂、數(shù)學語言、物理模型、化學公式等。具有獲取、表示和處理知識的能力是人類心智區(qū)別于其他物種心智的重要特征。人工智能的核心也是研究怎樣用計算機易于處理的方式表示、學習和處理各種各樣的知識。知識表示是現(xiàn)實世界的可計算模型（Computable Model of Reality）。從廣義上講，神經(jīng)網(wǎng)絡也是一種知識表示形式，如圖1-3所示。

圖1-3 知識圖譜幫助構建有學識的人工智能

符號派關注的核心正是知識的表示和推理（KRR,Knowledge Representation and Reasoning）。早在1960年，認知科學家 Allan M.Collins 提出用語義網(wǎng)絡（Semantic Network）研究人腦的語義記憶。例如，WordNet[23]是典型的語義網(wǎng)絡，它定義了名詞、動詞、形容詞和副詞之間的語義關系。WordNet被廣泛應用于語義消歧等自然語言處理領域。

1970年，隨著專家系統(tǒng)的提出和商業(yè)化發(fā)展，知識庫（Knowledge Base）構建和知識表示更加得到重視。專家系統(tǒng)的基本想法是：專家是基于大腦中的知識來進行決策的，因此人工智能的核心應該是用計算機符號表示這些知識，并通過推理機模仿人腦對知識進行處理。依據(jù)專家系統(tǒng)的觀點，計算機系統(tǒng)應該由知識庫和推理機兩部分組成，而不是由函數(shù)等過程性代碼組成。早期的專家系統(tǒng)最常用的知識表示方法包括基于框架的語言（Frame-based Languages）和產(chǎn)生式規(guī)則（Production Rules）等?？蚣苷Z言主要用于描述客觀世界的類別、個體、屬性及關系等，較多地被應用于輔助自然語言理解。產(chǎn)生式規(guī)則主要用于描述類似于IF-THEN的邏輯結構，適合于刻畫過程性知識。

知識圖譜與傳統(tǒng)專家系統(tǒng)時代的知識工程有著顯著的不同。與傳統(tǒng)專家系統(tǒng)時代主要依靠專家手工獲取知識不同，現(xiàn)代知識圖譜的顯著特點是規(guī)模巨大，無法單一依靠人工和專家構建。如圖1-4所示，傳統(tǒng)的知識庫，如Douglas Lenat從1984年開始創(chuàng)建的常識知識庫 Cyc，僅包含700萬條[1]的事實描述（Assertion）。Wordnet 主要依靠語言學專家定義名詞、動詞、形容詞和副詞之間的語義關系，目前包含大約20萬條的語義關系。由著名人工智能專家 Marvin Minsky于1999年起開始構建的 ConceptNet[24]常識知識庫依靠了互聯(lián)網(wǎng)眾包、專家創(chuàng)建和游戲三種方法，但早期的 ConceptNet 規(guī)模在百萬級別，最新的ConceptNet 5.0也僅包含2800萬個RDF三元組關系描述。谷歌和百度等現(xiàn)代知識圖譜都已經(jīng)包含超過千億級別的三元組，阿里巴巴于2017年8月發(fā)布的僅包含核心商品數(shù)據(jù)的知識圖譜也已經(jīng)達到百億級別。DBpedia已經(jīng)包含約30億個RDF三元組，多語種的大百科語義網(wǎng)絡BabelNet包含19億個RDF三元組[25],Yago3.0包含1.3億個元組，Wikidata已經(jīng)包含4265萬條數(shù)據(jù)條目，元組數(shù)目也已經(jīng)達到數(shù)十億級別。截至目前，開放鏈接數(shù)據(jù)項目Linked Open Data[2]統(tǒng)計了其中有效的2973個數(shù)據(jù)集，總計包含大約1494億個三元組。

現(xiàn)代知識圖譜對知識規(guī)模的要求源于“知識完備性”難題。馮·諾依曼曾估計單個個體大腦的全量知識需要2.4×1020個bits存儲[26]?？陀^世界擁有不計其數(shù)的實體，人的主觀世界還包含無法統(tǒng)計的概念，這些實體和概念之間又具有更多數(shù)量的復雜關系，導致大多數(shù)知識圖譜都面臨知識不完全的困境。在實際的領域應用場景中，知識不完全也是困擾大多數(shù)語義搜索、智能問答、知識輔助的決策分析系統(tǒng)的首要難題。