0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度剖析知識(shí)圖譜落地的基本原則與最佳實(shí)踐

WpOh_rgznai100 ? 來源:lq ? 2019-08-02 09:42 ? 次閱讀

此文內(nèi)容取自肖仰華教授在華為、CCF等場(chǎng)合所做報(bào)告,完整內(nèi)容見書籍《知識(shí)圖譜:概念與技術(shù)》的第15章《知識(shí)圖譜實(shí)踐》。

摘要:經(jīng)歷了大數(shù)據(jù)時(shí)代的洗禮,各行業(yè)積累了前所未有的海量數(shù)據(jù)。但是各行業(yè)的大數(shù)據(jù)猶如鎖在籠中的雄獅,威力難以釋放。知識(shí)圖譜為各領(lǐng)域提供了一種便捷的知識(shí)表達(dá)、積累與沉淀方式,為行業(yè)大數(shù)據(jù)的理解與洞察提供了豐富的背景知識(shí)。大數(shù)據(jù)驅(qū)動(dòng)的行業(yè)智能化對(duì)知識(shí)圖譜這類背景知識(shí)提出了廣泛訴求。行業(yè)智能化勢(shì)必走上數(shù)據(jù)驅(qū)動(dòng)與知識(shí)引領(lǐng)相融合的新型路徑。知識(shí)圖譜如何助力各行業(yè)智能化過程涌現(xiàn)出來大量的工程問題?

這些問題需要得到有效解決,需要得到深入理解。過去5-6年的落地實(shí)踐也為總結(jié)知識(shí)圖譜的最佳實(shí)踐奠定了基礎(chǔ)。知識(shí)圖譜落地過程中的基本原則與最佳實(shí)踐的總結(jié)已經(jīng)成為了各行業(yè)圖譜落地的迫在眉睫的任務(wù)。大量的知識(shí)圖譜落地項(xiàng)目走在錯(cuò)誤的或者曲折的道路上。本報(bào)告將結(jié)合復(fù)旦大學(xué)知識(shí)工場(chǎng)實(shí)驗(yàn)室十多個(gè)典型知識(shí)圖譜落地項(xiàng)目,系統(tǒng)論述面向行業(yè)智能化的知識(shí)圖譜落地過程中的基本原則與最佳實(shí)踐。

1. 概述

知識(shí)圖譜技術(shù)最終需要在應(yīng)用與實(shí)踐中證明其價(jià)值。與知識(shí)圖譜實(shí)踐相關(guān)的問題包括知識(shí)圖譜系統(tǒng)、知識(shí)圖譜工程以及知識(shí)圖譜應(yīng)用與產(chǎn)業(yè)。知識(shí)圖譜系統(tǒng)是一類以知識(shí)圖譜建設(shè)與應(yīng)用為核心內(nèi)容的人機(jī)協(xié)作系統(tǒng)。知識(shí)圖譜系統(tǒng)的建設(shè)是知識(shí)圖譜應(yīng)用的主要抓手。知識(shí)圖譜工程是以知識(shí)圖譜系統(tǒng)的建設(shè)與應(yīng)用為基本內(nèi)容的工程學(xué)科,是眾多工程學(xué)科的重要分支之一。

隨著知識(shí)圖譜技術(shù)的應(yīng)用深入,越來越多的行業(yè)和企業(yè)正在積極推進(jìn)知識(shí)圖譜系統(tǒng)的建設(shè)。為了有效支撐知識(shí)圖譜的工程實(shí)踐,一些企業(yè)推出各類知識(shí)圖譜相關(guān)的咨詢服務(wù)、解決方案、服務(wù)平臺(tái)、系統(tǒng)軟件、數(shù)據(jù)服務(wù)等形態(tài)各異的產(chǎn)品與服務(wù)。供應(yīng)方與需求方,學(xué)術(shù)界與產(chǎn)業(yè)界共同構(gòu)成了知識(shí)圖譜的產(chǎn)業(yè)生態(tài)。

1.1 知識(shí)圖譜應(yīng)用的推動(dòng)力

當(dāng)前,知識(shí)圖譜的應(yīng)用與實(shí)踐有著鮮明的中國(guó)特色。首先,隨著我國(guó)人口紅利消失與人力成本增長(zhǎng),我國(guó)的實(shí)體企業(yè)有著迫切的智能化升級(jí)與轉(zhuǎn)型需求,對(duì)知識(shí)圖譜技術(shù)的應(yīng)用提出了強(qiáng)烈需求。傳統(tǒng)實(shí)體企業(yè)需要進(jìn)一步解放勞動(dòng)力,進(jìn)一步降低人力成本。將知識(shí)賦予機(jī)器,實(shí)現(xiàn)簡(jiǎn)單知識(shí)工作(只需簡(jiǎn)單知識(shí)即可完成的工作)自動(dòng)化無疑是解決方案之一。

其次,我國(guó)有著豐富的應(yīng)用場(chǎng)景和數(shù)據(jù)基礎(chǔ),使得知識(shí)圖譜在各行業(yè)的大規(guī)模應(yīng)用成為可能。我國(guó)的互聯(lián)網(wǎng)、電信、電商、社交、出行等各行業(yè)都積累了豐富的大數(shù)據(jù),各種面向消費(fèi)者、企業(yè)、政府的應(yīng)用模式齊全多樣,這些都為知識(shí)圖譜技術(shù)的規(guī)?;瘧?yīng)用提供了富含養(yǎng)分的土壤。最后,中國(guó)一批頭部企業(yè)先行先試為知識(shí)圖譜在更大范圍的普及與應(yīng)用起到了積極示范。我國(guó)的很多互聯(lián)網(wǎng)平臺(tái)以及IT企業(yè)已經(jīng)建成了數(shù)個(gè)世界級(jí)平臺(tái),這些平臺(tái)積累豐富的知識(shí)圖譜應(yīng)用經(jīng)驗(yàn),為知識(shí)圖譜在其他行業(yè)的普及與應(yīng)用起到了良好的示范與帶動(dòng)作用。

知識(shí)圖譜技術(shù)在當(dāng)下中國(guó)的實(shí)踐呈現(xiàn)以下幾個(gè)典型特點(diǎn)。這些特點(diǎn)體現(xiàn)了當(dāng)前的宏觀發(fā)展環(huán)境以及技術(shù)生態(tài)對(duì)于知識(shí)圖譜技術(shù)需求的迫切性。

(1)與行業(yè)智能化升級(jí)緊密結(jié)合。很多行業(yè)經(jīng)過數(shù)十年的信息化建設(shè),基本上完成數(shù)據(jù)的采集與管理的使命,為各行業(yè)智能化升級(jí)與轉(zhuǎn)型奠定了良好的基礎(chǔ)。對(duì)于企業(yè)而言,增加收入、降低成本、提質(zhì)提效、安全保障都是其業(yè)務(wù)核心訴求。知識(shí)圖譜技術(shù)的應(yīng)用是進(jìn)一步滿足這些核心訴求的手段之一。

在行業(yè)智能化的實(shí)現(xiàn)過程中,迫切需要將行業(yè)知識(shí)賦予機(jī)器并且讓機(jī)器具備一定程度的行業(yè)認(rèn)知能力,從而讓機(jī)器代替行業(yè)從業(yè)人員從事簡(jiǎn)單知識(shí)工作。一方面,知識(shí)積累與沉淀一直是行業(yè)追求的目標(biāo)。另一方面,提質(zhì)提效的壓力迫使企業(yè)積極探索認(rèn)知智能在企業(yè)各工種中的應(yīng)用。利用知識(shí)圖譜技術(shù),沉淀行業(yè)知識(shí)、實(shí)現(xiàn)簡(jiǎn)單知識(shí)工作自動(dòng)化,是當(dāng)下以及未來一段時(shí)間內(nèi)行業(yè)智能化的核心內(nèi)容。

與行業(yè)智能化的深度融合要求知識(shí)圖譜研究與落地從通用知識(shí)圖譜轉(zhuǎn)向了領(lǐng)域、行業(yè)知識(shí)圖譜,轉(zhuǎn)向企業(yè)知識(shí)圖譜。領(lǐng)域應(yīng)用的樣本稀疏、場(chǎng)景多樣、知識(shí)表示復(fù)雜等問題對(duì)于知識(shí)圖譜技術(shù)均提出了巨大挑戰(zhàn)。

(2)與機(jī)器智腦的建設(shè)深度融合。隨著我國(guó)人工智能戰(zhàn)略的持續(xù)推進(jìn),作為人工智能的重要分支的機(jī)器人產(chǎn)業(yè)迎來了發(fā)展的黃金期。其中,各種服務(wù)機(jī)器人,包括客服機(jī)器人、陪伴機(jī)器人、問診機(jī)器人、導(dǎo)購(gòu)機(jī)器人、理財(cái)機(jī)器人等已經(jīng)日益融入到人們的日常生活中。與工業(yè)機(jī)器人相比,服務(wù)機(jī)器人對(duì)機(jī)器的認(rèn)知水平要求更高,而對(duì)動(dòng)作能力要求相對(duì)較低。

因此,決定服務(wù)機(jī)器人服務(wù)效果的是大腦而非四肢。建設(shè)具有一定認(rèn)知能力的機(jī)器智腦是服務(wù)機(jī)器人產(chǎn)業(yè)發(fā)展的至關(guān)重要環(huán)節(jié),而機(jī)器智腦的重要組成部分是知識(shí)庫。機(jī)器是否具有知識(shí)并且能夠利用知識(shí)形成認(rèn)知能力進(jìn)而解決問題,是服務(wù)機(jī)器人更好地造福人類社會(huì)的關(guān)鍵。以知識(shí)圖譜為代表的大數(shù)據(jù)知識(shí)工程為煉就機(jī)器智腦帶來了全新機(jī)遇。未來機(jī)器智腦的演進(jìn)過程也將是知識(shí)圖譜等知識(shí)庫技術(shù)不斷賦能機(jī)器人以及各類硬件終端的過程。

與機(jī)器智腦建設(shè)的深度融合要求針對(duì)智能終端與智能機(jī)器開展相應(yīng)的知識(shí)工程研究,要求從多模態(tài)(語音、圖像、視頻、傳感器等)、類人化(情感、美感、倫理、道德、價(jià)值觀等)等角度進(jìn)一步拓展知識(shí)圖譜的表示,深化知識(shí)圖譜的應(yīng)用。

(3)與數(shù)據(jù)治理以及大數(shù)據(jù)價(jià)值變現(xiàn)緊密結(jié)合。很多行業(yè)和企業(yè)都有大數(shù)據(jù),但是這些大數(shù)據(jù)非但沒有創(chuàng)造價(jià)值,反而成為了很多行業(yè)的負(fù)擔(dān)。阻礙大數(shù)據(jù)價(jià)值變現(xiàn)的根本原因在于缺少智能化的手段,具體而言是缺少一個(gè)能像人一樣能夠理解行業(yè)數(shù)據(jù)的知識(shí)引擎。行業(yè)從業(yè)人員具有相應(yīng)的行業(yè)知識(shí),才能理解行業(yè)數(shù)據(jù)進(jìn)而開展行業(yè)工作。

類似地,把同樣的行業(yè)知識(shí)賦予機(jī)器,構(gòu)建一個(gè)行業(yè)知識(shí)引擎,機(jī)器才可能提煉、萃取、關(guān)聯(lián)、整合數(shù)據(jù)(對(duì)應(yīng)于傳統(tǒng)的數(shù)據(jù)治理),才可能代替人去理解、挖掘、分析、使用數(shù)據(jù)(對(duì)應(yīng)于大數(shù)據(jù)的價(jià)值變現(xiàn)),可以代替行業(yè)從業(yè)人員挖掘數(shù)據(jù)中的價(jià)值,從而有力支撐大數(shù)據(jù)的價(jià)值變現(xiàn)。知識(shí)圖譜已經(jīng)成為知識(shí)引擎的核心,成為大數(shù)據(jù)價(jià)值釋放的關(guān)鍵技術(shù)之一。

與數(shù)據(jù)治理以及大數(shù)據(jù)價(jià)值變現(xiàn)的深度融合要求進(jìn)一步發(fā)展從大數(shù)據(jù)的統(tǒng)計(jì)關(guān)聯(lián)篩選語義關(guān)聯(lián)的有效手段,需要進(jìn)一步深化元知識(shí)的表示與應(yīng)用技術(shù)(以有效指導(dǎo)數(shù)據(jù)融合與關(guān)聯(lián))。

1.2 知識(shí)圖譜應(yīng)用與產(chǎn)業(yè)現(xiàn)狀

當(dāng)前,知識(shí)圖譜應(yīng)用仍然是以典型項(xiàng)目、典型場(chǎng)景的試點(diǎn)為主,由點(diǎn)及面的普及正蓄勢(shì)待發(fā)。當(dāng)前知識(shí)圖譜的產(chǎn)業(yè)已經(jīng)初具形態(tài)。知識(shí)圖譜的產(chǎn)業(yè)形態(tài)分為三類典型形態(tài):數(shù)據(jù)與服務(wù)、產(chǎn)品與系統(tǒng)、咨詢與解決方案。

(1)數(shù)據(jù)與服務(wù)。知識(shí)圖譜應(yīng)用的直接方式建設(shè)通用或領(lǐng)域知識(shí)圖譜并將知識(shí)圖譜中的數(shù)據(jù)對(duì)外提供服務(wù)。單純的圖譜數(shù)據(jù)服務(wù)能力較為有限,往往需要針對(duì)應(yīng)用場(chǎng)景提供深度服務(wù),特別是基于知識(shí)圖譜的認(rèn)知服務(wù)。一些通用平臺(tái)包括IBM Watson、微軟認(rèn)知服務(wù)、百度大腦等都在嘗試提供基于知識(shí)圖譜數(shù)據(jù)與認(rèn)知服務(wù)。

除了通用知識(shí)圖譜之外,特定領(lǐng)域或者行業(yè)知識(shí)圖譜也對(duì)數(shù)據(jù)與認(rèn)知服務(wù)有著強(qiáng)烈需求。在圖書情報(bào)、出版?zhèn)髅健?a target="_blank">招聘就業(yè)、知識(shí)產(chǎn)權(quán)等相關(guān)領(lǐng)域,缺乏頭部企業(yè),第三方平臺(tái)發(fā)展空間較大。并且這些領(lǐng)域數(shù)據(jù)相對(duì)公開、容易獲取,使得構(gòu)建獨(dú)立的第三方服務(wù)平臺(tái)成為可能。

(2)產(chǎn)品與系統(tǒng)。知識(shí)圖譜的大規(guī)模應(yīng)用與產(chǎn)業(yè)化是需要各類成熟的產(chǎn)品與軟件系統(tǒng)支撐的。比如很多行業(yè)圖譜的建設(shè)需要互聯(lián)網(wǎng)數(shù)據(jù)源的補(bǔ)充,這就需要大規(guī)模的分布式爬蟲系統(tǒng)。建好的大規(guī)模知識(shí)圖譜通常需要借助圖數(shù)據(jù)管理系統(tǒng)的管理。大量的企業(yè)或者團(tuán)隊(duì)在從事相關(guān)系統(tǒng)的研發(fā)。目前涉及知識(shí)獲取的產(chǎn)品與系統(tǒng)仍然有很大的發(fā)展空間。知識(shí)獲取技術(shù)總體上仍在持續(xù)發(fā)展,技術(shù)尚未定型,為其固化相應(yīng)的產(chǎn)品形態(tài)具有一定的難度。

(3)咨詢與解決方案。知識(shí)圖譜建設(shè)是個(gè)典型的系統(tǒng)工程,與建筑工程十分相似,都需要論證、設(shè)計(jì)、實(shí)施、監(jiān)理、驗(yàn)收等各個(gè)環(huán)節(jié)。知識(shí)圖譜落地過程中最為重要的環(huán)節(jié)不是實(shí)現(xiàn),而是論證與設(shè)計(jì),這就給專注于知識(shí)圖譜咨詢和解決方案設(shè)計(jì)與實(shí)施的企業(yè)提供了豐富的機(jī)會(huì)。

這一現(xiàn)狀的原因有以下幾點(diǎn):第一、對(duì)于很多行業(yè)的頭部企業(yè)而言,企業(yè)知識(shí)資源建設(shè)是自身升級(jí)與轉(zhuǎn)型的命脈。命脈是不可能假手于他人,企業(yè)會(huì)牢牢掌握系統(tǒng)建設(shè)的主動(dòng)權(quán)與控制權(quán)。而咨詢恰是一種企業(yè)具有完全控制的權(quán)利又能引入外部智力資源增強(qiáng)建設(shè)能力的方式。第二、知識(shí)圖譜技術(shù)發(fā)展到成熟階段尚需時(shí)日,因此,標(biāo)品化的服務(wù)與產(chǎn)品仍然稀缺,在這樣的階段,咨詢與定制化的解決化方案自然更容易落地,更容易滿足用戶需求。

知識(shí)圖譜產(chǎn)業(yè)的三種形態(tài)已經(jīng)出現(xiàn)并迅速發(fā)展。知識(shí)圖譜技術(shù)在2018年8月首次進(jìn)入了國(guó)際知名咨詢公司Gartner的技術(shù)成熟度曲線。如圖1所示,知識(shí)圖譜技術(shù)正處在技術(shù)成熟度曲線的上升階段。Gartner預(yù)期知識(shí)圖譜將成在未來5-10年內(nèi)逐步成熟。這種關(guān)注很大程度上是由知識(shí)圖譜的應(yīng)用與產(chǎn)業(yè)的發(fā)展而推動(dòng)的。伴隨著行業(yè)智能化轉(zhuǎn)型、簡(jiǎn)單知識(shí)工作自動(dòng)化、機(jī)器智腦的發(fā)展、感知智能產(chǎn)業(yè)的升級(jí)等一系列進(jìn)程的推進(jìn),知識(shí)圖譜技術(shù)的應(yīng)用與產(chǎn)業(yè)化將迎來一波熱潮。

圖1 知識(shí)圖譜技術(shù)成熟曲線

1.3 知識(shí)圖譜實(shí)踐的系統(tǒng)工程觀念

知識(shí)圖譜實(shí)踐是一種典型的大規(guī)模知識(shí)工程,是典型的系統(tǒng)工程,在實(shí)踐過程中應(yīng)該堅(jiān)持系統(tǒng)觀與工程觀。

(1)工程觀。所謂知識(shí)圖譜的工程觀,是指利用數(shù)學(xué)和科學(xué)原理提出解決實(shí)際問題的有效方案的觀念?;A(chǔ)的自然學(xué)科的認(rèn)識(shí)世界為基本使命,而工程學(xué)科旨在改造世界。然而工程師們改造世界的過程本身就是通過實(shí)踐來認(rèn)識(shí)世界的過程。因而工程與科學(xué)又是密切相關(guān)的。

特別是隨著人工智能的發(fā)展,我們有機(jī)會(huì)通過構(gòu)建具有人類水平的智能機(jī)器這樣一種具體實(shí)踐去回答“我們從哪里來,又將去往何方”等一系列終極問題。具體到知識(shí)圖譜,作為一類大規(guī)模知識(shí)工程,其當(dāng)下的重要使命在于解決各行業(yè)智能化升級(jí)轉(zhuǎn)型過程中涌現(xiàn)的一系列實(shí)際問題。能否解決這些問題,如何解決這些問題,是擺在知識(shí)工程研究者和實(shí)踐者面前迫切需要回答的問題。

工程觀勢(shì)必要求實(shí)踐者具備優(yōu)化問題的求解思路。工程中的大部分問題是受資源約束的最優(yōu)化問題。任何知識(shí)圖譜實(shí)踐所能投入的資源(人力、資金、數(shù)據(jù))總是有限的,然而實(shí)際問題的解決卻又是迫切的。因而,工程實(shí)踐往往需要利用這些有限資源提出最優(yōu)方案。明確優(yōu)化問題中的約束、建立合理的優(yōu)化目標(biāo)、提出廉價(jià)的方案是解決優(yōu)化問題的關(guān)鍵。

例如在知識(shí)圖譜建設(shè)中,目標(biāo)圖譜的規(guī)模、粒度、精度都是優(yōu)化目標(biāo)需要考慮的因素,有多少人力(特別是專家)、有多少數(shù)據(jù)往往都是約束。過于宏大、不切實(shí)際的目標(biāo)容易造成巨大困難。有文獻(xiàn)[1]指出,手動(dòng)構(gòu)建知識(shí)圖譜,每個(gè)三元組的成本大約在 2 到 6 美元左右,自動(dòng)構(gòu)建成本降低 15 到 250 倍,即便如此每個(gè)三元組仍需消耗 1 美分到 15 美分的成本。因此,在知識(shí)圖譜相關(guān)的工程實(shí)踐中需要注重優(yōu)化問題,注意實(shí)際約束。

知識(shí)圖譜的工程觀要強(qiáng)調(diào)實(shí)踐的重要性。知識(shí)工程提出之初就注重從實(shí)踐中總結(jié)知識(shí)工程的關(guān)鍵問題,并發(fā)展必要的理論以進(jìn)一步指導(dǎo)工程實(shí)踐。工程實(shí)踐與理論研究是相輔相成的,不是對(duì)立的。質(zhì)能轉(zhuǎn)換、航空動(dòng)力學(xué)等等從理論到成熟的實(shí)踐經(jīng)歷了數(shù)十年的時(shí)間。

在人工智能的理論研究與工程實(shí)踐中,實(shí)踐絕不是從屬地位?!爸泻弦弧笔侵袊?guó)人追求的理想境界,“知”往往走在“行”之前。但是人工智能的研究與實(shí)踐不同,“行”更多地走在“知”之前。當(dāng)下技術(shù)的進(jìn)步有加速發(fā)展的趨勢(shì),但理論研究的速度仍然保持原有速度,已經(jīng)難以跟上技術(shù)發(fā)展的需求。技術(shù)的快速發(fā)展反過來要求,理論總結(jié)必須提速以適應(yīng)技術(shù)發(fā)展的快速需要。

(2)系統(tǒng)觀。系統(tǒng)觀認(rèn)為現(xiàn)實(shí)世界的大部分復(fù)雜系統(tǒng)都是由相互作用、相互依賴的若干組成部分結(jié)合而成的具有特定功能的有機(jī)整體。知識(shí)圖譜系統(tǒng)組件眾多、涉及要素多樣、人機(jī)協(xié)作復(fù)雜,是一類典型的復(fù)雜系統(tǒng)。明確知識(shí)圖譜系統(tǒng)的組成及其之間的相互關(guān)系是十分重要的。

相比較而言,知識(shí)圖譜的部分組件的實(shí)現(xiàn),比如實(shí)體識(shí)別或者關(guān)系抽取,其效果取決于一兩個(gè)關(guān)鍵模型。但是,知識(shí)圖譜作為系統(tǒng)的整體不是若干組件的簡(jiǎn)單組合,而是復(fù)雜策略指引下的有機(jī)組合。比如,在當(dāng)前NLP仍然不能有效完成抽取任務(wù)時(shí),能否充分利用各類資源、能否有效利用已經(jīng)積累的業(yè)務(wù)知識(shí)、能否有效利用人力因素進(jìn)行驗(yàn)證或者標(biāo)注,均對(duì)這一問題有著顯著影響。

作為一個(gè)復(fù)雜系統(tǒng),知識(shí)圖譜系統(tǒng)具有涌現(xiàn)性、交互性以及演化性等鮮明特征。系統(tǒng)的涌現(xiàn)性是指系統(tǒng)在整體上體現(xiàn)出其各組成簡(jiǎn)單組合所不具備的特性,也就是1+1>2的特性。這一點(diǎn)對(duì)于如何在當(dāng)前NLP技術(shù)不成熟的前提下實(shí)現(xiàn)知識(shí)工程成功落地具有積極意義。很多知識(shí)工程在某些場(chǎng)景下要求極高,比如智能醫(yī)療系統(tǒng),有著近乎100%準(zhǔn)確率的要求。

雖然每個(gè)獨(dú)立的NLP模型都難以達(dá)到完美的要求,但是各種模型經(jīng)由各種策略組合在一起(比如人機(jī)協(xié)同策略)則有可能達(dá)到這一苛刻要求。知識(shí)圖譜系統(tǒng)與外部數(shù)據(jù)與應(yīng)用之間存在著復(fù)雜的交互,是個(gè)動(dòng)態(tài)開放的系統(tǒng)。隨著環(huán)境的變化,應(yīng)用需求與數(shù)據(jù)都會(huì)發(fā)生變化,從而要求知識(shí)圖譜系統(tǒng)作出相應(yīng)調(diào)整。知識(shí)圖譜系統(tǒng)的動(dòng)態(tài)與演化仍然是個(gè)開放問題。

知識(shí)圖譜作為大規(guī)模知識(shí)工程,與傳統(tǒng)知識(shí)工程也存在著本質(zhì)差別。當(dāng)下的大數(shù)據(jù)知識(shí)工程是以知識(shí)的規(guī)?;硎九c應(yīng)用為其核心標(biāo)志的。這決定了大數(shù)據(jù)知識(shí)工程是以大規(guī)模自動(dòng)化知識(shí)獲取為其根本立足點(diǎn)的。自動(dòng)化知識(shí)獲取勢(shì)必要求降低對(duì)于專家的依賴。受限于當(dāng)前人工智能總體發(fā)展水平,高度自動(dòng)化、少量人干預(yù)勢(shì)必要以降低知識(shí)的描述精度為代價(jià)的。而知識(shí)描述能力的降低,又進(jìn)一步削弱了相應(yīng)的推理能力。大規(guī)模的互聯(lián)網(wǎng)應(yīng)用催生了知識(shí)圖譜這樣的知識(shí)表示。

知識(shí)圖譜通過二元語義關(guān)聯(lián)作為其知識(shí)表示的核心,具有簡(jiǎn)單普適以及適合從數(shù)據(jù)中高度自動(dòng)化獲取等優(yōu)點(diǎn),但也有表達(dá)能力較弱的缺點(diǎn)。目前,得以成功應(yīng)用的知識(shí)圖譜推理往往都是基于上下位關(guān)系的簡(jiǎn)單推理。但是對(duì)于傳統(tǒng)知識(shí)工程,推理引擎、解釋構(gòu)件等等都是專家系統(tǒng)的重要組成部分[2]。如何兼具規(guī)模與效用(知識(shí)表示與知識(shí)推理的能力)仍然是知識(shí)圖譜有待進(jìn)一步深入的研究問題。

1.4 知識(shí)圖譜助力行業(yè)智能化的演進(jìn)路徑

如前文所述,知識(shí)圖譜日益承擔(dān)起助力行業(yè)智能化的使命。探索基于知識(shí)圖譜的行業(yè)智能化演進(jìn)路徑因而十分關(guān)鍵。經(jīng)過多年實(shí)踐,這一路徑日漸清晰,呈現(xiàn)出知識(shí)資源建設(shè)與知識(shí)應(yīng)用迭代式發(fā)展模式,如圖2所示。

在每一輪迭代周期,優(yōu)先選擇預(yù)期效果較好的應(yīng)用場(chǎng)景,建設(shè)以知識(shí)圖譜為核心的知識(shí)資源,并開展相應(yīng)的知識(shí)應(yīng)用。再根據(jù)來自內(nèi)外部用戶的反饋,完善相應(yīng)的應(yīng)用與知識(shí)資源建設(shè)。當(dāng)特定應(yīng)用初現(xiàn)成效之后,再?gòu)挠邢薜膽?yīng)用逐步拓展到更多的應(yīng)用場(chǎng)景,建設(shè)更多的知識(shí)資源。整個(gè)過程持續(xù)迭代下去,直至完成行業(yè)或者企業(yè)全面的智能化。

采取由點(diǎn)及面的迭代式螺旋發(fā)展模式的根本原因有幾點(diǎn)。首先、完整的知識(shí)資源建設(shè)是一個(gè)十分艱巨的任務(wù)。知識(shí)資源建設(shè)任重道遠(yuǎn),很難一蹴而就。任何一個(gè)普通人所掌握的知識(shí)都可以說是無邊無界的。當(dāng)前所構(gòu)建的知識(shí)庫離機(jī)器達(dá)到普通人認(rèn)知世界所需要的知識(shí)水平還十分遙遠(yuǎn)。

知識(shí)資源建設(shè)必定是一個(gè)持續(xù)完善的過程,很難畢其功于一役。所以,應(yīng)當(dāng)謹(jǐn)慎選擇應(yīng)用痛點(diǎn),構(gòu)建滿足應(yīng)用場(chǎng)景需要的相應(yīng)知識(shí)資源。知識(shí)資源建設(shè)的基本原則是適度?!斑m”是指對(duì)于特定應(yīng)用場(chǎng)景的適配,“度”是指合理把控知識(shí)的邊界與體量。其次,行業(yè)與企業(yè)的發(fā)展環(huán)境變化迅速,一成不變的知識(shí)庫是難以適應(yīng)快速變化的外部環(huán)境的。

圖2知識(shí)圖譜助力行業(yè)智能化的演進(jìn)路徑

2.知識(shí)圖譜系統(tǒng)

知識(shí)圖譜技術(shù)的落地與實(shí)踐以知識(shí)圖譜系統(tǒng)的建設(shè)、實(shí)施與運(yùn)營(yíng)為主要內(nèi)容。知識(shí)圖譜系統(tǒng)是一類以知識(shí)圖譜建設(shè)與應(yīng)用為核心內(nèi)容的人機(jī)協(xié)作系統(tǒng)。本節(jié)對(duì)知識(shí)圖譜系統(tǒng)的外部環(huán)境、系統(tǒng)要素以及基本架構(gòu)展開介紹。

2.1 知識(shí)圖譜系統(tǒng)的外部環(huán)境

作為一類大規(guī)模復(fù)雜系統(tǒng),知識(shí)圖譜系統(tǒng)是作為企業(yè)更為龐大的信息系統(tǒng)或智能系統(tǒng)的一部分。與傳統(tǒng)的信息系統(tǒng)相比較,知識(shí)圖譜構(gòu)建與應(yīng)用是知識(shí)圖譜系統(tǒng)的基本標(biāo)志。在當(dāng)前企業(yè)信息化與智能化建設(shè)過程中,知識(shí)圖譜系統(tǒng)對(duì)于其他信息系統(tǒng),起到了助推與賦能的作用,而不是代替。各類管理信息系統(tǒng)(比如企業(yè)的財(cái)務(wù)、人事管理信息系統(tǒng))以及智能信息系統(tǒng)(比如智能門禁系統(tǒng)、商務(wù)智能系統(tǒng))有其自身存在的不可代替的價(jià)值。

沒有這些系統(tǒng)積累的數(shù)據(jù)與業(yè)務(wù)知識(shí),知識(shí)圖譜系統(tǒng)是建設(shè)難以成功。知識(shí)圖譜系統(tǒng)給其他信息系統(tǒng)帶來認(rèn)知能力,這種能力體現(xiàn)為一系列具體的認(rèn)知服務(wù)。知識(shí)圖譜系統(tǒng)賦能其他信息系統(tǒng)這種關(guān)系決定了知識(shí)圖譜建設(shè)不是“大破大立”式的另起爐灶與重新建設(shè),而是“和風(fēng)細(xì)雨”式的柔性改造與能力升級(jí)。知識(shí)圖譜與企業(yè)其他信息系統(tǒng)之間的關(guān)系如圖3所示。

圖3知識(shí)圖譜系統(tǒng)與其他業(yè)務(wù)系統(tǒng)之間的關(guān)系

隨著知識(shí)圖譜在領(lǐng)域與企業(yè)應(yīng)用的普及,知識(shí)圖譜日益占據(jù)向上支撐應(yīng)用、向下統(tǒng)攝數(shù)據(jù)的核心地位。如圖4所示,在一個(gè)典型的企業(yè)知識(shí)圖譜系統(tǒng)中,知識(shí)圖譜與數(shù)據(jù)之間的關(guān)系是雙向的。一方面各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)是知識(shí)圖譜構(gòu)建的知識(shí)來源。另一方面,知識(shí)圖譜中的關(guān)聯(lián)關(guān)系也為各業(yè)務(wù)數(shù)據(jù)的關(guān)聯(lián)與融合提供了支撐,使得自主普適的數(shù)據(jù)關(guān)聯(lián)成為可能,例如ID與身份證之間的同義關(guān)系可以指導(dǎo)相應(yīng)字段的映射。

知識(shí)圖譜系統(tǒng)與應(yīng)用之間的關(guān)系也是雙向的。一方面知識(shí)圖譜系統(tǒng)的各類認(rèn)知服務(wù)支撐企業(yè)的各種典型應(yīng)用的智能化升級(jí)。另一方面,各類應(yīng)用為知識(shí)圖譜系統(tǒng)提供反饋。這里的反饋包含兩個(gè)主要內(nèi)容,一是對(duì)認(rèn)知服務(wù)能力的效果的反饋,二是對(duì)于知識(shí)圖譜中的知識(shí)質(zhì)量的反饋。在很多大型企業(yè)中,由于業(yè)務(wù)多元、服務(wù)多樣,對(duì)于技術(shù)與服務(wù)的平臺(tái)化提出了訴求。越來越多的技術(shù)中臺(tái)與業(yè)務(wù)中臺(tái)的建設(shè)被提上了議事日程。隨著智能化技術(shù)的推進(jìn),中臺(tái)的智能化已經(jīng)成為鮮明趨勢(shì)。知識(shí)圖譜向上支撐應(yīng)用、向下統(tǒng)攝數(shù)據(jù)的這一核心地位,決定了知識(shí)圖譜系統(tǒng)將成為未來智能化中臺(tái)的核心引擎。

圖4 知識(shí)圖譜系統(tǒng)向上支撐應(yīng)用、向下統(tǒng)攝數(shù)據(jù)的核心地位

2.2 知識(shí)圖譜系統(tǒng)關(guān)鍵要素

知識(shí)圖譜系統(tǒng)的核心要素包括人、算法與數(shù)據(jù)。三者相互影響、密不可分,共同構(gòu)成了知識(shí)圖譜系統(tǒng)的堅(jiān)實(shí)基礎(chǔ)。算法需要人定義特征、選擇模型;算法需要標(biāo)注數(shù)據(jù);數(shù)據(jù)來自人的活動(dòng),來自人的標(biāo)注;算法的結(jié)果支撐人的行為與決策。

圖5 知識(shí)圖譜系統(tǒng)的三個(gè)要素

這里的人是指知識(shí)圖譜系統(tǒng)的各類人類角色。人是知識(shí)圖譜系統(tǒng)的發(fā)起者、設(shè)計(jì)者、實(shí)施者與評(píng)價(jià)者,是知識(shí)圖譜系統(tǒng)的核心。知識(shí)圖譜中的人員涉及眾多角色,按照知識(shí)圖譜系統(tǒng)生命周期的三個(gè)主要階段可以分為幾類角色。

(1)在分析與論證階段,需要領(lǐng)域?qū)<遗c知識(shí)圖譜系統(tǒng)工程師共同開展需求分析,論述知識(shí)圖譜系統(tǒng)建設(shè)的必要性與可行性。必要性從應(yīng)用需求的迫切性與業(yè)務(wù)價(jià)值等角度進(jìn)行評(píng)判??尚行詮臄?shù)據(jù)資源稟賦、應(yīng)用要求以及知識(shí)表示的復(fù)雜程度等角度來評(píng)估,并進(jìn)一步合理規(guī)劃知識(shí)圖譜系統(tǒng)建設(shè)所需要的數(shù)據(jù)資源、人員投入以及成本投入等等。(2)在設(shè)計(jì)與實(shí)施階段,需要各類工程師完成數(shù)據(jù)治理、知識(shí)加工、算法設(shè)計(jì)以及樣本標(biāo)注等各環(huán)節(jié)的任務(wù)。(3)在運(yùn)營(yíng)與評(píng)價(jià)階段,需要運(yùn)維工程師對(duì)于知識(shí)圖譜系統(tǒng)進(jìn)行長(zhǎng)期運(yùn)維,需要用戶對(duì)系統(tǒng)實(shí)施效果加以評(píng)價(jià)。

圖6 知識(shí)圖譜系統(tǒng)的人員角色

這里的數(shù)據(jù)是特指作為知識(shí)圖譜知識(shí)來源的數(shù)據(jù)。數(shù)據(jù)是符號(hào)化的記錄,數(shù)據(jù)經(jīng)過知識(shí)加工而成為知識(shí),知識(shí)是數(shù)據(jù)的結(jié)晶。知識(shí)圖譜作為的大數(shù)據(jù)知識(shí)工程代表,能否實(shí)現(xiàn)自動(dòng)化知識(shí)獲取是關(guān)鍵。而自動(dòng)化知識(shí)獲取的前提是數(shù)據(jù)。

知識(shí)圖譜系統(tǒng)所使用的數(shù)據(jù)類型眾多,可以是事實(shí)數(shù)據(jù)、也可以是元數(shù)據(jù)(關(guān)于數(shù)據(jù)的數(shù)據(jù));可以按照模態(tài)分為關(guān)系數(shù)據(jù)、文本數(shù)據(jù)、多媒體數(shù)據(jù);也按照業(yè)務(wù)類型數(shù)據(jù)分為人事、財(cái)務(wù)、物料等各類數(shù)據(jù);還可以按照來源分為內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)。外部數(shù)據(jù)可以分為百科數(shù)據(jù)、Web數(shù)據(jù)、社交媒體、新聞媒體數(shù)據(jù)、企業(yè)內(nèi)部業(yè)務(wù)數(shù)據(jù)等等;從業(yè)務(wù)知識(shí)的來源角度可以分為領(lǐng)域本體、敘詞表、領(lǐng)域百科、企業(yè)社區(qū)等數(shù)據(jù)。

大數(shù)據(jù)的一個(gè)基本特點(diǎn)在于其多樣性(Variety)。知識(shí)圖譜的來源同樣是多樣的,這對(duì)大規(guī)模知識(shí)加工提出可巨大挑戰(zhàn)。大規(guī)模知識(shí)工程需要應(yīng)對(duì)來源不同、模式異構(gòu)的數(shù)據(jù)自動(dòng)加工整理成為知識(shí)的巨大復(fù)雜性。面向不同類型、不同來源的數(shù)據(jù),知識(shí)獲取、知識(shí)驗(yàn)證等算法都需要定制。因此,大規(guī)模自動(dòng)化知識(shí)獲取在數(shù)據(jù)處理層面就面臨著的巨大挑戰(zhàn)。

這里的算法是對(duì)于知識(shí)圖譜系統(tǒng)整個(gè)生命周期中涉及的自動(dòng)化計(jì)算過程、模型、策略的總稱。知識(shí)圖譜構(gòu)建、管理與應(yīng)用等各個(gè)環(huán)節(jié)均涉及大量算法。知識(shí)構(gòu)建環(huán)節(jié)包括知識(shí)的獲取模型、知識(shí)的融合策略、知識(shí)的驗(yàn)證機(jī)制以及知識(shí)的評(píng)估方法。知識(shí)管理環(huán)節(jié),涉及知識(shí)圖譜的存儲(chǔ)模型、組織方法、索引方式、查詢模型、檢索方法等等。知識(shí)應(yīng)用環(huán)節(jié),涉及基于知識(shí)圖譜的語言理解模型、語義搜索模型、智能推薦模型、自然語言問答模型、面向知識(shí)圖譜的推理機(jī)制與解釋方法等等。

2.3 知識(shí)圖譜系統(tǒng)的典型架構(gòu)

知識(shí)圖譜系統(tǒng)接受外部數(shù)據(jù)作為輸入,歷經(jīng)數(shù)據(jù)處理、知識(shí)加工、知識(shí)管理和認(rèn)知服務(wù),最終為各種場(chǎng)景下的應(yīng)用提供認(rèn)知服務(wù)能力。其基本過程如圖7所示。數(shù)據(jù)處理層接受原始數(shù)據(jù)作為輸入,經(jīng)過數(shù)據(jù)處理形成高質(zhì)量的數(shù)據(jù)。高質(zhì)量的數(shù)據(jù)進(jìn)入知識(shí)加工層,經(jīng)過各種知識(shí)加工工序生成高質(zhì)量的知識(shí)圖譜。大規(guī)模高質(zhì)量的知識(shí)圖譜是知識(shí)管理層的主要管理對(duì)象。知識(shí)管理層提供知識(shí)圖譜的存儲(chǔ)、索引與檢索能力。這些基本的知識(shí)訪問能力進(jìn)一步支撐基于知識(shí)圖譜的認(rèn)知服務(wù)實(shí)現(xiàn)。

圖7 知識(shí)圖譜系統(tǒng)的主要流程

(1)數(shù)據(jù)處理層

如圖8所示,數(shù)據(jù)處理層主要包括數(shù)據(jù)甄別、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)融合等步驟。數(shù)據(jù)甄別旨在明確建立領(lǐng)域知識(shí)圖譜的數(shù)據(jù)來源??赡軄碜曰ヂ?lián)網(wǎng)上的領(lǐng)域百科爬取,可能來自通用百科圖譜的導(dǎo)出,可能來自內(nèi)部業(yè)務(wù)數(shù)據(jù)的轉(zhuǎn)換,也可能來自外部業(yè)務(wù)系統(tǒng)的導(dǎo)入。應(yīng)該盡量選擇結(jié)構(gòu)化程度相對(duì)較高、質(zhì)量較好的數(shù)據(jù)源,以盡可能降低知識(shí)獲取代價(jià)。

不同來源有著不同的質(zhì)量,需要不同的數(shù)據(jù)加工方式。數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)融合等步驟與傳統(tǒng)構(gòu)建數(shù)據(jù)倉庫所需要的數(shù)據(jù)處理相類似。數(shù)據(jù)清洗是對(duì)數(shù)據(jù)中的噪音,特別是來自互聯(lián)網(wǎng)的錯(cuò)誤、虛假等信息進(jìn)行清洗,對(duì)表示不規(guī)范的數(shù)據(jù)進(jìn)行統(tǒng)一與規(guī)范化。數(shù)據(jù)轉(zhuǎn)換將不同形式、不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的表達(dá)形式。數(shù)據(jù)融合是針對(duì)不同來源的數(shù)據(jù)在數(shù)據(jù)層面進(jìn)行融合。這里的數(shù)據(jù)融合與后續(xù)的知識(shí)融合有相似之處,也有不同之處。后續(xù)的知識(shí)融合是在識(shí)別了實(shí)體、屬性等知識(shí)要素之后完成的。而此處的數(shù)據(jù)融合是字段、元組等層次的融合,數(shù)據(jù)或信息還未匯聚到實(shí)體上。

圖8 數(shù)據(jù)處理層的主要流程

(2)知識(shí)加工層

知識(shí)加工層是整個(gè)知識(shí)圖譜系統(tǒng)的核心。它接受數(shù)據(jù)處理層形成的高質(zhì)量數(shù)據(jù)作為輸入,輸出高質(zhì)量的知識(shí)圖譜。如圖9所示,知識(shí)加工的核心有三步:知識(shí)表示+知識(shí)獲取+知識(shí)驗(yàn)證。知識(shí)表示旨在明確應(yīng)用所需的知識(shí)表示形式。知識(shí)獲取在相應(yīng)的知識(shí)表示框架下獲取相應(yīng)的知識(shí)實(shí)例。知識(shí)驗(yàn)證對(duì)獲取的知識(shí)質(zhì)量展開驗(yàn)證。當(dāng)存在多個(gè)數(shù)據(jù)來源時(shí),往往還需要知識(shí)融合針對(duì)不同來源的數(shù)據(jù)所獲取的知識(shí)進(jìn)行融合。質(zhì)量提升可以作為單獨(dú)的環(huán)節(jié),也可以融于知識(shí)獲取的具體實(shí)現(xiàn)中。因此,知識(shí)融合與質(zhì)量提升都是可選的模塊。

圖9給出了知識(shí)加工在領(lǐng)域與企業(yè)應(yīng)用中的具體步驟。在領(lǐng)域知識(shí)圖譜應(yīng)用中,知識(shí)表示體現(xiàn)為模式設(shè)計(jì),知識(shí)獲取通常包含詞匯挖掘、實(shí)體發(fā)現(xiàn)、關(guān)系發(fā)現(xiàn)等三個(gè)主要內(nèi)容。整個(gè)流程中的關(guān)鍵模塊分別介紹如下:

1、模式設(shè)計(jì)。這一步與傳統(tǒng)的本體設(shè)計(jì)極為相似。基本目標(biāo)是把認(rèn)知領(lǐng)域的基本框架賦予機(jī)器。內(nèi)容包括指定領(lǐng)域的基本概念,以及概念之間subclassof關(guān)系(比如足球領(lǐng)域需要建立“足球運(yùn)動(dòng)員”是“運(yùn)動(dòng)員”的子類);明確領(lǐng)域的基本屬性;明確屬性的適用概念;明確屬性值的類別或者范圍。比如“效力球隊(duì)”這個(gè)屬性一般是定義在足球運(yùn)動(dòng)員這個(gè)概念上,其合理取值是一個(gè)球隊(duì)。

此外,領(lǐng)域還需定義約束或規(guī)則,比如部分屬性具有單值約束(比如每個(gè)實(shí)體“出生日期”的取值單一),還有些屬性對(duì)是互逆的(比如球隊(duì)的“隸屬球員”屬性與球員的“效力球隊(duì)”互逆)。這些元數(shù)據(jù)對(duì)于消除知識(shí)庫不一致、提升知識(shí)庫質(zhì)量具有重要意義。

2、詞匯挖掘。人們從事某個(gè)行業(yè)的知識(shí)的學(xué)習(xí),都是從該行業(yè)的基本詞匯開始的。在傳統(tǒng)圖書情報(bào)學(xué)領(lǐng)域,領(lǐng)域知識(shí)的積累往往是從敘詞表的構(gòu)建開始的。敘詞表里涵蓋的大都是領(lǐng)域的主題詞,及這些詞匯之間的基本語義關(guān)聯(lián)。這一步需要識(shí)別領(lǐng)域的高質(zhì)量詞匯、同義詞、縮寫詞,以及領(lǐng)域的常見情感詞。比如在政治領(lǐng)域,需要知道特朗普又被稱為“川普”,其英文簡(jiǎn)稱為Trump。

3、實(shí)體發(fā)現(xiàn)。需要指出的是領(lǐng)域詞匯只是識(shí)別出領(lǐng)域中的重要短語和詞匯,但是這些短語未必是一個(gè)領(lǐng)域?qū)嶓w。從領(lǐng)域文本識(shí)別某個(gè)領(lǐng)域常見實(shí)體是理解領(lǐng)域文本和數(shù)據(jù)的關(guān)鍵一步。在實(shí)體識(shí)別后,還需對(duì)實(shí)體進(jìn)行歸類。能否把實(shí)體歸到相應(yīng)的類別(或者說將某個(gè)實(shí)體與領(lǐng)域類別或概念進(jìn)行關(guān)聯(lián)),是實(shí)體歸類的基本目標(biāo),是理解實(shí)體的關(guān)鍵步驟。比如將特朗普歸類到政治人物、美國(guó)總統(tǒng)等類別,對(duì)于理解特朗普的含義具有重要意義。

4、關(guān)系發(fā)現(xiàn)。關(guān)系發(fā)現(xiàn)或者知識(shí)庫中的關(guān)系實(shí)例填充,是整個(gè)領(lǐng)域知識(shí)圖譜構(gòu)建的重要步驟。關(guān)系發(fā)現(xiàn)根據(jù)不同的問題模型又可以分為關(guān)系分類、關(guān)系抽取和開放關(guān)系抽取等不同變種。關(guān)系分類旨在將給定的實(shí)體對(duì)分類到某個(gè)已知關(guān)系;關(guān)系抽取旨在從文本中抽取某個(gè)實(shí)體對(duì)的具體關(guān)系;開放關(guān)系抽?。∣penIE)從文本中抽取出實(shí)體對(duì)之間的關(guān)系描述。也可以綜合使用這幾種模型與方法,比如根據(jù)開放關(guān)系抽取得到的關(guān)系描述將實(shí)體對(duì)分類到知識(shí)庫中的已知關(guān)系。

5、知識(shí)融合。因?yàn)橹R(shí)抽取來源多樣,不同的來源得到的知識(shí)不盡相同,這就對(duì)知識(shí)融合提出了需求。知識(shí)融合需要完成實(shí)體對(duì)齊、屬性融合、值規(guī)范化等步驟。實(shí)體對(duì)齊是識(shí)別不同來源的同一實(shí)體。屬性融合是識(shí)別同一屬性的不同描述。不同來源的數(shù)據(jù)值通常有不同的格式、不同的單位或者不同的描述形式。比如日期有數(shù)十種表達(dá)方式,這些需要規(guī)范化到統(tǒng)一格式。

6、質(zhì)量提升。知識(shí)圖譜的質(zhì)量是構(gòu)建的核心問題。作為大規(guī)模知識(shí)表示,數(shù)據(jù)驅(qū)動(dòng)的構(gòu)建方式是當(dāng)前知識(shí)圖譜的基本特點(diǎn)。語料的偏置(bias)以及自動(dòng)化方法的錯(cuò)誤勢(shì)必導(dǎo)致知識(shí)圖譜的質(zhì)量問題:缺漏、錯(cuò)誤、陳舊。因此需要對(duì)知識(shí)圖譜進(jìn)行補(bǔ)全、糾錯(cuò)和更新。質(zhì)量提升對(duì)于大規(guī)模知識(shí)圖譜的建設(shè)是不可或缺的。

7、知識(shí)驗(yàn)證。知識(shí)驗(yàn)證是對(duì)知識(shí)圖譜的質(zhì)量最后把關(guān)。仍然需要由人來完成最終的驗(yàn)證。對(duì)于數(shù)以億計(jì)的大規(guī)模圖譜,全量驗(yàn)證代價(jià)極大,通常通過抽樣完成驗(yàn)證。也可以通過眾包方式將驗(yàn)證任務(wù)分發(fā)給眾包工人由眾包工人完成驗(yàn)證。在人工驗(yàn)證環(huán)節(jié),待驗(yàn)證知識(shí)的組織(比如分組、排序等方式)對(duì)驗(yàn)證效率有著極大的影響,往往需要予以充分考慮??傮w而言,知識(shí)驗(yàn)證還有待從心理學(xué)、人機(jī)交互等多學(xué)科角度深入研究這一問題。

經(jīng)歷了上述步驟之后得到一個(gè)初步的領(lǐng)域知識(shí)圖譜。在實(shí)際應(yīng)用中會(huì)得到不少反饋,這些反饋?zhàn)鳛檩斎脒M(jìn)一步指導(dǎo)上述流程的完善,從而形成閉環(huán)。此外,除了上述自動(dòng)化構(gòu)建的閉環(huán)流程,還應(yīng)充分考慮人工的干預(yù)。人工補(bǔ)充很多時(shí)候是行之有效的方法。比如一旦發(fā)現(xiàn)部分知識(shí)缺漏或陳舊,可以通過特定的知識(shí)編輯工具實(shí)現(xiàn)知識(shí)的添加、刪除和修改。也可以利用眾包手段將很多知識(shí)獲取任務(wù)分發(fā)下去。

圖9 知識(shí)加工層的的主要流程與關(guān)鍵模塊

(3)認(rèn)知服務(wù)層

認(rèn)知服務(wù)層是基于知識(shí)圖譜提供認(rèn)知能力,包括語言理解和認(rèn)知服務(wù)兩類基本能力以及推理引擎這一核心模塊,其典型架構(gòu)如圖15.10所示。在語言理解層次,提供從自然語言到知識(shí)圖譜中的知識(shí)要素的映射,包括實(shí)體理解(實(shí)體鏈接)、概念理解(概念識(shí)別)、屬性理解、主題理解(主題識(shí)別)等。在有些應(yīng)用中需要將自然語言映射到事件描述框架,因此還需要開展框架映射。

基于語言理解的基本能力,形成認(rèn)知服務(wù),包括語義搜索、智能推薦、問答交互以及解釋生成。這些認(rèn)知服務(wù)都是基于知識(shí)圖譜所形成的。比如知識(shí)圖譜中的實(shí)體與概念可以幫助識(shí)別搜索中的實(shí)體或概念,從而有助于搜索的意圖識(shí)別。

在概念圖譜支撐下,可以實(shí)現(xiàn)基于上下位關(guān)系的推薦,比如搜索iPhone X,通過其上位詞高端手機(jī)推薦華為P20等。問答交互主要實(shí)現(xiàn)基于知識(shí)圖譜的問答。其中,問題理解、屬性匹配、會(huì)話引導(dǎo)與答案生成都可以利用知識(shí)圖譜的知識(shí)。隨著可解釋需求日益增多,為機(jī)器決策生成解釋日益重要。比如從知識(shí)圖譜中找到關(guān)聯(lián)路徑解釋實(shí)體對(duì)之間的關(guān)系(對(duì)應(yīng)路徑發(fā)現(xiàn));為一個(gè)待解釋問題匹配相應(yīng)的知識(shí)圖譜子圖等等(對(duì)應(yīng)解釋匹配)。

圖10 認(rèn)知服務(wù)層的主要架構(gòu)

此外,在整個(gè)認(rèn)知服務(wù)的實(shí)現(xiàn)過程中,推理引擎的實(shí)現(xiàn)也是十分重要的,推理某種意義上是符號(hào)知識(shí)存在的最為獨(dú)特的價(jià)值。知識(shí)圖譜上推理引擎的實(shí)現(xiàn)可以彌補(bǔ)知識(shí)的缺失,提升系統(tǒng)的智能程度。

知識(shí)圖譜上的推理有幾種主要的實(shí)現(xiàn)方式。第一、另行定義規(guī)則,以知識(shí)圖譜作為基本事實(shí),開展推理。比如通過定義“父親的父親是爺爺”這樣的規(guī)則,就可以從“A的父親是B,B的父親是C”,推理出“C是A的爺爺”。第二、基于知識(shí)圖譜的分布式推理。隨著深度學(xué)習(xí)的流行,基于知識(shí)圖譜的向量表示成為知識(shí)圖譜中實(shí)體與關(guān)系重要表示方式。給定實(shí)體h與t的向量表示(比如h,t),如果向量h,t的距離足夠相近,則推斷h與t語義相近。第三、基于知識(shí)圖譜上的顯式推理。這種推理方式將知識(shí)圖譜建模為異構(gòu)信息網(wǎng)絡(luò),當(dāng)兩個(gè)實(shí)體h與t在知識(shí)圖譜之間存在多條可達(dá)路徑,且路徑上的語義關(guān)聯(lián)強(qiáng)度足夠大,則推斷h與t語義相近。

顯然基于圖模型的顯式推理可解釋。事實(shí)上不難利用顯式推理所找到的路徑作為特征,訓(xùn)練學(xué)習(xí)知識(shí)圖譜的向量表示。在實(shí)際的應(yīng)用中,往往是多種推理機(jī)制并存,最后通過特定協(xié)同機(jī)制完成最終推理。比如往往先用分布式推理進(jìn)行粗篩選,再利用顯式推理和基于規(guī)則的推理生成可解釋結(jié)果,并將最終推理結(jié)果呈現(xiàn)給終端用戶。

(4)知識(shí)管理層

知識(shí)管理層旨在實(shí)現(xiàn)知識(shí)圖譜數(shù)據(jù)的有效管理和高效訪問,其主要模塊如圖11所示。知識(shí)圖譜的管理涉及知識(shí)圖譜的建模、存儲(chǔ)、索引和查詢。在建模部分明確知識(shí)圖譜的數(shù)據(jù)結(jié)構(gòu)。存儲(chǔ)部分完成知識(shí)圖譜在磁盤或者分布式環(huán)境下的存儲(chǔ)與組織方式。為了加速大規(guī)模知識(shí)圖譜上的查詢通常需要建立相應(yīng)的索引結(jié)構(gòu),包括基于子結(jié)構(gòu)的索引和關(guān)鍵字索引。最終基于這些索引方式實(shí)現(xiàn)各類查詢,包括特定子圖結(jié)構(gòu)的查詢(比如路徑、社區(qū)、一般子圖等等)和關(guān)鍵字查詢。

圖11 知識(shí)管理層的主流模塊

3.知識(shí)圖譜工程

知識(shí)圖譜系統(tǒng)的建設(shè)是個(gè)系統(tǒng)工程,需要謹(jǐn)慎論證、詳盡規(guī)劃、有序推進(jìn)、持續(xù)運(yùn)營(yíng)以及全面保障,這些都必須付諸工程實(shí)踐才能實(shí)現(xiàn)。知識(shí)圖譜工程是以知識(shí)圖譜系統(tǒng)的建設(shè)為核心內(nèi)容的一類工程實(shí)踐。本章首先介紹知識(shí)圖譜工程開展的基本原則,再介紹知識(shí)圖譜工程的過程模型、可行性分析以及實(shí)踐建議。

3.1 基本原則

知識(shí)圖譜工程實(shí)踐過程中呈現(xiàn)出一些普適的基本原則。堅(jiān)持這些基本原則是保障知識(shí)圖譜工程順利實(shí)施的前提。

(1)合理定位。為知識(shí)圖譜項(xiàng)目設(shè)定合理的定位目標(biāo)十分重要。期望過高,或者期望明顯高于當(dāng)前技術(shù)水平會(huì)帶來不良后果。我們首先必須心懷敬畏。人類的智能是通過數(shù)百萬年進(jìn)化而成的。即便當(dāng)前技術(shù)進(jìn)步日新月異,要在有限的數(shù)十年內(nèi)讓機(jī)器完全達(dá)到人類的認(rèn)知水平仍然是個(gè)足夠偉大的目標(biāo)。任何一個(gè)普通人在知識(shí)方面所具有的智能,都是當(dāng)前機(jī)器所無法企及的。

以當(dāng)前的技術(shù)水平,代替專家助理的工作是個(gè)合適的目標(biāo),代替領(lǐng)域?qū)<业墓ぷ魅匀皇掷щy。專家的很多知識(shí)是隱性的,難以言明的,難以外化的。專家之所以為專家,是需要經(jīng)年累月的學(xué)習(xí)與訓(xùn)練。專家所積累的不單單是簡(jiǎn)單的關(guān)聯(lián)事實(shí),更涉及思維方式、場(chǎng)景適配、異常處理等知識(shí)。

這里涉及大量的元知識(shí)(meta-knowledge,也就是有關(guān)知識(shí)的知識(shí))、涉及大量難以有效表示的知識(shí)。這些都是當(dāng)前機(jī)器難以代替的。而專家助理的工作則相對(duì)簡(jiǎn)單,是規(guī)則性的簡(jiǎn)單知識(shí)工作,比如查找文件、整理文檔、收發(fā)郵件等等,普通人只需要具備簡(jiǎn)單的詞匯知識(shí)與基本事實(shí)即可勝任,是有可能率先在實(shí)際應(yīng)用場(chǎng)景取得成效的。

(2)應(yīng)用牽引。應(yīng)用牽引的發(fā)展思路是與平臺(tái)支撐的思路相對(duì)而言的。前者從應(yīng)用出發(fā),明確技術(shù)需求。后者從技術(shù)能力與平臺(tái)出發(fā)去適配應(yīng)用。在互聯(lián)網(wǎng)飛速發(fā)展的時(shí)代,平臺(tái)化思維成就了一批優(yōu)秀的企業(yè)。平臺(tái)型模式一般較為簡(jiǎn)單,因而可以規(guī)?;?。

以淘寶這類B2C平臺(tái)為例,店家與消費(fèi)以及平臺(tái)之間的關(guān)系明確,業(yè)務(wù)模式簡(jiǎn)單且具有同質(zhì)化,這就為技術(shù)與業(yè)務(wù)的平臺(tái)化提供了可能。但是當(dāng)前人工智能的發(fā)展多以場(chǎng)景化應(yīng)用為主?;谥R(shí)圖譜的認(rèn)知智能還沒發(fā)展到普適、通用智能的階段。不同應(yīng)用,不同場(chǎng)景所需要的知識(shí)表示不同、知識(shí)獲取手段不同、數(shù)據(jù)資源稟賦不同,這都決定了知識(shí)圖譜技術(shù)平臺(tái)化發(fā)展的異常艱難。

(3)循序漸進(jìn)。一顆蘋果樹上的蘋果不可能同時(shí)成熟。此時(shí),最簡(jiǎn)單的策略就是先摘成熟的果子,坐等其他蘋果自然成熟再行采摘。同樣,知識(shí)圖譜技術(shù)體系復(fù)雜多樣,包括知識(shí)表示、知識(shí)抽取、知識(shí)融合、知識(shí)推理、知識(shí)存儲(chǔ)和知識(shí)檢索等。每類關(guān)鍵技術(shù)的成熟度不同,有的已進(jìn)入實(shí)用化階段,有的仍處于學(xué)術(shù)研究階段。

一個(gè)產(chǎn)業(yè)的發(fā)展歷程通常呈現(xiàn)出是部分技術(shù)先成熟再逐步帶動(dòng)相關(guān)技術(shù)發(fā)展的特點(diǎn)。整個(gè)產(chǎn)業(yè)技術(shù)的成熟是需要經(jīng)過漫長(zhǎng)的發(fā)展周期的。企圖速戰(zhàn)速?zèng)Q、畢其功于一役是不現(xiàn)實(shí)的。知識(shí)圖譜各項(xiàng)技術(shù)成熟程度不均衡是當(dāng)前知識(shí)圖譜產(chǎn)業(yè)實(shí)踐的基本情形。大部分技術(shù)仍然停留在只能在特定測(cè)試集上取得一定效果,還難以在廣泛而多樣數(shù)據(jù)上取得穩(wěn)定效果。具有較高產(chǎn)業(yè)成熟度的技術(shù)還不多。

(4)先簡(jiǎn)后難。在知識(shí)圖譜的整個(gè)技術(shù)棧中,仍然存在一些瓶頸性難題,比如從文本中的知識(shí)獲取仍然面臨不少困難,落地困難重重。即便是一個(gè)簡(jiǎn)單的中文分詞任務(wù)仍然需要大量的研究工作,比如對(duì)短語“南京市長(zhǎng)江大橋”進(jìn)行分詞,可以是“南京市+長(zhǎng)江大橋”,也可以是“南京市長(zhǎng)+江大橋”,準(zhǔn)確的分詞有賴上下文語義的準(zhǔn)確理解。

因此,實(shí)際落地過程應(yīng)遵循先簡(jiǎn)后難的原則:先從結(jié)構(gòu)化程度高的數(shù)據(jù)中抽取出易于獲得的語言知識(shí)(如敘詞表、上下位概念),再?gòu)陌虢Y(jié)構(gòu)化數(shù)據(jù)中抽取出世界知識(shí)(如<劉德華,職業(yè),演員>),進(jìn)而總結(jié)出業(yè)務(wù)知識(shí)(比如,體溫達(dá)到39度可能感冒了),最后再處理決策知識(shí).

(5)由粗到細(xì)。知識(shí)表示是有粒度粗細(xì)之分的。比如在司法知識(shí)表示方面,某個(gè)法律條款(比如“機(jī)動(dòng)車變道,應(yīng)打開相應(yīng)的變道指示燈”)可作為合適的知識(shí)表示粒度,也可以進(jìn)一步細(xì)化為條件(機(jī)動(dòng)車變道)與結(jié)果(打開相應(yīng)的變道指示燈)。條件部分的知識(shí)表示還可以進(jìn)一步細(xì)分為實(shí)體(機(jī)動(dòng)車)與動(dòng)作(變道),顯然粒度越細(xì)表達(dá)越精準(zhǔn)。

但是知識(shí)獲取的難度也越大,知識(shí)的不確定性也越強(qiáng)。比如在概念圖譜中,實(shí)例的概念歸屬往往隨著概念粒度的變細(xì)而變得越加不確定。例如,堡是個(gè)食物幾乎沒有人會(huì)有異議,但若說漢堡是個(gè)健康食物,則可能會(huì)有人反對(duì)。因此,知識(shí)資源的建設(shè)應(yīng)該遵循由粗到精,逐步求精的基本原則。

(6)求同存異。知識(shí)是人們認(rèn)知世界的結(jié)果。不同的認(rèn)知主體對(duì)于同一個(gè)世界的認(rèn)識(shí)是有差異的,知識(shí)因而具有主觀性。在當(dāng)前階段去深究知識(shí)的主觀性問題可能十分困難。知識(shí)的主觀性差異往往是細(xì)微的。不同人對(duì)于“高個(gè)子”到底多高會(huì)有量上的細(xì)微差別,但是沒有人會(huì)認(rèn)為2.2米還不是高個(gè)子。

因此,比較務(wù)實(shí)的作法是求同存異,擱置爭(zhēng)議。隨著系統(tǒng)的上線,用戶反饋數(shù)據(jù)日益增多,有爭(zhēng)議的事實(shí),可以使用數(shù)據(jù)驅(qū)動(dòng)的方法來加以界定。比如對(duì)于搜索“矮個(gè)子NBA球星”,如果大部分用戶在這一搜索關(guān)鍵詞下,點(diǎn)擊的球星都在1.8米以下,那么1.8米以下對(duì)于NBA球星而言或許就是矮個(gè)子。知識(shí)圖譜落地中,應(yīng)該暫且擱置爭(zhēng)議,先解決容易解決的問題,剩下的問題在時(shí)機(jī)成熟時(shí)或許就自然能夠解決。

(7)人機(jī)協(xié)同。當(dāng)前知識(shí)圖譜的落地,需要機(jī)器和人,二者缺一不可。傳統(tǒng)知識(shí)工程對(duì)于人有著較強(qiáng)的依賴,限制了知識(shí)庫的規(guī)模與效用;大數(shù)據(jù)知識(shí)工程強(qiáng)調(diào)數(shù)據(jù)驅(qū)動(dòng)的知識(shí)獲取,依賴機(jī)器實(shí)現(xiàn)自動(dòng)化知識(shí)獲取。但是當(dāng)前的知識(shí)獲取自動(dòng)化仍然需要人的干預(yù),人在環(huán)中仍是常態(tài)。

當(dāng)前的人工智能總體上是人類指導(dǎo)下的智能(Human supervised AI),機(jī)器智能在以下幾點(diǎn)需要人類的指導(dǎo)。機(jī)器需要人類特別是領(lǐng)域?qū)<屹x予機(jī)器以認(rèn)知世界、認(rèn)知特定領(lǐng)域的基本概念框架,比如領(lǐng)域本體或者領(lǐng)域模式的定義。其次,機(jī)器需要人類標(biāo)注樣本、反饋結(jié)果。一個(gè)詞匯是否是合適的領(lǐng)域詞匯。一幅病理圖片是否指征相應(yīng)的病變,這些都需要有著深刻的業(yè)務(wù)知識(shí)才能完成。因此,人機(jī)協(xié)同時(shí)知識(shí)圖譜工程推進(jìn)的基本原則之一。

圖12 人在環(huán)中的人工智能發(fā)展模式

(8) 快速啟動(dòng)。很多行業(yè)或者企業(yè)在開展知識(shí)圖譜項(xiàng)目時(shí),或多或少已經(jīng)存在很多相關(guān)知識(shí)資源,比如領(lǐng)域本體、敘詞表等等?;ヂ?lián)網(wǎng)上的公開來源也存在不少相關(guān)的百科資源,通用百科圖譜已經(jīng)涵蓋了某個(gè)領(lǐng)域大量的實(shí)體。這些知識(shí)資源往往消耗了巨大人工成本經(jīng)過多年持續(xù)積累而得,是相關(guān)知識(shí)圖譜構(gòu)建的寶貴財(cái)富。充分利用這些資源,提高領(lǐng)域知識(shí)圖譜構(gòu)建的起點(diǎn),是知識(shí)圖譜項(xiàng)目成功落地的關(guān)鍵思路之一。

知識(shí)資源建設(shè)有個(gè)很有意思的現(xiàn)象,那就是從無到有的構(gòu)建代價(jià)要顯著高于在不完善的知識(shí)庫上的完善代價(jià)。此外,跨領(lǐng)域遷移也是降低構(gòu)建成本的重要思路,因?yàn)橄嘟I(lǐng)域的知識(shí)是可以復(fù)用的,比如在給中國(guó)移動(dòng)建設(shè)知識(shí)圖譜時(shí)可以借鑒中國(guó)電信的知識(shí)圖譜。這個(gè)原則也意味著知識(shí)圖譜落地過程中,將來會(huì)涌現(xiàn)出一大批面向特定行業(yè)提供知識(shí)圖譜解決方案的企業(yè)。因此,復(fù)用是知識(shí)資源建設(shè)的重要策略之一。

3.2 過程模型

知識(shí)圖譜工程的生命周期包含三個(gè)主要階段:分析與論證、設(shè)計(jì)與實(shí)施以及運(yùn)營(yíng)與評(píng)價(jià)。每個(gè)階段作為后續(xù)階段的輸入。三個(gè)階段相繼完成后,整個(gè)工程過程進(jìn)入下一輪,如此循環(huán)往復(fù)、迭代進(jìn)行,直至實(shí)現(xiàn)智能化。

(1)分析與論證。這一階段的基本目標(biāo)是明確知識(shí)圖譜的應(yīng)用目標(biāo),分析知識(shí)圖譜的業(yè)務(wù)價(jià)值,論證知識(shí)圖譜項(xiàng)目上線的必要性;對(duì)所設(shè)定目標(biāo)所涉及的數(shù)據(jù)資源、人員投入、資金投入等角度作出可行性評(píng)估,以及投資收益分析;對(duì)于整個(gè)知識(shí)圖譜工程項(xiàng)目的進(jìn)行規(guī)劃。

(2)設(shè)計(jì)與實(shí)施。對(duì)知識(shí)圖譜系統(tǒng)相關(guān)的數(shù)據(jù)庫、數(shù)據(jù)流程、系統(tǒng)架構(gòu)、關(guān)鍵算法、系統(tǒng)選型等等進(jìn)行設(shè)計(jì),制定詳細(xì)的設(shè)計(jì)方案;進(jìn)行代碼開發(fā),實(shí)現(xiàn)相關(guān)算法;集成相關(guān)系統(tǒng),完成系統(tǒng)上線。

(3)運(yùn)營(yíng)與評(píng)價(jià)。知識(shí)圖譜工程是一種典型的智能化工程。智能化相關(guān)的系統(tǒng)在建設(shè)完成后,仍然要經(jīng)歷多輪運(yùn)營(yíng)與優(yōu)化。在每一輪迭代,獲取用戶的使用日志、評(píng)估反饋是十分關(guān)鍵的。這些反饋與日志是是下一輪建設(shè)或優(yōu)化的輸入,知識(shí)圖譜工程持續(xù)演進(jìn)的重要依據(jù)。

圖13 知識(shí)圖譜工程過程演進(jìn)模型

知識(shí)圖譜系統(tǒng)的設(shè)計(jì)與實(shí)施環(huán)節(jié)從知識(shí)的加工流程角度來看包含四個(gè)重要環(huán)節(jié):知識(shí)表示、知識(shí)獲取、知識(shí)管理與知識(shí)應(yīng)用。這四個(gè)環(huán)節(jié)循環(huán)迭代。

知識(shí)應(yīng)用環(huán)節(jié)明確應(yīng)用場(chǎng)景,明確知識(shí)的應(yīng)用方式。知識(shí)表示定義了領(lǐng)域的基本認(rèn)知框架,明確領(lǐng)域有哪些基本的概念,概念之間有哪些基本的語義關(guān)聯(lián)。比如企業(yè)家與企業(yè)之間的關(guān)系可以是創(chuàng)始人關(guān)系,這是認(rèn)知企業(yè)領(lǐng)域的基本知識(shí)。知識(shí)表示只提供機(jī)器認(rèn)知的基本骨架,還要通過知識(shí)獲取環(huán)節(jié)來充實(shí)大量知識(shí)實(shí)例。比如喬布斯是個(gè)企業(yè)家,蘋果公司是家企業(yè),喬布斯與蘋果公司就是“企業(yè)家-創(chuàng)始人-企業(yè)”這個(gè)關(guān)系的一個(gè)具體實(shí)例。

知識(shí)實(shí)例獲取完成之后,就是知識(shí)管理。這個(gè)環(huán)節(jié)將知識(shí)加以存儲(chǔ)與索引,并為上層應(yīng)用提供高效的檢索與查詢方式,實(shí)現(xiàn)高效的知識(shí)訪問。四個(gè)環(huán)節(jié)環(huán)環(huán)相扣,彼此構(gòu)成相鄰環(huán)節(jié)的輸入與輸出。在知識(shí)的具體應(yīng)用過程中,會(huì)不斷得到用戶的反饋,這些反饋會(huì)對(duì)知識(shí)表示、獲取與管理提出新的要求,因此整個(gè)生命周期會(huì)不斷迭代持續(xù)演進(jìn)下去。

3.3 可行性分析

知識(shí)圖譜技術(shù)仍然是發(fā)展中的技術(shù),很多技術(shù)還不成熟,因此做好可行性分析十分重要。知識(shí)圖譜落地的可行性與以下幾個(gè)因素關(guān)系密切。

(1)是否是封閉應(yīng)用。封閉的對(duì)立面就是開放。所謂開放性是指無法預(yù)期可能發(fā)生的事態(tài),從而無法有效預(yù)設(shè)先驗(yàn)規(guī)則。換言之,在開放環(huán)境中,機(jī)器很容易碰到無法合理處理的情形,因?yàn)檫@些情形沒有被定義過、沒有被描述過,使得機(jī)器無所適從。開放性問題是知識(shí)工程乃至整個(gè)人工智能的根本難題。它與一系列我們經(jīng)常提及的人工智能難題諸如常識(shí)理解、小樣本學(xué)習(xí)、元學(xué)習(xí)都有著密切關(guān)系。開放性難題是帶來一次次人工智能寒冬的“罪魁禍?zhǔn)住薄?/p>

開放性難題對(duì)于知識(shí)工程的挑戰(zhàn)體現(xiàn)在知識(shí)的需求難以閉合。也就是說,實(shí)際應(yīng)用所需要的知識(shí)中往往會(huì)超出領(lǐng)域所預(yù)先設(shè)定的知識(shí)邊界。比如在金融知識(shí)圖譜落地過程中,單單涵蓋公司、法人、機(jī)構(gòu)、產(chǎn)品這些核心往往不足以支撐智能應(yīng)用?;诮鹑谥R(shí)圖譜的關(guān)聯(lián)分析往往會(huì)牽扯出幾乎萬事萬物。比如,諸如龍卷風(fēng)等氣候?yàn)?zāi)害,會(huì)使得農(nóng)作物產(chǎn)量下降,農(nóng)業(yè)機(jī)械的出貨量因而就會(huì)下降,農(nóng)機(jī)的發(fā)動(dòng)機(jī)產(chǎn)量也就相應(yīng)要下降,從事農(nóng)機(jī)發(fā)動(dòng)機(jī)關(guān)鍵部件生產(chǎn)的公司業(yè)績(jī)就會(huì)下降,相關(guān)公司的股票可能就會(huì)下跌。

事實(shí)上,一切實(shí)體都身處在一個(gè)復(fù)雜的因果網(wǎng)絡(luò)中,世界是普遍關(guān)聯(lián)的。這就導(dǎo)致沿著任何一個(gè)實(shí)體開展關(guān)聯(lián)分析都極為容易超出預(yù)先設(shè)定的知識(shí)邊界。因此,行業(yè)應(yīng)用中的知識(shí)需求難以封閉于領(lǐng)域知識(shí)的邊界范圍內(nèi)。而傳統(tǒng)知識(shí)工程成功應(yīng)用的場(chǎng)景,比如計(jì)算機(jī)系統(tǒng)配置、數(shù)學(xué)定理證明,都是相對(duì)封閉的應(yīng)用。在幾何定理的證明中不會(huì)用到推理規(guī)則之外的任何知識(shí)。

(2)是否涉及常識(shí)。越少涉及常識(shí),越容易成功。常識(shí)是我們每個(gè)人都知道無需言明即可理解的知識(shí)。常識(shí)獲取與理解是通用人工智能實(shí)現(xiàn)的關(guān)鍵基礎(chǔ)問題。常識(shí)難以建模、難以獲取、機(jī)制不明等問題對(duì)大規(guī)模常識(shí)獲取與理解提出了嚴(yán)峻挑戰(zhàn)。首先、常識(shí)難以建模。我們都知道太陽從東邊升起,人是兩條腿走路的,魚是在水里游的,這些都是常識(shí),但是如何嚴(yán)格界定則十分困難。至今我們還給不出關(guān)于常識(shí)的嚴(yán)格定義。不同人所言及的“常識(shí)”在內(nèi)涵與外延上是存在一定差異的。

本段之初所闡述的“我們每個(gè)人都知道無需言明即可理解的知識(shí)”,這里的“我們”、“知識(shí)”、“言明”、“理解”都是很難再進(jìn)一步嚴(yán)格定義的。比如“我們”是指全體人類么?是否應(yīng)該包含史前人類?如果界定在當(dāng)下的人類,那么精神病人呢??jī)和??幾乎所有的常識(shí)定義都會(huì)遇到這樣那樣的挑戰(zhàn)。其次,常識(shí)難以獲取。我們每個(gè)人都理解常識(shí),因而不用掛在嘴邊說明,就能彼此理解。因此,文本或者語料中對(duì)于常識(shí)鮮有提及,常識(shí)因而也就無從抽取。常識(shí)缺失也就成了知識(shí)庫的常態(tài)。

最后,機(jī)制不明。人類究竟是如何形成常識(shí)理解的?這是個(gè)非常值得深入思考的問題。我們?nèi)祟惖某WR(shí)理解大都是以直接的近乎直覺的方式完成的。水灑了,正常人都會(huì)及時(shí)躲避。因?yàn)槲覀冎浪畷?huì)沾濕衣物。但是,我們沒有任何人是先思及“水會(huì)沾濕衣物”,再行躲避的。那么機(jī)器是否也有著與人類類似的常識(shí)理解機(jī)制?機(jī)器的常識(shí)理解之路與人類是否一致?這些問題均需要進(jìn)一步深入研究。

(3)是否涉及元知識(shí)(Meta-knowledge)。所謂元知識(shí)是指有關(guān)知識(shí)的知識(shí),包括屬性的領(lǐng)域(Domain)與范圍(Range)。比如“父親”作為屬性發(fā)生在人物這個(gè)類別的實(shí)體上(這是在指定Domain),取值也只能是個(gè)人物。包括領(lǐng)域內(nèi)的約束,比如父親都必須比子女年齡大。也可以是如何使用知識(shí)的知識(shí),比如吃了不潔凈的物品嘔吐了,我們立即就會(huì)判斷有可能是不潔飲食導(dǎo)致的食物中毒。看似簡(jiǎn)單的判斷建立在我們能夠調(diào)用醫(yī)學(xué)知識(shí)形成結(jié)論而不是數(shù)學(xué)知識(shí)的前提之下。為特定場(chǎng)景或應(yīng)用適配相關(guān)知識(shí),越來越多實(shí)際應(yīng)用場(chǎng)景對(duì)這種元知識(shí)提出了訴求。

總體而言,元知識(shí)需求越大,應(yīng)用越加困難。其根本原因在機(jī)器歸納能力有限。任何歸納都是按照既定的認(rèn)知框架進(jìn)行的。比如從樣本學(xué)習(xí)一個(gè)分類器,本質(zhì)上也是在歸納。但是分類器的模型不管是支持向量機(jī)還是深度模型都需要預(yù)先指定,模型本身就是一類元知識(shí)??傮w而言,當(dāng)前的機(jī)器智能還不足以自我發(fā)展出認(rèn)知世界的框架。

需要說明的是,上述判斷條件都不是絕對(duì)的,都是相對(duì)的。因此是一種定性判斷,而非定量判斷。滿足上述條件,且程度越深,實(shí)現(xiàn)越困難,但并非絕無實(shí)現(xiàn)之可能。比如大部分互聯(lián)網(wǎng)應(yīng)用屬于開放應(yīng)用,但是知識(shí)圖譜率先發(fā)軔于互聯(lián)網(wǎng)搜索,實(shí)則是因?yàn)閼?yīng)用相對(duì)簡(jiǎn)單。因此,可行性還可以從復(fù)雜性的對(duì)立視角加以研判。

(1)簡(jiǎn)單知識(shí)。知識(shí)是否有復(fù)雜簡(jiǎn)單之分?如果承認(rèn)這點(diǎn),知識(shí)的復(fù)雜性又應(yīng)該如何度量?這些問題總體上還是開放問題。但是,直覺上我們會(huì)覺得某些知識(shí)比其他知識(shí)簡(jiǎn)單。人類學(xué)習(xí)的先后順序一定程度上就是顧及了知識(shí)的簡(jiǎn)單與復(fù)雜之分。沒有人會(huì)否認(rèn)疾病診斷、司法抗辯用到的知識(shí)會(huì)比疊個(gè)紙飛機(jī)用到的知識(shí)復(fù)雜。

雖然知識(shí)的復(fù)雜性內(nèi)在機(jī)理和評(píng)測(cè)機(jī)制仍不清楚,但是從操作層面來看,可以從特定人群學(xué)習(xí)某類知識(shí)所需要時(shí)間來評(píng)估。比如考慮完成了基礎(chǔ)教育(比如中國(guó)的九年制基礎(chǔ)教育)的人群,對(duì)于不同知識(shí),這一人群學(xué)習(xí)周期不同。顯然對(duì)于某個(gè)企業(yè)的客服知識(shí),幾乎一周簡(jiǎn)單培訓(xùn)就可以上崗。但是對(duì)于治病的知識(shí),即便一個(gè)醫(yī)學(xué)院學(xué)生可能也要學(xué)習(xí)十多年才能掌握。

在自然語言相關(guān)的知識(shí)中,詞匯知識(shí)的掌握難度小于語法與語義知識(shí)。在知識(shí)圖譜落地過程中,語言知識(shí)相對(duì)于業(yè)務(wù)知識(shí)而言簡(jiǎn)單;靜態(tài)關(guān)聯(lián)知識(shí)比動(dòng)態(tài)過程知識(shí)簡(jiǎn)單。這些直接決定了在知識(shí)圖譜落地過程中,語言知識(shí)以及靜態(tài)關(guān)聯(lián)知識(shí)往往能優(yōu)先于其知識(shí)形態(tài)形成應(yīng)用效果。

(2)簡(jiǎn)單應(yīng)用。知識(shí)的應(yīng)用也有復(fù)雜簡(jiǎn)單之分。比如同樣是在醫(yī)療領(lǐng)域,醫(yī)院的導(dǎo)診顯然要比醫(yī)生的看病要簡(jiǎn)單很多。導(dǎo)診只需要根據(jù)癥狀進(jìn)行簡(jiǎn)單的分類,即便不夠精準(zhǔn),在具體科室醫(yī)生治療時(shí)還有進(jìn)一步糾正的機(jī)會(huì)。然而,醫(yī)生看病本身則要復(fù)雜很多,一個(gè)醫(yī)生要近十年的學(xué)習(xí)才有可能勝任疾病診治的任務(wù)。但是,應(yīng)用本身的復(fù)雜性顯然也是很難量化的,在算法復(fù)雜性領(lǐng)域可以根據(jù)問題與輸入規(guī)模之間的關(guān)系量化問題以及相應(yīng)方案的復(fù)雜性。但是知識(shí)應(yīng)用的復(fù)雜性機(jī)制還不明確。直覺上需要用到的知識(shí)越多、需要掌握的異常越多、所應(yīng)用的規(guī)則分支繁復(fù),則相應(yīng)的應(yīng)用越復(fù)雜。

此外在領(lǐng)域或者企業(yè)知識(shí)圖譜落地過程中,數(shù)據(jù)資源稟賦與知識(shí)資源積累也是可行性判斷的兩個(gè)重要的維度。數(shù)據(jù)資源稟賦包括構(gòu)建知識(shí)圖譜所依賴的數(shù)據(jù)是否完整、數(shù)據(jù)質(zhì)量是否足夠精良、數(shù)據(jù)是否可用?巧婦難為無米之炊。沒有好的數(shù)據(jù)是提煉不出好的知識(shí)圖譜的。很多企業(yè)數(shù)據(jù)完整性存在缺陷,存在數(shù)據(jù)缺失,會(huì)對(duì)知識(shí)圖譜構(gòu)建造成巨大的障礙。有些數(shù)據(jù)雖然完整,但是來源分散、形態(tài)各異、質(zhì)量低劣,這些都會(huì)對(duì)數(shù)據(jù)治理本身提出巨大挑戰(zhàn)。

在另外一些情況下,數(shù)據(jù)可用性較低,比如存在行業(yè)壁壘,數(shù)據(jù)無法分享;存在國(guó)家安全與個(gè)人隱私的顧慮,數(shù)據(jù)無法公開或者使用。這些障礙都是數(shù)據(jù)層面對(duì)于知識(shí)圖譜系統(tǒng)提出的挑戰(zhàn)。領(lǐng)域或者行業(yè)知識(shí)資源的積累情況也是判斷知識(shí)圖譜工程可行性的重要因素。在很多領(lǐng)域,已經(jīng)積累了多年的相關(guān)知識(shí)資源。比如醫(yī)療領(lǐng)域領(lǐng)域?qū)<液馁M(fèi)了大量資源構(gòu)建了很多本體、術(shù)語庫。不同領(lǐng)域的知識(shí)資源積累情況不同。知識(shí)資源越豐富,越有利于知識(shí)圖譜工程的建設(shè)。

表1對(duì)于上述提及的可行性判斷要素進(jìn)行了分類匯總,并給出了相應(yīng)的問題檢查列表,以方便知識(shí)圖譜工程實(shí)踐的開展。

表1 知識(shí)圖譜工程可行性論證檢查列表

3.4 知識(shí)圖譜工程實(shí)踐建議

知識(shí)圖譜工程屬于工程性學(xué)科,不斷總結(jié)其最佳實(shí)踐是非常有必要的。本小節(jié)根據(jù)當(dāng)前已經(jīng)落地的知識(shí)圖譜工程總結(jié)一些有代表性的經(jīng)驗(yàn)。值得注意的是,這些“經(jīng)驗(yàn)”隨著時(shí)間的推移、環(huán)境的變化,也需要不斷作出調(diào)整。

(1)合理控制知識(shí)表示的范圍與粒度。很多場(chǎng)景下知識(shí)表示的粒度是個(gè)需要仔細(xì)斟酌的問題。一般而言,粒度越細(xì)表達(dá)能力越強(qiáng),但是其表達(dá)與獲取代價(jià)也越大。細(xì)粒度知識(shí)表示一般是領(lǐng)域應(yīng)用的強(qiáng)需求之一。比如在知識(shí)管理領(lǐng)域,粒度粗放已經(jīng)成為阻礙企業(yè)知識(shí)管理發(fā)展的根本問題。傳統(tǒng)知識(shí)搜索只能搜索到文檔級(jí)別,如果不幸這個(gè)文檔含有1000頁內(nèi)容,則會(huì)給用戶帶來巨大麻煩。但是,凡事過猶不及,太細(xì)粒度的知識(shí)表示也往往會(huì)給知識(shí)獲取帶來巨大的復(fù)雜性。

合理控制知識(shí)表示的粒度,不盲目求精求細(xì),是知識(shí)庫技術(shù)落地成功的關(guān)鍵思路之一。很多落地實(shí)踐中過早地陷入細(xì)粒度知識(shí)獲取的泥潭當(dāng)中,消耗巨大但收效甚微。但事實(shí)上細(xì)粒度的知識(shí)表示在很多場(chǎng)景下也是不必要的。因此,在實(shí)踐中建議緊扣應(yīng)用需求,從應(yīng)用出發(fā)反推需要怎樣粒度的知識(shí)表示。

(2)合理控制不同視角下的不同圖譜。知識(shí)圖譜是認(rèn)知世界的結(jié)果。管理者視角與用戶視角是不同的,不同用戶的視角往往也是不同的。比如龍,在東方人的視角下往往是吉祥的,而在西方人的視角往往是兇惡的、有貶義的;“物美價(jià)廉的水果”這個(gè)品類對(duì)于不同人理解完全不同。因此不同的視角下應(yīng)該有著不同的圖譜。

一般而言,要針對(duì)不同的角色,定制相應(yīng)的圖譜。因而需要從一份通用圖譜中演化出其不同視角下的不同視圖,如圖14所示??紤]到圖模型的普適性,可以定制不同的權(quán)重(比如不同文化的視野下對(duì)于“龍”的喜好程度),以體現(xiàn)不同角色對(duì)于知識(shí)的不同認(rèn)知。

圖14 知識(shí)圖譜的不同視圖

(3)區(qū)別對(duì)待冷啟動(dòng)與熱運(yùn)營(yíng)兩個(gè)階段。知識(shí)圖譜的建設(shè)與運(yùn)營(yíng)是兩個(gè)不同的階段。要區(qū)別對(duì)待這兩個(gè)階段,兩個(gè)不同的階段采用不同的策略,不能一概而論。冷啟動(dòng)階段的特點(diǎn)是缺乏用戶行為數(shù)據(jù),各類基于用戶反饋的機(jī)器學(xué)習(xí)模型很少能在這一階段發(fā)揮效果,更多地需要借助專家經(jīng)驗(yàn)與知識(shí),以人工方式設(shè)定很多參數(shù)與規(guī)則。在系統(tǒng)運(yùn)營(yíng)一段時(shí)間后,用戶反饋數(shù)據(jù)日益增多,使得基于反饋日志的學(xué)習(xí)模型成為可能,比如搜索排序模型、推薦模型等等。表3總結(jié)了冷啟動(dòng)與熱運(yùn)營(yíng)的不同思路與策略。

表3 冷啟動(dòng)與熱運(yùn)營(yíng)的不同策略

(4)建設(shè)與運(yùn)營(yíng)并重。建設(shè)與運(yùn)營(yíng)是知識(shí)圖譜工程兩個(gè)重要的階段。受傳統(tǒng)信息化建設(shè)思路的影響,很多智能系統(tǒng)陷入了重建設(shè)輕運(yùn)營(yíng)的誤區(qū)。事實(shí)上,任何一個(gè)智能系統(tǒng)均需要經(jīng)歷多輪迭代方能成熟,只有持續(xù)運(yùn)營(yíng)才能保持系統(tǒng)處于最佳狀態(tài)。

智能系統(tǒng)的運(yùn)營(yíng)是數(shù)據(jù)驅(qū)動(dòng)的。數(shù)據(jù)驅(qū)動(dòng)需要不斷收集用戶數(shù)據(jù)。用戶數(shù)據(jù)體現(xiàn)的是用戶興趣與行為。而用戶的興趣與行為是會(huì)隨著環(huán)境的變化而變化的。一個(gè)有效的智能系統(tǒng)必須隨著用戶的演進(jìn)而演進(jìn),否則容易失效。從長(zhǎng)遠(yuǎn)看,運(yùn)營(yíng)甚至重于建設(shè)。建設(shè)是一次性的,而運(yùn)營(yíng)是持續(xù)的、長(zhǎng)期的、周期性的、重復(fù)開展的。

(5)合理處理知識(shí)的扁平化與縱深化矛盾。在實(shí)際知識(shí)圖譜工程中,知識(shí)的廣度(對(duì)應(yīng)扁平化)與深度(對(duì)應(yīng)縱深化)往往是一對(duì)不可調(diào)和的矛盾。為了廣度,往往要犧牲深度;為了深度往往要犧牲廣度。前者以通用知識(shí)圖譜為例,通用知識(shí)圖譜較為寬廣,但缺乏深度,體現(xiàn)在平均關(guān)系數(shù)小于相應(yīng)的領(lǐng)域知識(shí)圖譜。深度知識(shí)在風(fēng)險(xiǎn)管控、安全防范等領(lǐng)域十分重要。惡意意圖的行為往往具有隱蔽性等特點(diǎn),難以通過簡(jiǎn)單語義關(guān)聯(lián)發(fā)現(xiàn)。因而相關(guān)圖譜的建設(shè)要往縱深方向發(fā)展。如圖15所示,實(shí)際的知識(shí)圖譜往往需要在知識(shí)的深度與廣度之間進(jìn)行平衡。

圖15 知識(shí)圖譜中知識(shí)的廣度與深度的平衡

(6)堅(jiān)持迭代式演進(jìn)路徑。螺旋迭代式發(fā)展是知識(shí)圖譜工程實(shí)踐有序推進(jìn)的基本模式。在整個(gè)知識(shí)圖譜工程中,有著大量迭代模型。比如,知識(shí)資源建設(shè)與知識(shí)應(yīng)用的迭代式演進(jìn)(見圖2)、知識(shí)圖譜工程的三個(gè)關(guān)鍵步驟的迭代(見圖13)。此外還包括知識(shí)庫積累與知識(shí)抽取模型的迭代發(fā)展:一方面積累知識(shí)庫,另一方面利用積累的知識(shí)指導(dǎo)知識(shí)抽取,進(jìn)而利用更先進(jìn)的抽取模型抽取更多更好的知識(shí)。

還包括知識(shí)圖譜系統(tǒng)建設(shè)與知識(shí)圖譜系統(tǒng)運(yùn)營(yíng)的迭代:建設(shè)完成之后,通過運(yùn)營(yíng)得到的用戶反饋數(shù)據(jù)進(jìn)一步指導(dǎo)知識(shí)圖譜系統(tǒng)建設(shè)與優(yōu)化。迭代模式之所以重要,其根本原因在于知識(shí)圖譜技術(shù)的任何單項(xiàng)技術(shù)還難以支撐實(shí)際應(yīng)用。實(shí)際問題的解決尚需多個(gè)單點(diǎn)技術(shù)的協(xié)同。迭代式發(fā)展意味知識(shí)圖譜的長(zhǎng)期發(fā)展過程是迂回曲折的,是漸進(jìn)式發(fā)展的道路。

(7)區(qū)別對(duì)待靜態(tài)知識(shí)與動(dòng)態(tài)知識(shí)。人類對(duì)世界的認(rèn)識(shí)是在不斷變化的。因此,體現(xiàn)在知識(shí)庫中的知識(shí)也不應(yīng)該是一成不變的。知識(shí)的動(dòng)態(tài)變化是絕對(duì)的,靜止不變是相對(duì)的。但是絕大部分知識(shí)在有限時(shí)間內(nèi)變化的可能性是極低的,比如地球是圓的,在很長(zhǎng)一段時(shí)間人們對(duì)于這個(gè)事實(shí)的信念是不會(huì)發(fā)生改變的。

對(duì)于知識(shí)圖譜中的數(shù)據(jù)處理,與之類似,要區(qū)別對(duì)待靜態(tài)知識(shí)和動(dòng)態(tài)知識(shí)。一般而言事實(shí)是相對(duì)易變的,而模式是相對(duì)不變的。比如機(jī)構(gòu)的領(lǐng)導(dǎo)人過一段時(shí)間就會(huì)發(fā)生變化,但是人與機(jī)構(gòu)之間的這種任職關(guān)系發(fā)生改變的可能性要低很多,屬于相對(duì)不變的知識(shí)。易變事實(shí)的更新十分重要,常常需要依賴數(shù)據(jù)驅(qū)動(dòng)方法。而模式的改變由于更新頻次相對(duì)較低,手工維護(hù)更為明智。

小結(jié)

本章針對(duì)知識(shí)圖譜技術(shù)實(shí)踐中的幾個(gè)關(guān)鍵問題,包括知識(shí)圖譜系統(tǒng)、知識(shí)圖譜工程以及知識(shí)圖譜應(yīng)用與產(chǎn)業(yè),做了初步探討。隨著知識(shí)圖譜技術(shù)應(yīng)用的深化,知識(shí)圖譜產(chǎn)業(yè)日益成熟,將會(huì)對(duì)知識(shí)圖譜的工程實(shí)踐方面提出更多的需求。

這里對(duì)于知識(shí)圖譜與系統(tǒng)科學(xué)(特別是系統(tǒng)工程和管理信息系統(tǒng))之間的關(guān)系做一初步討論。首先,知識(shí)圖譜工程非常迫切地需要來自系統(tǒng)科學(xué)的理論指引與方法論指導(dǎo)。系統(tǒng)科學(xué)作為一般系統(tǒng)的基本原理的科學(xué)對(duì)于知識(shí)圖譜也是具有指導(dǎo)意義的。但是另一方面,傳統(tǒng)的系統(tǒng)科學(xué)對(duì)于當(dāng)前大數(shù)據(jù)人工智能系統(tǒng)的實(shí)踐缺乏有力的支撐。

應(yīng)該說,當(dāng)前的人工智能系統(tǒng)本質(zhì)上是數(shù)據(jù)驅(qū)動(dòng)的智能系統(tǒng)。這類智能系統(tǒng)在數(shù)據(jù)驅(qū)動(dòng)與人機(jī)協(xié)作等方面與傳統(tǒng)信息系統(tǒng)有著根本不同。比如在數(shù)據(jù)驅(qū)動(dòng)方面,智能系統(tǒng)的數(shù)據(jù)大都作為模型訓(xùn)練之用,傳統(tǒng)信息系統(tǒng)的數(shù)據(jù)大都只作為用戶查詢或者簡(jiǎn)單統(tǒng)計(jì)分析的來源而已;在人機(jī)協(xié)作方面,智能系統(tǒng)的人的作用在于讓機(jī)器具備認(rèn)知框架、給予機(jī)器模型學(xué)習(xí)以適當(dāng)?shù)姆答伵c引導(dǎo),而傳統(tǒng)信息系統(tǒng)的人的作用更多地體現(xiàn)為系統(tǒng)語義、規(guī)則的制定,以及系統(tǒng)的使用與反饋。

因此,傳統(tǒng)的系統(tǒng)科學(xué)以及信息系統(tǒng)理論仍需進(jìn)一步發(fā)展以滿足以知識(shí)圖譜為代表的智能系統(tǒng)的建設(shè)與實(shí)施的需要。從系統(tǒng)科學(xué)角度從新思考智能系統(tǒng)(特別是大數(shù)據(jù)人工智能系統(tǒng))的一般性原則與方法是個(gè)極為迫切的研究問題。

肖仰華教授主編的知識(shí)圖譜教材《知識(shí)圖譜:概念與技術(shù)》即將出版,全面解析知識(shí)圖譜的概念與技術(shù)。敬請(qǐng)關(guān)注。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 智能化
    +關(guān)注

    關(guān)注

    15

    文章

    4743

    瀏覽量

    55111
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8832

    瀏覽量

    137138
  • 知識(shí)圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7675

原文標(biāo)題:肖仰華:知識(shí)圖譜如何解決行業(yè)智能化的工程問題?

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    知識(shí)圖譜相關(guān)應(yīng)用

    智慧風(fēng)控的背后,是知識(shí)圖譜深度應(yīng)用
    發(fā)表于 08-22 14:40

    KGB知識(shí)圖譜基于傳統(tǒng)知識(shí)工程的突破分析

    知識(shí)庫構(gòu)建主要依靠人工構(gòu)建、代價(jià)高昂、規(guī)模有限,投入極大且效率不高。同時(shí),傳統(tǒng)知識(shí)圖譜不具有深度知識(shí)結(jié)構(gòu),無法解決專業(yè)的業(yè)務(wù)問題?;ヂ?lián)網(wǎng)時(shí)代急需自動(dòng)化、智能化構(gòu)建行業(yè)
    發(fā)表于 10-22 15:25

    KGB知識(shí)圖譜技術(shù)能夠解決哪些行業(yè)痛點(diǎn)?

    層面。在知識(shí)表示層面,行業(yè)應(yīng)用領(lǐng)域知識(shí)圖譜的廣度、深度和粒度都和傳統(tǒng)知識(shí)圖譜有差別。從廣度來看,傳統(tǒng)知識(shí)圖譜廣度更高。從
    發(fā)表于 10-30 15:34

    知識(shí)圖譜的三種特性評(píng)析

    知識(shí)圖譜的應(yīng)用對(duì)技術(shù)本身也提出了高要求,KGB知識(shí)圖譜現(xiàn)在已經(jīng)在保險(xiǎn)行業(yè),為公司分析上市數(shù)據(jù)等行業(yè)得以廣泛應(yīng)用,知識(shí)圖譜能夠在應(yīng)用中發(fā)揮優(yōu)勢(shì)主要體現(xiàn)在哪里呢?(1) 目標(biāo)的動(dòng)態(tài)性:考察知識(shí)圖
    發(fā)表于 12-13 13:57

    KGB知識(shí)圖譜通過智能搜索提升金融行業(yè)分析能力

    費(fèi)時(shí)耗力,利用KGB知識(shí)圖譜的智能搜索功能,可以通過簡(jiǎn)單的操作,可以快速、精準(zhǔn)地找到想要的數(shù)據(jù)、報(bào)告等內(nèi)容,從以往低效、重復(fù)的信息搜集整理中解脫出來,告別信息過載的困擾。KGB知識(shí)圖譜基于深度學(xué)習(xí)
    發(fā)表于 06-22 21:23

    內(nèi)電層分割基本原則

    內(nèi)電層分割基本原則,內(nèi)電層分割基本原則,內(nèi)電層分割基本原則
    發(fā)表于 12-24 11:02 ?0次下載

    知識(shí)圖譜系列干貨,理論+實(shí)踐

    第一個(gè)部分介紹我們?yōu)槭裁葱枰?b class='flag-5'>知識(shí)圖譜、知識(shí)圖譜的相關(guān)概念及其形式化表示;第二個(gè)部分將詳細(xì)介紹語義網(wǎng)絡(luò)、語義網(wǎng)和鏈接數(shù)據(jù)等概念;最后,將結(jié)合實(shí)例對(duì)RDF和RDFS/OWL,這兩種知識(shí)圖譜基礎(chǔ)技術(shù)作進(jìn)一步的介紹。
    的頭像 發(fā)表于 07-28 09:55 ?1.2w次閱讀

    領(lǐng)域知識(shí)圖譜落地實(shí)踐中的問題與對(duì)策

    近年來,知識(shí)圖譜技術(shù)進(jìn)展迅速,各種領(lǐng)域知識(shí)圖譜技術(shù)在很多領(lǐng)域或行業(yè)取得了顯著落地效果。在領(lǐng)域知識(shí)圖譜技術(shù)的落地
    的頭像 發(fā)表于 08-07 08:21 ?1w次閱讀

    深度解析知識(shí)圖譜領(lǐng)域幾次發(fā)展的主要技術(shù)突破

    作為知識(shí)圖譜領(lǐng)域形成過程的親歷者之一,文因互聯(lián)CEO鮑捷對(duì)知識(shí)圖譜的歷史淵源進(jìn)行了梳理,深度解析了該領(lǐng)域幾次發(fā)展的主要技術(shù)突破,并分析了其工業(yè)落地的幾個(gè)關(guān)鍵點(diǎn)。
    的頭像 發(fā)表于 08-27 10:41 ?1.2w次閱讀

    一文帶你讀懂知識(shí)圖譜

    節(jié)點(diǎn)(Point)和邊(Edge)組成 1.2 每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系” 1.3 知識(shí)圖譜是關(guān)系的最有效的表示方式 所以,知識(shí)圖譜本質(zhì)上就是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu); 2 知識(shí)圖譜
    的頭像 發(fā)表于 12-26 10:23 ?3610次閱讀

    知識(shí)圖譜劃分的相關(guān)算法及研究

    知識(shí)圖譜是人工智能的重要基石,因其包含豐富的圖結(jié)構(gòu)和屬性信息而受到廣泛關(guān)注。知識(shí)圖譜可以精確語義描述現(xiàn)實(shí)世界中的各種實(shí)體及其聯(lián)系,其中頂點(diǎn)表示實(shí)體,邊表示實(shí)體間的聯(lián)系。知識(shí)圖譜劃分是大規(guī)模知識(shí)
    發(fā)表于 03-18 10:10 ?9次下載
    <b class='flag-5'>知識(shí)圖譜</b>劃分的相關(guān)算法及研究

    知識(shí)圖譜在工程應(yīng)用中的關(guān)鍵技術(shù)、應(yīng)用及案例

    近年來,知識(shí)圖譜及其相關(guān)技術(shù)得到快速發(fā)展,并被廣泛應(yīng)用于工業(yè)界各種認(rèn)知智能場(chǎng)景中。在簡(jiǎn)述知識(shí)圖譜相關(guān)研究的基礎(chǔ)上,介紹知識(shí)圖譜在工程應(yīng)用中的關(guān)鍵技術(shù),研究工業(yè)級(jí)知識(shí)圖譜的典型應(yīng)用場(chǎng)景與
    發(fā)表于 03-30 15:12 ?15次下載
    <b class='flag-5'>知識(shí)圖譜</b>在工程應(yīng)用中的關(guān)鍵技術(shù)、應(yīng)用及案例

    知識(shí)圖譜是NLP的未來嗎?

    我的看法:知識(shí)圖譜不是NLP的未來,因?yàn)?b class='flag-5'>知識(shí)圖譜是另外一種與NLP有很多交集的技術(shù)。在目前所有已知的發(fā)展方向中,知識(shí)圖譜是最有可能長(zhǎng)期和NLP互利共生的技術(shù)。
    的頭像 發(fā)表于 04-15 14:36 ?3633次閱讀
    <b class='flag-5'>知識(shí)圖譜</b>是NLP的未來嗎?

    知識(shí)圖譜Knowledge Graph構(gòu)建與應(yīng)用

    一、知識(shí)圖譜概論 ? ? ? ? 1.1知識(shí)圖譜的起源和歷史 1.2知識(shí)圖譜的發(fā)展史——從框架、本體論、語義網(wǎng)、鏈接數(shù)據(jù)到知識(shí)圖譜 1.3知識(shí)圖譜
    發(fā)表于 09-17 10:12 ?604次閱讀

    知識(shí)圖譜知識(shí)圖譜的典型應(yīng)用

    作者:?cooldream2009? 我們構(gòu)建知識(shí)圖譜的目的,在于利用知識(shí)圖譜來做一些事情。有效利用知識(shí)圖譜,就是要考慮知識(shí)圖譜的具備的能力,知識(shí)圖
    的頭像 發(fā)表于 10-18 09:26 ?1706次閱讀
    <b class='flag-5'>知識(shí)圖譜</b>:<b class='flag-5'>知識(shí)圖譜</b>的典型應(yīng)用