0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

語音是第三次交互革命,自然語言處理技術的發(fā)展和行業(yè)應用

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-04-24 16:52 ? 次閱讀

4月19日,清華大學《人工智能前沿與產業(yè)趨勢》系列課程第三講開課,本講主題是“自然語言處理技術的發(fā)展和行業(yè)應用”。自然語言處理(NLP)被認為是人工智能研究中最為困難,也是最重要的問題之一,不僅基礎研究難,技術落地和應用場景也很復雜。本課由百度度秘事業(yè)部總經理景鯤主講。新智元作為獨家合作媒體,帶來干貨整理。

主講老師

雷鳴

天使投資人

百度創(chuàng)始七劍客之一

酷我音樂創(chuàng)始人

清華大學海峽研究院大數據 AI 中心 專家委員

特邀講者

景鯤

百度度秘事業(yè)部總經理

景鯤 2014 年加入百度,就職于大搜索任總產品架構師,負責百度大搜索整體產品規(guī)劃、創(chuàng)新與落地推進。帶領團隊大刀闊斧的創(chuàng)新整體搜索體驗,為數以億計的用戶提供平等便捷的搜索服務。同時與團隊一起開創(chuàng)式的引入了語音搜索、圖像搜索、對話式搜索等創(chuàng)新搜索交互方式。構思和推動了人工智能機器人助理度秘整體業(yè)務從想法、落地,到取得國際領先的優(yōu)勢,推動了整個業(yè)界對智能對話領域的認知。2016 年 10 月,全面接手度秘團隊的管理工作。促成度秘與國安廣視、小魚在家等多個廠商的戰(zhàn)略合作,開拓了軟硬結合的新產品形態(tài)。并在 17 年,帶領團隊在美國拉斯維加斯 CES 上正式推出了對話式人工智能操作系統 DuerOS。

景鯤加入百度之前,曾任微軟公司首席研發(fā)總監(jiān)并負責微軟必應搜索在亞洲市場的研發(fā)工作,也是微軟小冰的創(chuàng)造者。

4月19日,清華大學《人工智能前沿與產業(yè)趨勢》系列課程第三講開課,本講主題是“自然語言處理技術的發(fā)展和行業(yè)應用”。自然語言處理(NLP)被認為是人工智能研究中最為困難,也是最重要的問題之一。本課由百度度秘事業(yè)部總經理景鯤主講。在講座之前,雷鳴老師就音頻和NLP技術作了總覽式的概述:

NLP技術現在能看到一些落地,特別大的一個場景就是助理,包括家庭助理、虛擬助理、車內的語音助理、兒童語言交互機器人等。第二個場景時智能客服系統;第三是語言翻譯。

景鯤:語音是第三次交互革命

景鯤:大家好,我叫景鯤,我來自百度,百度度秘事業(yè)部。我加入百度大概四年時間,負責對話式人工智能的產品的落地。加入百度之前我在微軟工作了八年時間,負責必應搜索引擎和微軟小冰項目。所以直接跟NLP以及NLP的業(yè)務落地有一段時間的經驗了。然后也給大家介紹一下百度度秘。

整個百度的業(yè)務主要分成兩塊,一塊是我們在移動市場上做的一些業(yè)務,比如搜索,愛奇藝,手機百度的feed流等;另一塊就是我們面向人工智能時代興起,用人工智能來驅動的新的業(yè)務,這個業(yè)務包括無人車。第二個就是人機交互,我們做了百度度秘。我們在 AI 時代落地的兩大主要業(yè)務平臺,一個是無人車的阿波羅,一個是度秘。

百度為什么把度秘作為這么重要的一個戰(zhàn)略業(yè)務來做?其實它是一個非常大的業(yè)務?;赝覄傞_始學計算機的時候,那個時候還是用鼠標和鍵盤,鍵盤是用五筆輸入法。然后那個時候用五筆輸入法還要去花錢上培訓班學習五筆輸入法。后來可以用拼音輸入法了,一下門檻就降低了。 用拼音輸入法之后,很多人就可以跟計算機進行交互,進行交流了。隨著這種輸入的門檻的降低,用戶跟計算機之間的交互更方便了,更多的用戶得以接觸到計算機。所以鼠標和鍵盤的交互就推動了整個計算機的普及。

第二個階段也是由交互推動整個科技的進展,這次的交互是用手指觸屏的交互。通過手指觸摸手機,讓更多的用戶能夠跟計算機進行交流,所以在這個時候基本上已經擺脫了語言的障礙。所以我們可以看到在中國市場,移動的互聯網用戶是遠遠大于 PC 時代的互聯網用戶的。

我們覺得在新的人工智能時代,新的交戶應該是用更加自然的,用人類的交互方式與計算機進行交流,我們認為這種溝通方式就是用語音、用對話。因為我們每個人可能兩歲的時候就開始學說話,我們80歲的時候還是可以用語音交流。為什么語音交互可以成真?因為計算機通過人工智能能力的賦能,通過深度學習等各種機器學習的方法,語音識別、圖像識別等能力開始慢慢變得成熟,NLP的能力在某些領域也逐漸可以落地。 所以在人和機器交互過程中,機器開始能夠嘗試聽懂我們所說的話,語音交互開始變得越來越popular。

大概在Siri出現、在 iPhone4 的時候,就有一大批公司在做語音交互方面的產品。那時候是高峰期,很多公司都在做,但迅速就到一個下降期。用戶對語音助手開始失望。但最近這兩年隨著Echo的出現,大家發(fā)現語音助手找到了它的使用場景,它跟硬件結合之后,通過遠場交互的語音能夠讓我們跟機器進行交流,所以這個市場又蓬勃而起。

為什么百度這么重視這件事情?因為每一次的科技的進步,大的進步,基本上都是由交互來驅動的。從最開始在鼠標鍵盤時代,世界上最大的公司是微軟。微軟當時基本上只做了一個體驗,就是鼠標和鍵盤的體驗,把它做到了最優(yōu)。移動時代又出現另外一家偉大的公司,就是現在市值最高的一家公司蘋果,把這種交互做對了。所以它推動了整個移動智能社會的前進,開拓了難以想象的巨大的科技市場。

我們覺得在新的時代通過自然語言對話,我們有機會跟每一個計算機、每個手機、每個桌子甚至每個椅子去對話,在我們需要的時候我們就跟它對話,在新的場景里面去對話,這樣的市場將會比原來市場大得多。每個人與搜索引擎去互動,或者跟互聯網去交流,獲取信息服務,都是一種更加便捷的交互。所以第三次交互的革命將會引發(fā)非常多創(chuàng)新。

我們看一下一些研究機構做的市場分析。這是IDC做的中國市場對話式人工智能的市場分析。報告顯示,到2020年,27%的智能家居產品都會變成語音可以互動的。從現在的市場來看,基本上語音交互的產品已經逐漸變成標準配置,所以到 2020 年的時候,大概有 27% 的家具可以互動,不只是電視,冰箱、空調、洗衣機,甚至連豆?jié){機,我們的合作伙伴都希望用戶能它說話。所以智能家具的市場還是很大。

第二個市場就是車載市場。因為車本身就是雙手被固定在方向盤上的一個場景,用戶的一個很自然的需求,就是通過跟車的交互去獲取車上的信息和服務。這個時候最自然的一種交互就是語音交互。所以從今年開始大家也可以看到在一些新車上,尤其是以互聯網汽車為標簽的新車上,語音交互已經成為了標準配置。

還有就是手機和可穿戴設備。我們平臺上現在最活躍的一個設備是手表,比如兒童手表。每年在中國能賣大概上千萬的智能手表,但是在中國這種手表主要是消費給了兒童群體,在這個群體里面用語音交互就是最自然的一種交互。預期到2020年,手機和可穿戴設備大概能達到 68%。

回顧一下原來的手機市場,當 IOS 推出之后,大家都發(fā)現手指觸摸這種體驗太好了。但是在安卓系統開放之前,一個廠商大概要花幾千萬美金,可能才能研發(fā)一款手機。但是有了安卓之前,這些廠商投入的資本可能是1/10的原來的投入,所以迅速讓智能設備、智能手機變得滿地開花,數量和接觸人群都在指數級的增長。語音交互也一樣,并不是每家公司都能夠從頭做語音識別、語音合成、語義理解,甚至資源的檢索。這個時候百度其實非常有意愿提供語音交互時代的一個底層的操作系統,能夠賦能這樣的智能設備,讓它變成語音交互。

要把語音交互做對的話,有三點要做對:第一是聽得清,第二是聽得懂,第三是滿足得好。

聽得清,就是把語音識別成文字的過程。第二,聽得懂是真正能夠理解文字,能夠消化,知道用戶的意圖。第三,滿足。知道用戶的意圖之后,還能把合適的內容和服務傳遞給用戶。所以這三步缺一不可。

第一步很多的公司都在解決,而且聽清的問題已經逐漸被解決。雖然中國還存在著一些地方的口音,但是語音識別的能力基本上是逐漸增強,可以預見,在未來的一兩年內,語音識別,聽清的這部分可以做得很好。但是在有些固定場景里面,還需要特定的優(yōu)化。

第二方面是最難的,就是聽的懂。聽懂其實是很高的要求,不只要知道它的字面意思,比如我們在百度搜索上我們經??吹接脩舨樵儽本┨鞖?,可能就有一百種以上的說法,用戶會說“北京天氣”,也會說“北京明天下雨嗎”,也會說“北京明天刮風嗎”,“北京明天有霧霾嗎”,這些都是跟天氣相關的需求。怎么樣做到聽懂是人工智能交互中最核心的能力,誰能把聽得懂做好,就能真正攻克人工智能的難關。

第三方面就是滿足。用戶在與一個設備語音對話的時候,往往會有非常多樣的需求,真正能夠把需求理解好,并且把資源索引到,這也是百度可以做的優(yōu)勢,并且可以為我們的用戶和合作伙伴去提供的能力。

在Echo出現之前,大家其實比較聚焦的聽清的能力是在手機上的近場語音交互。比如說我們按一個按鈕,比如像微信,去解決這種語音識別的能力。但是隨著智能硬件出現,就出現了新的場景的語音交互。比如說在一些廣闊空間、車載、吵雜環(huán)境里面開始出現了麥克風陣列。簡單解釋一下,麥克風陣列由兩個及以上麥克風組成的一個陣列,它可以進行回聲消除。屋子里面多個麥克風陣列,通過不同的麥克風接收到聲音信號的強弱,通過接觸到不同的聲音的時間,來消除掉回聲。在沒有這個技術之前,大家可能會覺得不是一個特別的難的問題,但其實這是對計算機是一個非常難的問題。因為在這樣的屋子里面,尤其在這樣密閉的空間里面,回聲讓計算機聽起來是多個聲波的疊加。多個聲波疊加之后計算機就分不清哪些是原聲,哪些是回聲。

有時候我們跟人說話,面對面的時候聽得很清楚,但換一個位置就可能聽不清了,這是因為我們的耳朵有指向性。通常正面對著一個人的時候,收音最好。對計算機也是一樣,有陣列之后往往需要一個解決的問題,就是通過陣列能夠辨別發(fā)音的方向是哪個方向。我們一旦定位發(fā)音的方向之后,這個方向的語音識別就會做得更好,這也是通過多麥克陣列來達到的效果。

還有語音喚醒。語音喚醒指現在的計算機麥克風不能時刻收音,以教室為例,旁邊的機器聲,甚至窗戶聲會有很多聲音雜音進來,讓計算機到搞得很亂。語音喚醒是指,通過一個特定的喚醒詞,說了這個詞之后,機器開始響應,開始聽我們的聲音。所以語音喚醒相當于人和機器之間進行了一個初次的連接。

還有遠場語音識別。遠場語音識別是在智能硬件出現之前應用的不太多的一個技術,但隨著像智能音箱這樣的設備的出現,用戶往往跟它的交互式在一米開外的,這個時候的語音識別跟近場手機上的語音識別有很大的不一樣。所以在智能硬件這個領域,讓一個設備真的可以聽清我們說話需要做的新的技術儲備。

第二個方面就是聽懂。沒有大數據沒有算法是很難做好聽懂的。我用了一個詞叫“freestyle”,用戶在跟機器溝通過程中,其實他的表達是非常重要的。舉個例子,這個詞語音識別是“在家為是”,這是我們有一個電視機頂盒在湖南落地的時候,湖南的一些用戶檢索的日志,然后我們脫敏之后,發(fā)現“在家為是”就是“浙江衛(wèi)視”。所以看語音的時候其實不懂他是什么意思,要真的懂的話,你需要加上地方語音識別的模型,再加上我們在搜索引擎看到用戶的搜索數據采集的信號,結合在一起才能真正了解這個是什么意思。所以用戶在跟計算機語音交互過程中,要解決聽懂的問題。

聽清慢慢能夠被解決,但是誰能解決聽懂誰,誰就基本上跨過了人機交互的一個非常重要的門檻。要解決聽懂的方式,就是要通過大數據、通過深度學習算法不停地計算,才能知道用戶真正表達的語意是什么。

第三個就是滿足。解決了交互之后,用戶就會忽略交互。iPhone 一代出現的時候,大家會覺得用手指去按整個的屏幕是一個特別爽的交互,但是隨著智能手機逐漸普及之后,用戶覺得說用手按屏幕就是一個很正常的交互,忘記了交互。忘記交互之后,用戶就開始真正關心里面的服務和內容。所以當有些用戶跟智能音箱去交互的時候,他們需要的是音樂,是信息,或者是聊天等等各種各樣的信息的服務,這些服務正好跟百度所擁有的信息和服務的資源是特別吻合的,所以我們也把這些數據開放出來,跟我們的合作伙伴,通過他們的語音交互去直接獲取這些信息和服務。

然后透露一個數據,截止到今年的 1 月份,百度DUEROS 的平臺上搭載了激活的設備數,累計已經超過了 5000 萬臺,相當于是 5000 萬的手機、音箱、電視、手表等各種設備都具有了語音識別的能力。每個月的活躍設備超過1000 萬。這個數字還在不停的增長,基本上每年我們可能接觸的語音智能設備都會翻倍增加。2020 年的時候,智能設備可能會真正走到我們每個人的家庭里面。

我們的合作伙伴也很多,這里舉幾個例子,比如說海爾、VIVO、TCL、小米等等,這些公司本來跟百度的關系其實是沒有那么近的。他們都是硬件公司,百度做的是互聯網搜索,本來感覺兩個行業(yè)并沒有太多的交集。但是當我們做的這種喚醒萬物,讓每個智能設備都可以語音對話之后,我們的交易就很多了。很多的智能家居的合作伙伴都在把這樣的能力植入到他的設備里面去,讓設備具有可以語音交互的能力。

同時落地的設備也非常多,從音箱到投影儀到機器人、電視,會非常多。還有,它催發(fā)了第三個開發(fā)者生態(tài)。開發(fā)者生態(tài)是什么?大家知道在PC時代,有一個非常龐大的開發(fā)者生態(tài),是做應用程序 exe。在移動時代也有一個非常強大的開發(fā)者生態(tài),是做 APP 的開發(fā)者。每一次一個交互的開啟,基本上代表著有一類新的開發(fā)者也會隨著這個平臺去成長。所以現在在語音交互的平臺上,已經超過了一萬多個開發(fā)者跟我們一起合作。同時用戶用這種語音交互累計回答的問題已經超過了24億個。

這里舉幾個例子,現在都有什么樣的語音交互設備,NLP和語音識別都應用在什么樣的產品上?比如說早晨的時候會用在智能音箱上,很多人早晨起床的時候會問一下天氣,問一下路況。還有在路上的設備,有車載顯示屏、耳機等。還有一些機器人和其他設備。

在人工智能時代,軟件+硬件是深度結合的趨勢。原來我們做語音識別的時候,很多時候是在手機上做。原來微軟的觸摸,比如Windows8,是在筆記本上可以觸摸的。但后來發(fā)現雖然觸摸交互是對的,但是你放到一個不同的設備上,感覺就不對。很少有人用手指去觸摸屏幕。在語音上也是,比如說手機是一個觸摸為主的設備,我們原來做語音助手的時候,很多是把語音能力嫁接在手機上,其實用戶用手機去進行語音交互的時候,反而沒有觸摸來的快。所以語音更好應用的場景在哪里?更好是在新的 AI智能硬件上。

百度也做了幾款智能音箱的嘗試,包括raven H和小度在家。除了中國市場在做對話式人工智能的落地,涉及到語音識別,語義理解交互和內容,國際的巨頭也在布局市場,亞馬遜,谷歌蘋果微軟都投入重兵。人工智能終將走近大家的身邊,走進尋常百姓家,在生活中有工作的用武之地。

對話環(huán)節(jié)

清華大學海峽研究院大數據 AI 中心專家委員雷鳴,百度度秘事業(yè)部總經理景鯤,清華大學智能技術與系統國家重點實驗室主任朱小燕,梅花創(chuàng)投創(chuàng)始合伙人吳世春就NLP在現在和未來的挑戰(zhàn),深度學習、機器學習在NLP中扮演的角色,NLP技術發(fā)展落地以及投資等方面的問題,進行了精彩對話。雷鳴認為,人工智能到明年開始逐漸落地,生根發(fā)芽,這是解決實際問題的一個過程,在產品落地的過程中,這個市場有特別多的機會。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 百度
    +關注

    關注

    9

    文章

    2242

    瀏覽量

    90114
  • 人工智能
    +關注

    關注

    1789

    文章

    46332

    瀏覽量

    236498
  • 自然語言
    +關注

    關注

    1

    文章

    279

    瀏覽量

    13309

原文標題:【清華AI公開課】景鯤:百度為什么重視語音?

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    星Bixby語音助手即將進軍家電產品,實現自然語言交互

     星宣布,Bixby語音助手即將全面進駐BESPOKE AI系列家電,用戶可通過自然語言對家電進行語音控制。Bixby作為星智能手機、手
    的頭像 發(fā)表于 08-26 17:20 ?651次閱讀

    圖像識別技術包括自然語言處理

    圖像識別技術自然語言處理是人工智能領域的兩個重要分支,它們在很多方面有著密切的聯系,但也存在一些區(qū)別。 一、圖像識別技術自然語言
    的頭像 發(fā)表于 07-16 10:54 ?501次閱讀

    Transformer架構在自然語言處理中的應用

    隨著人工智能技術的飛速發(fā)展自然語言處理(NLP)領域取得了顯著的進步。其中,Transformer架構的提出,為NLP領域帶來了革命性的變
    的頭像 發(fā)表于 07-09 11:42 ?607次閱讀

    語音識別和自然語言處理的區(qū)別和聯系

    語音識別和自然語言處理是人工智能領域的兩個重要分支,它們在很多方面有著緊密的聯系,同時也存在一些明顯的區(qū)別。本文將詳細介紹語音識別和自然語言
    的頭像 發(fā)表于 07-05 10:09 ?997次閱讀

    自然語言處理技術有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個分支,它致力于使計算機能夠理解、解釋和生成人類語言自然語言
    的頭像 發(fā)表于 07-03 14:30 ?751次閱讀

    自然語言處理模式的優(yōu)點

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個重要分支,它致力于使計算機能夠理解、生成和處理人類語言。隨著
    的頭像 發(fā)表于 07-03 14:24 ?538次閱讀

    自然語言處理技術的核心是什么

    ,廣泛應用于機器翻譯、情感分析、語音識別、智能問答、文本摘要等眾多領域。 自然語言處理技術發(fā)展可以追溯到20世紀50年代。1950年,圖靈
    的頭像 發(fā)表于 07-03 14:20 ?412次閱讀

    自然語言處理是什么技術的一種應用

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它涉及到使用計算機技術處理
    的頭像 發(fā)表于 07-03 14:18 ?439次閱讀

    自然語言處理包括哪些內容

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個重要分支,它涉及到計算機與人類語言之間的交互。NLP的目標是讓計算機能夠理解、生成
    的頭像 發(fā)表于 07-03 14:15 ?604次閱讀

    什么是自然語言處理 (NLP)

    理解和處理自然語言文本,從而實現人機交互的流暢和自然。NLP不僅關注理論框架的建立,還側重于實際技術的開發(fā)和應用,廣泛應用于法律、醫(yī)療、教育
    的頭像 發(fā)表于 07-02 18:16 ?699次閱讀

    自然語言處理技術的原理的應用

    自然語言處理(Natural Language Processing, NLP)作為人工智能(AI)領域的一個重要分支,旨在使計算機能夠理解和處理人類自然語言。隨著互聯網的普及和大數據
    的頭像 發(fā)表于 07-02 12:50 ?323次閱讀

    神經網絡在自然語言處理中的應用

    自然語言處理(NLP)是人工智能領域中的一個重要分支,它研究的是如何使計算機能夠理解和生成人類自然語言。隨著人工智能技術的飛速發(fā)展,神經網絡
    的頭像 發(fā)表于 07-01 14:09 ?356次閱讀

    智能語音交互技術如何助力設備實現人機自然對話

    智能語音交互技術是指通過語音識別、語音合成和自然語言理解等
    的頭像 發(fā)表于 05-23 15:14 ?317次閱讀

    SpaceX星艦將第三次試飛

    SpaceX公司近日宣布,其巨型火箭星艦即將迎來第三次試飛,旨在進一步測試其性能極限。據悉,這次試飛計劃最早于3月14日進行,相比前兩,其任務目標更加宏大且復雜。
    的頭像 發(fā)表于 03-08 13:52 ?567次閱讀

    中微公司第三次榮登福布斯中國“中國創(chuàng)新力企業(yè)50強”榜單

    中微公司第三次榮登福布斯中國“中國創(chuàng)新力企業(yè)50強”榜單,企業(yè)綜合實力與創(chuàng)新能力再獲行業(yè)嘉獎與專業(yè)認可。
    的頭像 發(fā)表于 11-10 09:16 ?561次閱讀