0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

成功構(gòu)建文本分析工作流的四個步驟

星星科技指導員 ? 來源:嵌入式計算設(shè)計 ? 作者:Seth DeLand ? 2022-11-23 15:15 ? 次閱讀

文本分析(從原始人類語言中發(fā)現(xiàn)隱藏模式以實現(xiàn)更好的決策和預測的過程)為工業(yè)和預測性維護系統(tǒng)提供了幾個好處。這些分析使工程師能夠利用原始文本數(shù)據(jù)輕松生成有關(guān)維護記錄的見解,并構(gòu)建故障預測算法以預防潛在問題。

以非公路商業(yè)空間為例,在建筑工地上使用重型設(shè)備:如果一臺重型設(shè)備發(fā)生故障,在修復系統(tǒng)所需的時間和成本與施工停滯時現(xiàn)場的停機時間之間,可能會發(fā)生代價高昂的故障。傳統(tǒng)上,來自此設(shè)備的遙測數(shù)據(jù)已用于構(gòu)建可預測未來故障的預測性維護模型。但是,在機械師和操作員的文本注釋中也有關(guān)于過去故障及其原因的寶貴信息。工程師可以利用此文本數(shù)據(jù)來增強預測性維護模型,并確定應(yīng)解決的模式和故障模式。

文本分析的挑戰(zhàn)在于大量的非結(jié)構(gòu)化原始文本數(shù)據(jù)集,這可能會使分析工具不堪重負。這使得工程師更難快速直觀地提取用戶可能獲得的所有有價值的信息。但是,工程師可以通過正確的工具和遵守端到端工作流程來克服這些障礙。

當涉及到端到端文本分析工作流程時,工程師需要了解什么?工作流中有四個主要階段:

poYBAGN9yKuALPZSAACS46Gxj18876.png

圖1.端到端文本分析工作流。

第 1 階段:數(shù)據(jù)訪問和探索

文本數(shù)據(jù)將來自各種來源,包括數(shù)據(jù)庫、內(nèi)部文件存儲庫和 Internet,并且格式多種多樣。正確準備數(shù)據(jù)是成功工作流程的關(guān)鍵因素。適當?shù)臄?shù)據(jù)準備會將原始文本數(shù)據(jù)清理并預處理為“清理數(shù)據(jù)”以供分析。

以詞云為例。該模型將數(shù)據(jù)轉(zhuǎn)換為一種格式,使工程師能夠快速輕松地可視化正在使用的單詞以及數(shù)據(jù)池中最常見的短語。當與應(yīng)用其領(lǐng)域?qū)I(yè)知識的工程師相結(jié)合時,諸如詞云之類的可視化效果有利于更大的文本分析工作流程,因為工程師可以輕松發(fā)現(xiàn)數(shù)據(jù)可能缺少標記或需要清理的地方,因為他們了解給定環(huán)境或用例中的典型問題或問題。

第 2 階段:數(shù)據(jù)預處理

這些可視化效果還有助于指導需要采取的后續(xù)操作。如圖 2 所示,停用詞(不增加價值的低信息詞)很常見,它們的存在會扭曲可視化結(jié)果。在工程師開始模型開發(fā)過程之前,他們必須清理原始文本數(shù)據(jù),以過濾掉這些“停用詞”,并輸入真實、重要的數(shù)據(jù)以傳遞給建模過程。預處理階段允許用戶從原始文本中提取有意義的單詞。

數(shù)據(jù)清理通常是數(shù)據(jù)分析中最耗時的部分,根據(jù)數(shù)據(jù)量,清理步驟可能需要多次迭代。但是,投入所需的額外時間和資源所帶來的投資回報率允許在文本分析工作流的后期使用更準確和成功的模型。在許多情況下,干凈的詞云會傳遞有關(guān)文本頁面上實際內(nèi)容的更多信息。

文本分析工具箱等工具通過提供用于預處理、分析和建模文本數(shù)據(jù)的算法和可視化,幫助用戶為模型構(gòu)建過程做好準備,從而為工程師解決數(shù)據(jù)清理痛點。

這些工具從流行的文件格式中提取文本,從設(shè)備日志、新聞提要、調(diào)查、操作員報告和社交媒體等來源預處理原始文本,提取利用文本、數(shù)字和其他類型的數(shù)據(jù)的單個單詞或多詞短語 (n-gram),將文本轉(zhuǎn)換為數(shù)字表示,然后構(gòu)建統(tǒng)計模型。

第 3 階段:預測模型構(gòu)建

清理和預處理數(shù)據(jù)后,就可以開始使用機器學習深度學習算法構(gòu)建預測模型了。

這就是文本分析的優(yōu)勢所在:它發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式并以直觀的格式顯示它們,允許用戶消化數(shù)據(jù),然后采取糾正措施解決問題,然后再進一步進入工作流程。

以將干凈的文本數(shù)據(jù)轉(zhuǎn)換為數(shù)字形式為例。工程師可以應(yīng)用“詞袋”等建模方法,該方法根據(jù)提供的文本數(shù)據(jù)創(chuàng)建一個數(shù)字矩陣,顯示每個單詞的使用頻率。從那里,工程師可以使用預測模型,如潛在狄利克雷分配(LDA)模型,該模型可以擬合到單詞/頻率矩陣中,以發(fā)現(xiàn)文本數(shù)據(jù)集中隱藏的主題和見解。

LDA 模型可以生成與數(shù)據(jù)中“隱藏主題”相關(guān)的詞云,顯示將文本數(shù)據(jù)擬合到此預測模型中后如何開始出現(xiàn)模式,從而幫助為創(chuàng)建相應(yīng)問題的解決方案提供信息。

使用新的敘述對模型(如上面示例中的模型)進行測試以驗證模型的預測是否正確后,可以建立自動警報,以便系統(tǒng)在需要注意的任何問題上向響應(yīng)團隊發(fā)送標志。如果位置數(shù)據(jù)也可用,則結(jié)果會發(fā)現(xiàn)某些主題(例如,標記的問題)與其位置數(shù)據(jù)之間存在相關(guān)性,因此該模型還可以通過使用多個數(shù)據(jù)流來補充文本數(shù)據(jù)來提醒響應(yīng)團隊潛在的更大基礎(chǔ)設(shè)施問題。

第 4 階段:見解和預測模型部署

使用文本分析設(shè)置模型并驗證其可接受的性能后,可通過多種方式與工程團隊和/或管理層共享結(jié)果和模型,包括生成報告或交互式筆記本(例如 MATLAB Live 編輯器)、將數(shù)據(jù)傳送到桌面或 Web 應(yīng)用程序(例如 MATLAB 應(yīng)用程序設(shè)計器),或在生產(chǎn)服務(wù)器或 Web 應(yīng)用程序服務(wù)器上托管應(yīng)用程序。

對于工業(yè)自動化、機械、汽車制造、航空航天設(shè)計或能源分配等行業(yè)的工程師來說,文本分析可以幫助他們執(zhí)行復雜的數(shù)值分析,以識別可以帶來更好結(jié)果并改進預測性維護等功能的想法和概念組。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編輯器
    +關(guān)注

    關(guān)注

    1

    文章

    799

    瀏覽量

    31016
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8325

    瀏覽量

    132213
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5442

    瀏覽量

    120800
收藏 人收藏

    評論

    相關(guān)推薦

    使用OPA180運放構(gòu)建差分放大器,如何確定四個電阻的大小?

    我目前打算使用OPA180運放構(gòu)建差分放大器。如下圖所示 如果我的放大倍數(shù)取0.4,那么取R1=R2=300K,RF=RG=120K,和R1=R2=30K,RF=RG=12K這兩選取哪一組比較好?;蛘哂惺裁捶椒梢杂脕泶_定這四個
    發(fā)表于 08-16 12:36

    行云流水線 滿足你對工作流編排的一切幻想~skr

    的核心組成部分,旨在加速軟件交付、提高質(zhì)量和實現(xiàn)持續(xù)改進。流水線的核心是流水線模型,是實現(xiàn)工作流編排,執(zhí)行的重要基石,一優(yōu)秀的流水線模型可以覆蓋用戶更多的實踐場景,按照用戶的所思所想支持編排相應(yīng)的工作流程,通過模型的分層設(shè)計,
    的頭像 發(fā)表于 08-05 13:42 ?201次閱讀

    利用TensorFlow實現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類模型

    要利用TensorFlow實現(xiàn)一基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的文本分類模型,我們首先需要明確幾個關(guān)鍵步驟:數(shù)據(jù)預處理、模型構(gòu)建、模型訓練、模型評估與調(diào)優(yōu),以及最終的模型部署(盡管在本文
    的頭像 發(fā)表于 07-12 16:39 ?569次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用

    在自然語言處理(NLP)領(lǐng)域,文本分類一直是一重要的研究方向。隨著深度學習技術(shù)的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)在圖像識別領(lǐng)域取得了
    的頭像 發(fā)表于 07-01 16:25 ?510次閱讀

    MathWorks與NVIDIA攜手革新醫(yī)療技術(shù)工作流

    在醫(yī)療科技領(lǐng)域,軟件定義工作流正迎來新的突破。全球知名的數(shù)學計算軟件巨頭MathWorks與圖形處理器領(lǐng)導者NVIDIA近日宣布達成深度合作,將MATLAB?軟件成功集成至NVIDIA的Holoscan平臺。
    的頭像 發(fā)表于 05-11 10:17 ?318次閱讀

    半導體發(fā)展的四個時代

    臺積電的 Suk Lee 發(fā)表了題為“摩爾定律和半導體行業(yè)的第四個時代”的主題演講。Suk Lee表示,任何試圖從半導體行業(yè)傳奇而動蕩的歷史中發(fā)掘出一些意義的事情都會引起我的注意。正如臺積電所解釋
    發(fā)表于 03-27 16:17

    半導體發(fā)展的四個時代

    臺積電的 Suk Lee 發(fā)表了題為“摩爾定律和半導體行業(yè)的第四個時代”的主題演講。Suk Lee表示,任何試圖從半導體行業(yè)傳奇而動蕩的歷史中發(fā)掘出一些意義的事情都會引起我的注意。正如臺積電所解釋
    發(fā)表于 03-13 16:52

    BUCK電路工作原理四個階段

    BUCK電路工作原理四個階段? BUCK電路是一種常用的降壓轉(zhuǎn)換器,廣泛應(yīng)用于電源管理領(lǐng)域。其工作原理可以分為四個階段:導通、關(guān)斷、自阻抗、反饋調(diào)節(jié)。 1. 導通階段: 在導通階段,輸
    的頭像 發(fā)表于 01-31 16:08 ?864次閱讀

    四個單片機能共用一晶振時鐘頻率來工作嗎?

    四個單片機能共用一晶振時鐘頻率來工作嗎? 四個單片機共用一晶振時鐘頻率來工作是可能的。在實際
    的頭像 發(fā)表于 01-31 11:31 ?1403次閱讀

    人工智能中文本分類的基本原理和關(guān)鍵技術(shù)

    在本文中,我們?nèi)嫣接懥?b class='flag-5'>文本分類技術(shù)的發(fā)展歷程、基本原理、關(guān)鍵技術(shù)、深度學習的應(yīng)用,以及從RNN到Transformer的技術(shù)演進。文章詳細介紹了各種模型的原理和實戰(zhàn)應(yīng)用,旨在提供對文本分類技術(shù)深入理解的全面視角。
    的頭像 發(fā)表于 12-16 11:37 ?1107次閱讀
    人工智能中<b class='flag-5'>文本分</b>類的基本原理和關(guān)鍵技術(shù)

    日本游戲廠商「開竅了」:AI 工作流實例披露

    當我們還在展望 AI 將如何改變生活、就業(yè)的時候,刻板印象中 “故步自封” 的日本游戲開發(fā)商居然已經(jīng)“開了竅”,早已用起了 AI 工作流
    的頭像 發(fā)表于 12-14 16:11 ?301次閱讀
    日本游戲廠商「開竅了」:AI <b class='flag-5'>工作流</b>實例披露

    vlookup函數(shù)的四個參數(shù)含義

    VLOOKUP函數(shù)是一種用于在Excel中查找和提取數(shù)據(jù)的功能強大的函數(shù)。它的四個參數(shù)含義分別是:查找值、查找范圍、返回列索引和區(qū)域或表標志。 首先,讓我們來詳細了解這四個參數(shù)的含義,并討論如何正確
    的頭像 發(fā)表于 12-01 09:57 ?6689次閱讀

    安捷倫網(wǎng)絡(luò)分析儀N5247A 67G四個端口故障【維修案例】

    ?????? 近日某院校送修一臺安捷倫網(wǎng)絡(luò)分析儀N5247A 67G,客戶反饋上四個端口故障,對儀器進行初步檢測,確定與客戶描述故障一致。本期小編將為大家分享本維修案例。 ? ? ??? 下面就是
    的頭像 發(fā)表于 11-20 14:32 ?569次閱讀
    安捷倫網(wǎng)絡(luò)<b class='flag-5'>分析</b>儀N5247A 67G<b class='flag-5'>四個</b>端口故障【維修案例】

    時間序列分析四個基本Python庫介紹

    在本文中,我們將介紹四個主要的Python庫——statmodels、tslearn、tssearch、 tsfresh ——每個庫都針對時間序列分析的不同方面進行了定制。這些庫為從預測到模式識別
    的頭像 發(fā)表于 11-03 10:17 ?760次閱讀
    時間序列<b class='flag-5'>分析</b>的<b class='flag-5'>四個</b>基本Python庫介紹

    四個腿的電感是什么?有什么作用?

    四個腿的電感是什么?有什么作用? 四個腿的電感是指由條腿組成的電路,其作用是用于檢測或測量電導率,阻抗和電容等電學特性。這種電感器適用于許多不同的應(yīng)用,例如精密儀器、航空航天、醫(yī)療設(shè)備、工業(yè)自動化
    的頭像 發(fā)表于 10-31 14:43 ?1359次閱讀