0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

評價Python字符串相似度的六種度量方法

汽車玩家 ? 來源:今日頭條 ? 作者:我愛學Python ? 2020-01-18 17:33 ? 次閱讀

字符串的相似性比較應(yīng)用場合很多,像拼寫糾錯、文本去重、上下文相似性等。

評價字符串相似度最常見的辦法就是:把一個字符串通過插入、刪除或替換這樣的編輯操作,變成另外一個字符串,所需要的最少編輯次數(shù),這種就是編輯距離(edit distance)度量方法,也稱為Levenshtein距離。海明距離是編輯距離的一種特殊情況,只計算等長情況下替換操作的編輯次數(shù),只能應(yīng)用于兩個等長字符串間的距離度量。

其他常用的度量方法還有 Jaccard distance、J-W距離(Jaro–Winkler distance)、余弦相似性(cosine similarity)、歐氏距離(Euclidean distance)等。

python-Levenshtein 使用

使用 pip install python-Levenshtein 指令安裝 Levenshtein

1. difflib

2. hamming距離,str1和str2長度必須一致,描述兩個等長字串之間對應(yīng)位置上不同字符的個數(shù)

3. 編輯距離,描述由一個字串轉(zhuǎn)化成另一個字串最少的操作次數(shù),在其中的操作包括 插入、刪除、替換

4.計算萊文斯坦比

5.計算jaro距離

6. Jaro–Winkler距離

輸出:

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 字符串
    +關(guān)注

    關(guān)注

    1

    文章

    567

    瀏覽量

    20443
  • python
    +關(guān)注

    關(guān)注

    54

    文章

    4759

    瀏覽量

    84299
收藏 人收藏

    評論

    相關(guān)推薦

    labview字符串如何轉(zhuǎn)換為16進制字符串

    在LabVIEW中,將字符串轉(zhuǎn)換為16進制字符串是一個常見的需求,尤其是在處理數(shù)據(jù)通信和硬件接口時。LabVIEW提供了多種方法來實現(xiàn)這一轉(zhuǎn)換,包括使用內(nèi)置函數(shù)、編寫VI(Virtual
    的頭像 發(fā)表于 09-04 15:54 ?1167次閱讀

    labview字符串的四表示各有什么特點

    。在LabVIEW中,字符串是一基本的數(shù)據(jù)類型,用于表示文本信息。字符串在LabVIEW中有多種表示方式,每種方式都有其特定的應(yīng)用場景和特點。以下是對LabVIEW中四
    的頭像 發(fā)表于 09-04 15:40 ?272次閱讀

    C語言字符串編譯函數(shù)介紹

    在C語言中,字符串實際上是使用null字符O'終止的一維字符數(shù)組。因此,一個以null結(jié)尾的字符串,包含了組成字符串
    的頭像 發(fā)表于 03-07 16:18 ?442次閱讀
    C語言<b class='flag-5'>字符串</b>編譯函數(shù)介紹

    labview掃描字符串怎么用

    LabVIEW 是一流程化編程語言和開發(fā)環(huán)境,主要用于控制、測量和監(jiān)測系統(tǒng)。在 LabVIEW 中,掃描字符串是一項常見的任務(wù),它允許用戶按照一定的模式從輸入字符串中提取所需的信息。下面我將詳細
    的頭像 發(fā)表于 12-29 10:12 ?1715次閱讀

    labview掃描字符串怎么用

    LabVIEW是一圖形化編程語言,用于開發(fā)控制、測量和監(jiān)控系統(tǒng)。雖然它主要用于工程和科學領(lǐng)域,但也可以用于處理文本和字符串。 在LabVIEW中,可以使用字符串處理函數(shù)來掃描字符串。
    的頭像 發(fā)表于 12-26 16:58 ?1709次閱讀

    labview中怎么對字符串中的進行實時處理

    LabVIEW是一用于開發(fā)控制、測試和測量系統(tǒng)的可視化編程環(huán)境,它提供了許多處理字符串的功能。在LabVIEW中,可以使用不同的函數(shù)和工具來實時處理字符串。下面我將詳細介紹一些常見的方法
    的頭像 發(fā)表于 12-26 14:12 ?1548次閱讀

    oracle字符串split成多個

    Oracle是一廣泛使用的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),它提供了許多強大的功能和函數(shù),用于處理和操作數(shù)據(jù)。其中之一就是字符串分割(split)方法,該方法用于將一個
    的頭像 發(fā)表于 12-06 09:54 ?4832次閱讀

    MySQL替換字符串函數(shù)REPLACE

    MySQL是目前非常流行的開源數(shù)據(jù)庫管理系統(tǒng)之一,它具有強大的功能和性能。其中之一的字符串函數(shù)REPLACE,可以用于替換字符串中的指定字符字符串。在本文中,我們將詳細討論MySQL
    的頭像 發(fā)表于 11-30 10:44 ?1372次閱讀

    c語言字符串定義

    C語言是一強大而廣泛使用的編程語言,字符串是其中一個非常重要的概念。在C語言中,字符串是由一系列字符組成的數(shù)組,它可以表示文本、數(shù)字等各種類型的數(shù)據(jù)。在本文中,我們將詳盡、詳實、細致
    的頭像 發(fā)表于 11-24 10:02 ?1672次閱讀

    python如何統(tǒng)計字符串中字母個數(shù)

    Python中統(tǒng)計字符串中字母個數(shù)的方法有多種,下面我會詳細介紹一些常用的方法。 方法一:使用循環(huán)遍歷
    的頭像 發(fā)表于 11-23 16:29 ?1.2w次閱讀

    python輸出固定長度的字符串

    Python 是一強大而靈活的編程語言,具有許多用于處理字符串的功能。在 Python 中,有多種方法可以輸出固定長度的
    的頭像 發(fā)表于 11-22 10:41 ?2877次閱讀

    python怎么把字符串變成數(shù)字

    Python是目前廣泛應(yīng)用的一編程語言,它以簡潔、易讀和靈活的特性被廣大開發(fā)者所喜愛。在Python中,字符串和數(shù)字是兩常見的數(shù)據(jù)類型。
    的頭像 發(fā)表于 11-22 09:47 ?3515次閱讀

    字符串如何轉(zhuǎn)換成日期型

    同編程語言將字符串轉(zhuǎn)換為日期類型。 正文: 一、Python中的字符串轉(zhuǎn)日期轉(zhuǎn)換 在Python中,使用datetime模塊可以方便地將字符串
    的頭像 發(fā)表于 11-17 16:27 ?9578次閱讀

    mysql字符串包含某個字符串

    MySQL是一開源的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),被廣泛用于構(gòu)建Web應(yīng)用程序和其他大型數(shù)據(jù)驅(qū)動的應(yīng)用。在進行MySQL數(shù)據(jù)庫查詢時,經(jīng)常需要使用字符串包含操作,即判斷一個字符串是否包含另一個字符串
    的頭像 發(fā)表于 11-16 14:52 ?3384次閱讀

    Python 如何判斷字符串是否包含子

    方法 使用 字符串 對象的 find 方法,如果有找到子,就可以返回指定子字符串中的出現(xiàn)
    的頭像 發(fā)表于 11-02 10:55 ?442次閱讀