0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)挖掘常用算法

工程師 ? 來源:網(wǎng)絡整理 ? 作者:h1654155205.5246 ? 2019-04-10 16:32 ? 次閱讀

數(shù)據(jù)挖掘常用算法

1、樸素貝葉斯

樸素貝葉斯(NB)屬于生成式模型(即需要計算特征與類的聯(lián)合概率分布),計算過程非常簡單,只是做了一堆計數(shù)。NB有一個條件獨立性假設,即在類已知的條件下,各個特征之間的分布是獨立的。這樣樸素貝葉斯分類器的收斂速度將快于判別模型,如邏輯回歸,所以只需要較少的訓練數(shù)據(jù)即可。即使NB條件獨立假設不成立,NB分類器在實踐中仍然表現(xiàn)的很出色。它的主要缺點是它不能學習特征間的相互作用,用mRMR中的R來講,就是特征冗余。

2、邏輯回歸(logisticregression)

邏輯回歸是一個分類方法,屬于判別式模型,有很多正則化模型的方法(L0,L1,L2),而且不必像在用樸素貝葉斯那樣擔心特征是否相關。與決策樹與SVM相比,還會得到一個不錯的概率解釋,甚至可以輕松地利用新數(shù)據(jù)來更新模型(使用在線梯度下降算法onlinegradientdescent)。如果需要一個概率架構(比如,簡單地調(diào)節(jié)分類閾值,指明不確定性,或者是要獲得置信區(qū)間),或者希望以后將更多的訓練數(shù)據(jù)快速整合到模型中去,那么可以使用它。

3、最近鄰算法——KNN

KNN即最近鄰算法,其主要過程為:計算訓練樣本和測試樣本中每個樣本點的距離(常見的距離度量有歐式距離,馬氏距離等);對上面所有的距離值進行排序;選前k個最小距離的樣本;根據(jù)這k個樣本的標簽進行投票,得到最后的分類類別;

如何選擇一個最佳的K值,這取決于數(shù)據(jù)。一般情況下,在分類時較大的K值能夠減小噪聲的影響。但會使類別之間的界限變得模糊。一個較好的K值可通過各種啟發(fā)式技術來獲取,比如,交叉驗證。另外噪聲和非相關性特征向量的存在會使K近鄰算法的準確性減小。

近鄰算法具有較強的一致性結果。隨著數(shù)據(jù)趨于無限,算法保證錯誤率不會超過貝葉斯算法錯誤率的兩倍。對于一些好的K值,K近鄰保證錯誤率不會超過貝葉斯理論誤差率。

4、決策樹

可以處理特征間的交互關系并且是非參數(shù)化的,因此不必擔心異常值或者數(shù)據(jù)是否線性可分(舉個例子,決策樹能輕松處理好類別A在某個特征維度x的末端,類別B在中間,然后類別A又出現(xiàn)在特征維度x前端的情況)。它的缺點之一就是不支持在線學習,于是在新樣本到來后,決策樹需要全部重建。另一個缺點就是容易出現(xiàn)過擬合,但這也就是諸如隨機森林RF(或提升樹boostedtree)之類的集成方法的切入點。另外,隨機森林經(jīng)常在很多分類問題上表現(xiàn)很好(通常比支持向量機好一些),它訓練快速并且可調(diào),同時無須擔心要像支持向量機那樣調(diào)一大堆參數(shù),所以在以前一直很受歡迎。

5、Adaboosting

Adaboost是一種加和模型,每個模型都是基于上一次模型的錯誤率來建立的,過分關注分錯的樣本,而對正確分類的樣本減少關注度,逐次迭代之后,可以得到一個相對較好的模型。Adaboost是一種典型的boosting算法。

6、SVM支持向量機

高準確率,為避免過擬合提供了很好的理論保證,而且就算數(shù)據(jù)在原特征空間線性不可分,只要給個合適的核函數(shù),它就能運行得很好。在動輒超高維的文本分類問題中特別受歡迎。可惜內(nèi)存消耗大,難以解釋,運行和調(diào)參也有些煩人,而隨機森林卻剛好避開了這些缺點,比較實用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關推薦

    【書籍評測活動NO.46】從算法到電路 | 數(shù)字芯片算法的電路實現(xiàn)

    、小數(shù)分頻器等常用基本算法電路的Matlab建模和RTL設計,可幫助數(shù)字IC設計者掌握常用算法設計思路、工具和流程,從根本上提高設計基本算法
    發(fā)表于 10-09 13:43

    常用的ADC濾波算法有哪些

    ADC(模數(shù)轉換器)濾波算法在信號處理中起著至關重要的作用,它們能夠幫助我們提取出有用的信號,同時濾除噪聲和干擾。以下是常用的ADC濾波算法詳解,這些算法各具特色,適用于不同的應用場景
    的頭像 發(fā)表于 10-08 14:35 ?149次閱讀

    人員軌跡分析算法有哪些?

    時段等。這些信息可以對城市規(guī)劃、交通管理、公共安全等方面具有重要的指導意義。而為了實現(xiàn)人員軌跡分析,我們需要使用一些專門的算法和技術。 下面是幾種常用的人員軌跡分析算法: 1. 基于密度的聚類
    的頭像 發(fā)表于 09-26 10:42 ?201次閱讀

    中科曙光受邀參加第十屆中國數(shù)據(jù)挖掘會議

    近日,國內(nèi)數(shù)據(jù)挖掘領域最主要的學術活動之一—第十屆中國數(shù)據(jù)挖掘會議(CCDM2024)于山東泰安舉行,中科曙光參與并分享了曙光AI構建產(chǎn)學研用的生態(tài)實踐。
    的頭像 發(fā)表于 08-01 10:43 ?517次閱讀

    常用的電機控制算法有哪些

    在電機控制領域,選擇合適的控制算法對于實現(xiàn)高效、精確且穩(wěn)定的電機運行至關重要。以下將詳細介紹幾種常用的電機控制算法,并通過具體的分析和實例,探討它們的特點、應用以及優(yōu)勢。
    的頭像 發(fā)表于 06-05 16:31 ?1806次閱讀

    STM32的ADC項目應用,用什么算法濾波和穩(wěn)定數(shù)據(jù)抖動?

    STM32的ADC項目應用,大家都用什么算法濾波和穩(wěn)定數(shù)據(jù)抖動。 ADC數(shù)據(jù)的抖動有時候應用在項目上讓人很是頭疼,什么度娘十大濾波算法也是要斟酌選用。 單片機項目設計中,外設ADC的
    發(fā)表于 04-17 08:20

    iBeLink KS MAX 10.5T大算力領跑KAS新領域

    Kaspa是一種基于DAG(有向無環(huán)圖)技術的加的密的貨的幣,它擁有高速、安全、可擴展的特點,是未來區(qū)的塊的鏈領域的新星。為了挖掘Kaspa,我們需要一款專門的挖掘機,能夠適應Kaspa的特殊算法
    發(fā)表于 02-20 16:11

    數(shù)據(jù)挖掘的應用領域,并舉例說明

    數(shù)據(jù)挖掘(Data Mining)是一種從大量數(shù)據(jù)中提取出有意義的信息和模式的技術。它結合了數(shù)據(jù)庫、統(tǒng)計學、機器學習和人工智能等領域的理論和方法,通過高效的
    的頭像 發(fā)表于 02-03 14:19 ?2696次閱讀

    源代碼審計怎么做?有哪些常用工具

    源代碼審計是一種通過檢查源代碼來發(fā)現(xiàn)潛在的安全漏洞的方法。 下面是常用的源代碼審計工具: 1、Fortify:通過內(nèi)置的五大主要分析引擎,對源代碼進行靜態(tài)分析,并與特有的軟件安全漏洞規(guī)則集進行全面
    發(fā)表于 01-17 09:35

    如何通過能源數(shù)據(jù)管理挖掘智慧樓宇的節(jié)能空間

    性能的同時優(yōu)化能耗,對此我們需要了解建筑內(nèi)各種能源的使用結構、使用時間等信息。對此,物通博聯(lián)提供智慧樓宇的能源數(shù)據(jù)管理系統(tǒng),實現(xiàn)樓宇內(nèi)各種能源的數(shù)據(jù)采集與可視化監(jiān)控,并建立能源全面數(shù)據(jù)視圖,幫助確定可以
    的頭像 發(fā)表于 12-23 15:55 ?689次閱讀
    如何通過能源<b class='flag-5'>數(shù)據(jù)</b>管理<b class='flag-5'>挖掘</b>智慧樓宇的節(jié)能空間

    傳感器數(shù)據(jù)融合算法python代碼

    傳感器數(shù)據(jù)融合算法是一種將多個傳感器收集到的數(shù)據(jù)合并到一個一致和準確的表示中的技術。這種算法的目的是提高數(shù)據(jù)精確性和可靠性,從而增強對環(huán)境或
    的頭像 發(fā)表于 12-15 10:28 ?1263次閱讀

    充分挖掘SiC FET的性能

    充分挖掘SiC FET的性能
    的頭像 發(fā)表于 12-07 09:30 ?331次閱讀
    充分<b class='flag-5'>挖掘</b>SiC FET的性能

    數(shù)據(jù)挖掘示波器與傳統(tǒng)示波器的區(qū)別在哪里?

    數(shù)據(jù)采集方式:傳統(tǒng)示波器通過將模擬信號轉換為數(shù)字信號進行采集和顯示。而數(shù)據(jù)挖掘示波器主要用于數(shù)字信號的采集和分析,例如從數(shù)字通信系統(tǒng)、傳感器網(wǎng)絡等獲取的數(shù)字信號進行處理和分析。
    的頭像 發(fā)表于 12-04 14:28 ?366次閱讀
    <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>挖掘</b>示波器與傳統(tǒng)示波器的區(qū)別在哪里?

    常用的校驗算法有哪些?

    常用的校驗算法有哪些,是不是和通信規(guī)約有關。比如MODBUS一般都用CRC16(不確定是不是叫這個)。這些校驗算法是之前積累下來的嗎。自己也可以定義一個校驗算法吧,只要發(fā)送端和接收端用
    發(fā)表于 11-03 06:50

    機器學習的基本流程和十大算法

    為了進行機器學習和數(shù)據(jù)挖掘任務,數(shù)據(jù)科學家們提出了各種模型,在眾多的數(shù)據(jù)挖掘模型中,國際權威的學術組織 ICDM(the IEEE Inte
    發(fā)表于 10-31 11:30 ?929次閱讀
    機器學習的基本流程和十大<b class='flag-5'>算法</b>