您好,歡迎來電子發(fā)燒友網! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網>源碼下載>數值算法/人工智能>

Spark下的并行多標簽最近鄰算法

大?。?/span>1.06 MB 人氣: 2017-11-22 需要積分:2

  隨著大數據時代的到來,大規(guī)模多標簽數據挖掘方法受到廣泛關注。多標簽最近鄰算法ML_KNN是一種簡單高效、應用廣泛的多標簽分類方法,其分類精度在很多應用中都高于其他常見的多標簽學習方法。然而隨著需要處理的數據規(guī)模越來越大,傳統串行ML-KNN算法已經難以滿足大數據應用中時間和存儲空間上的限制。結合Spark的并行機制和其基于內存的迭代計算特點,提出了一種基于Spark并行框架的ML_KNN算法SML-KNN。在Map階段分別找到待預測樣本每個分區(qū)的K近鄰,隨后Reduce階段根據每個分區(qū)的近鄰集合確定最終的K近鄰,最后并行地對近鄰的標簽集合進行聚合,通過最大化后驗概率準則輸出待預測樣本的目標標簽集合。串行和并行環(huán)境下的對比實驗結果表明,SML_KNN在保證分類精度的前提下性能與計算資源呈近似線性關系,提高了ML_KNN算法對大規(guī)模多標簽數據的處理能力。

Spark下的并行多標簽最近鄰算法

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關規(guī)定!

      ?