0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Python數(shù)據(jù)挖掘:WordCloud詞云配置過程及詞頻分析

馬哥Linux運維 ? 來源:未知 ? 作者:李倩 ? 2018-09-14 14:55 ? 次閱讀

這篇文章是學習了老曹的微信直播,感覺WordCloud對我的《Python數(shù)據(jù)挖掘課程》非常有幫助,希望這篇基礎(chǔ)文章對你有所幫助,同時自己也是詞云的初學者,強烈推薦老曹的博客供大家學習。如果文章中存在不足或錯誤的地方,還請海涵~

一. 安裝WordCloud

在使用WordCloud詞云之前,需要使用pip安裝相應的包。

pip install WordCloud

pip install jieba

其中WordCloud是詞云,jieba是結(jié)巴分詞工具。 問題:在安裝WordCloud過程中,你可能遇到的第一個錯誤如下。

error: Microsoft Visual C++ 9.0 is required. Get it from http://asa.ms/vcpython27

解決方法也很簡單,下載VCForPython27安裝(Microsoft Visual C++ Compiler for Python 2.7)。但是在微軟下載總是沒響應。 這是最大的問題,下面我自己提供一個CSDN的地址供大家下載。下載完成,可以進行安裝響應的庫函數(shù)。 資源地址:http://download.csdn.net/detail/eastmount/9788218

安裝完成之后,可以正常運行代碼啦。

二. 簡單詞云代碼

下面這部分代碼參考老曹的,希望對你有所幫助。 老曹說:什么是詞云呢?詞云又叫文字云,是對文本數(shù)據(jù)中出現(xiàn)頻率較高的“關(guān)鍵詞”在視覺上的突出呈現(xiàn),形成關(guān)鍵詞的渲染形成類似云一樣的彩色圖片,從而一眼就可以領(lǐng)略文本數(shù)據(jù)的主要表達意思。 代碼如下:

運行結(jié)果如下所示:

這是中文編碼問題,下面講解解決方法。

三. 中文編碼錯誤及解決

在WordCloud安裝的目錄下找到WordCloud.py文件,對源碼進行修改。

編輯wordcloud.py,找到FONT_PATH,將DroidSansMono.ttf修改成msyh.ttf。這個msyh.ttf表示微軟雅黑中文字體。

注意,此時運行代碼還是報錯,因為需要在同一個目錄下放置msyh.ttf字體文件供程序調(diào)用,如下圖所示,這是原來的字體DroidSansMono.ttf。

此時的運行結(jié)果如下所示,這是分析CSDN多篇博客的主題,"閱讀"和"評論"比較多。

也可以采用下面的代碼:

wordcloud = WordCloud(font_path = 'MSYH.TTF').fit_words(word)

四. 照片背景的詞云代碼

下面進一步深入,假設存在一個圖 "sss3.png",核心代碼如下:

運行結(jié)果如下圖所示,顯示我和寶寶我倆最近兩月的聊天記錄。

一弦一柱思華年,一co一ding夢嚴賢。 希望文章對你有所幫助,尤其是結(jié)合數(shù)據(jù)庫做數(shù)據(jù)分析的人。還是那句話,如果剛好需要這部分知識,你就會覺得非常有幫助,否則只是覺得好玩,這也是在線筆記的作用。如果文章中存在不足或錯誤的地方,還請海涵~

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)挖掘
    +關(guān)注

    關(guān)注

    1

    文章

    406

    瀏覽量

    24177
  • python
    +關(guān)注

    關(guān)注

    54

    文章

    4758

    瀏覽量

    84289

原文標題:Python數(shù)據(jù)挖掘:WordCloud詞云配置過程及詞頻分析

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    計算數(shù)據(jù)挖掘

    想要自學計算和數(shù)據(jù)挖掘想問下這些方面有哪些內(nèi)容該從何開始求大神們指教謝謝
    發(fā)表于 04-19 00:07

    python數(shù)據(jù)分析的類庫

    Python之所以這么流行,這么好用,就是因為Python提供了大量的第三方的庫,開箱即用,非常方便,而且還免費哦,學Python的同學里估計有30%以上是為了做數(shù)據(jù)分析師或者
    發(fā)表于 05-10 15:18

    怎么有效學習Python數(shù)據(jù)分析?

    過程。對于新手,如何學好python,這些很關(guān)鍵:Part1:能掌握好Python關(guān)鍵代碼以及Pandas、Numpy、Matplotlib、Seaborn這四個基本工具包,便能獨立完成一些簡單的
    發(fā)表于 06-28 15:18

    靈玖軟件:NLPIR智能挖掘系統(tǒng)專注中文處理

    和氣象學。大數(shù)據(jù)提出了數(shù)據(jù)庫和數(shù)據(jù)分析研究了隆重的挑戰(zhàn)。應對大數(shù)據(jù)的挑戰(zhàn),文本處理是不可或缺的一部分。大數(shù)據(jù)與人們以各種方式連接的媒介。尤其
    發(fā)表于 01-21 11:39

    xpath運用基本方法和生成

    xpath解析頁面以及分析
    發(fā)表于 02-27 13:52

    Python生成的淘寶評論云圖

    Python——對淘寶評論詞頻統(tǒng)計并生成云圖
    發(fā)表于 11-04 06:12

    NLPIR大數(shù)據(jù)語義分析系統(tǒng)的使用手冊

    統(tǒng)計信息輸出文件 文件統(tǒng)計結(jié)果包括:文檔名、總詞頻、總詞數(shù)、用戶詞典總詞頻與用戶詞典 總詞數(shù)。批量分詞 對原始語料進行分詞、自動識別人名地名機構(gòu)名等未登錄、新詞標注以及 詞性標注??稍?b class='flag-5'>分析
    發(fā)表于 11-14 17:04

    數(shù)據(jù)挖掘之基于關(guān)聯(lián)挖掘的商品銷售分析

    數(shù)據(jù)挖掘:基于關(guān)聯(lián)挖掘的商品銷售分析
    發(fā)表于 06-09 08:32

    LabVIEW生成酷炫的(wordcloud)效果

    通過LabVIEW調(diào)用Pythonwordcloud和matplotlib庫,實現(xiàn)如下圖所示的效果
    發(fā)表于 12-27 22:54

    基于關(guān)鍵相似度的用戶挖掘研究

    在Web挖掘極度盛行的今天,收集大量網(wǎng)絡數(shù)據(jù)已經(jīng)不是問題,而如何在海量數(shù)據(jù)中抽取去噪后的有用數(shù)據(jù)成為要解決的關(guān)鍵問題。本文研究將網(wǎng)站用戶的搜索關(guān)鍵
    發(fā)表于 12-13 10:15 ?0次下載

    基于詞頻統(tǒng)計的關(guān)鍵提取方法

    在TF-IDF算法基礎(chǔ)上,提出新的基于詞頻統(tǒng)計的關(guān)鍵提取方法。利用段落標注技術(shù),對處于不同位置的詞語給予不同的位置權(quán)重,對分詞結(jié)果中詞頻較高的同詞性詞語進行詞語相似度計算,合并相似度較高的詞語
    發(fā)表于 12-15 15:29 ?13次下載
    基于<b class='flag-5'>詞頻</b>統(tǒng)計的關(guān)鍵<b class='flag-5'>詞</b>提取方法

    python統(tǒng)計詞頻的三種方法

    python統(tǒng)計詞頻的三種方法方法。
    發(fā)表于 05-25 14:33 ?2次下載

    python數(shù)據(jù)挖掘與機器學習

    用的數(shù)據(jù)挖掘和機器學習工具。 一、數(shù)據(jù)挖掘 數(shù)據(jù)挖掘是指從大量
    的頭像 發(fā)表于 08-17 16:29 ?1248次閱讀

    python數(shù)據(jù)挖掘案例

    Python數(shù)據(jù)挖掘的強大功能。 一、金融領(lǐng)域 1.股票價格預測 股票市場是一個復雜的系統(tǒng),而股票價格的預測對于投資者來說常常是至關(guān)重要的。Python
    的頭像 發(fā)表于 08-17 16:29 ?1562次閱讀

    Dynaconf 輕松實現(xiàn) Python 動態(tài)配置管理

    ) **如果你用Python的目的是數(shù)據(jù)分析,可以直接安裝Anaconda: Python數(shù)據(jù)分析挖掘好幫手—Anaconda ,它內(nèi)置了
    的頭像 發(fā)表于 10-30 15:02 ?807次閱讀