0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據分析過程中幾個可能常見的陷阱

數據分析與開發(fā) ? 來源:木木自由 ? 作者:木兮月寶 ? 2021-09-23 16:26 ? 次閱讀

前言 很多的數據分析人員往往太過于去關注數據或者分析方法論等,尤其是對于剛入門的,在解讀數據過程中,受到數據來源、采集方法、統(tǒng)計口徑、分析方法、業(yè)務經驗、思考方式等因素影響,就會出現一些容易忽視的“陷阱”,以致于得出的結果很可能出現偏差。所以,重視數據分析是好的,但也千萬不能掉進數據分析的“陷阱”里。

那么,本文我們將從業(yè)務層面的視角,來探討和梳理在數據分析過程中幾個可能常見“陷阱”,目的是主要給剛入門的、產品、運營等提供一些有益經驗分享,幫助大家在實際工作場景中遇到這些情況的時候,可以盡量規(guī)避一些不太注意的“陷阱”。

1

不了解數據來源,不確保數據的正確性

在數據分析中更注重的是分析,而并不是數據本身,這就造成了數據分析最大的陷阱:不了解數據來源,不確保數據的正確性,就開始分析了。因此,數據分析的第一步就是了解數據來源,確保數據準確性。 比如,一個考勤軟件的App在做渠道投放,上線了新版的落地頁。

上線了一段時間數據穩(wěn)定后,業(yè)務人員從數據發(fā)現,此某個渠道的落地頁點擊率、轉化率等數據相比其他渠道的投放的效果高出很多,從數據中,可以看到說明這個渠道來的用戶效果很好,以后就要加大這個渠道的投放。然而,突然接到技術人員的反饋,在數據埋點的時候不小心埋錯了,導致統(tǒng)計數據出現問題,這個渠道的數據是其他兩個渠道總和! 因為錯誤的數據,得出了錯誤的分析結果,并且還做了后續(xù)錯誤決策。由此可見,有效數據分析的前提,是對正確的數據做分析。尤其是在小公司的人員,沒有強大的數據團隊,可能就會借用各種各種第三方的統(tǒng)計軟件來做數據埋點,此時首要確認數據的正確性,去梳理數據來源。

2

需求不匹配,分析目的不明確

梳理了數據來源,確保數據的準確性,是前提。那么接下來就是需要明確分析目的,分析目的明確了,后面的各種統(tǒng)計數據和分析方法以及分析結果才有意義。當明確目的后,才有后續(xù)的分析思路。 比如,一個考勤軟件的App的業(yè)務人員提出轉化率較低,是否有優(yōu)化的空間的需求。

然而我們并沒有進一步的確認是哪個環(huán)節(jié)轉化率低,就開始直接拉取數據進行分析,其實業(yè)務人員說的是新用戶會員成單的轉化率,是不是來源不精準,能否優(yōu)化渠道或者停止投放,而我們得到的需求不明確,溝通的時候也未能進一步的明確分析目的,就是直接拉取各個環(huán)節(jié)的轉化率,導致拉取的數據與原始問題不匹配。

因此,根據業(yè)務方的需求,首先要明確為什么要做數據分析,要解決什么問題,也就是分析的目的。然后針對分析目的,搭建分析框架,選擇分析方法和具體分析指標,以及明確抽取哪些數據,用到哪些圖表等分析思路,只有對分析目的有清晰的認識,才會避開為分析而分析的誤區(qū),分析的結果和過程就越有價值。

3

未清理數據,數據采集出現偏差

在了解數據來源、確保了準確性、明確分析需求后,下一步就是數據采集和數據清洗了,這也是最容易出問題的環(huán)節(jié),有些問題甚至非常隱蔽難以發(fā)現。因此,數據本身沒有觀點,分析時不能預設觀點,只傾向于那些能夠支持自己的觀點的數據,并在數據清洗中,合理的識別數據容量大小、剔除臟數據。

注意選擇性偏見或者幸存者偏見。總體樣本中,任意一個群體樣本的平均值,都會圍繞在這個群體的整體平均值周圍?;谶@個原理,我們便可以采用隨機抽樣的方式來對整體樣本中的一個小群體進行分析,得出的結論是會比較接近真實情況的。但是你采集數據的過程是否是真的隨機。

比如,在一個考勤軟件APP應用升級期間,通過衡量用戶的日活、留存率、活躍企業(yè)數等指標,來判斷用戶對新版本的喜歡是否優(yōu)于老版本。但這里實際就隱藏了選擇性偏見,因為新版本發(fā)布時,第一批升級上來的用戶往往就是最活躍的用戶。

這批用戶在這些指標上,本來表現就是優(yōu)于一般用戶的,因此指標數據更高并不能說明更好。 注意數據樣本容量不夠。我們在分析某特定的用戶行為數據時,可能用戶使用很少的情況?;蛘呤窃谔崛祿倪^程中,增加了很多的限制條件或者多種用戶行為或屬性進行交叉后,得到很少的用戶樣本。

此時,得出的分析結果未必可信。因為大數定律,只有當數據量達到一定程度后,才能反映出特定的規(guī)律。但是樣本容量多少才算合理,通常只能是具體問題具體分析。 比如,在一個考勤軟件APP應用新上了學習打卡的新功能,但由于前期無預算做推廣,導致新功能只有在小部分老用戶群體中曝光,因此,從數據中來判斷此功能并不受歡迎。

但這里實際就存在數據樣本容量不夠,并不能說明問題。因此,遇到這種情況,建議可以把時間線拉長,這樣可能會獲得足量的樣本。還有一種做法是,將不重要的限定條件去掉,也可以增大樣本數。注意存在臟數據。臟數據是指嚴重不合理或對于實際業(yè)務毫無意義的數據,通常是由程序bug、第三方攻擊、人為等原因造成的。這種數據對指標的準確度影響較大。

比如,我們要分析在一個考勤軟件APP中各個企業(yè)類型打卡規(guī)則的分布情況,而用于分析用戶打卡視角中,有較多是個人打卡并不是我們要分析的目標群體或者有人的工種的特殊性,就會造成打卡規(guī)則的分布不規(guī)則的情況,容易造成對用戶喜好的誤判。因此,對臟數據的清洗和處理,也是數據分析人員日常工作中非常重要的一部分。在分析具體業(yè)務時,也要針對特定業(yè)務,過濾掉異常數據,來確保擁有比較好的數據質量。

4

指標不合理,數據具備時效性

清洗完數據后,下一步就需要明確分析的數據指標,進行數據分析,其數據分析的結果通常是各種各樣的指標,每個指標都有自己的統(tǒng)計邏輯,反映的事物的某些方面的本質。 比如,很多時候我們會使用平均值來描述一組數據的集中趨勢。

我們在制定業(yè)務閾值時,也經常會參考平均值。但是,有些業(yè)務場景不適合使用平均值。就像變化比較大,存在極端值的數據,或者是對最終結果影響不一致的數據。這種時候,你就要考慮其他指標,如加權平均值、百分位數、小數值合并后再求平均值。 因此,在進行數據分析時,如果不能選擇正確的指標,也可能會走入誤區(qū),從而得出錯誤的結論。數據是具備一定的時效性,不同情況下的數據,一些曾經的數據可能不再適用,需要找到新的數據指標。

5

套用方法論,分析結論不嚴謹

明確好數據分析指標,接下來就是通過各種數據分析方法來分析數據,得出結論,支持業(yè)務決策。數據分析方法論是對一個數據分析項目的整體工作起到指導作用的思路模型。然而,在數據分析學習時或許習慣了各種解題套路,但實操時其實并不存在通用的分析套路。

不同的行業(yè)、不同的業(yè)務,不同的階段,哪怕用的是同一種分析方法結論都應有所區(qū)別。 比如,在實際工作場景中,數據分析需要對數據表現作出快速判斷,進而指導運營決策,并不像學術研究那樣嚴謹,不需要在每次分析前都去驗證樣本群體是否符合某種統(tǒng)計分布等,實際工作中,考驗得更多的是對業(yè)務的理解的把握能力。

所以,在開展數據分析工作過程中,不能完全依賴過往的類似案例以及分析方法,而應重視業(yè)務的理解。 因此,每一次分析,應該結合業(yè)務場景中思考,更不能被各種套路方法論給束縛住,也不能簡單依賴過往的類似案例。

6

輕視業(yè)務,與實際場景脫節(jié)

數據不等同與實際場景,實際場景往往比數據更加復雜,分析時需要了解具象化的場景,而不是抽象的數據,數據分析初學者極易犯的錯誤,只懂工具不懂業(yè)務不能真正理解業(yè)務需求。好的分析人員需要既懂工具又懂業(yè)務,也要多去一線了解業(yè)務運作,幫助解決業(yè)務運營中遇到的各種問題。

比如,結構化思維模型、KANO分析模型、RFM模型、四象限模型。。。。。。這些經典且廣泛應用的模型。來積累豐富的數據分析模型庫以應對各種業(yè)務場景。 因此,數據分析人員結合實際業(yè)務場景,需要具體問題具體分析,服務于業(yè)務的應用。及時與企業(yè)各部門溝通,共享數據分析的成果,這樣才能體現數據分析的真正價值。所以作為數據分析人員,要結合業(yè)務需求,保持獨立思考的心態(tài),大膽假設,小心求證,警惕和避免走進數據分析的陷阱。

總結

實際工作生活中,還有很多需要我們注意的關于數據分析的事項,這里就不一一開展,本文只是從業(yè)務層面的視角梳理了關于數據分析各個環(huán)節(jié)中可能存在的引發(fā)誤導的一些陷阱。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • APP
    APP
    +關注

    關注

    33

    文章

    1561

    瀏覽量

    72266
  • 數據分析
    +關注

    關注

    2

    文章

    1400

    瀏覽量

    33963
  • Kano模型分析法

    關注

    0

    文章

    2

    瀏覽量

    1358

原文標題:警惕!數據分析的陷阱?

文章出處:【微信號:DBDevs,微信公眾號:數據分析與開發(fā)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    IP 地址大數據分析如何進行網絡優(yōu)化?

    一、大數據分析在網絡優(yōu)化的作用 1.流量分析數據分析可以對網絡的流量進行實時監(jiān)測和分析
    的頭像 發(fā)表于 10-09 15:32 ?95次閱讀
    IP 地址大<b class='flag-5'>數據分析</b>如何進行網絡優(yōu)化?

    數據分析在提高灌區(qū)管理水平的作用

    數據分析在提升灌區(qū)管理水平扮演著至關重要的角色,它通過深度挖掘海量信息,為灌溉系統(tǒng)的高效運作、資源優(yōu)化配置及可持續(xù)發(fā)展提供了科學決策的基礎。這一過程不僅涉及數據的收集、整理與
    的頭像 發(fā)表于 08-28 17:23 ?189次閱讀
    <b class='flag-5'>數據分析</b>在提高灌區(qū)管理水平<b class='flag-5'>中</b>的作用

    康謀分享 | 在基于場景的AD/ADAS驗證過程中,識別挑戰(zhàn)性場景!

    基于場景的驗證是AD/ADAS系統(tǒng)開發(fā)過程中的重要步驟,然而面對海量駕駛記錄數據時,如何實現自動且高效地識別、分類和提取駕駛記錄的挑戰(zhàn)性場景?本文康謀為您介紹IVEX軟件識別挑戰(zhàn)性場景并進行
    的頭像 發(fā)表于 08-28 10:16 ?948次閱讀
    康謀分享 | 在基于場景的AD/ADAS驗證<b class='flag-5'>過程中</b>,識別挑戰(zhàn)性場景!

    數據分析的工具有哪些

    數據分析是一個涉及收集、處理、分析和解釋數據以得出有意義見解的過程。在這個過程中,使用正確的工具至關重要。以下是一些主要的
    的頭像 發(fā)表于 07-05 14:54 ?659次閱讀

    數據分析有哪些分析方法

    數據分析是一種重要的技能,它可以幫助我們從大量的數據中提取有價值的信息,從而做出更明智的決策。在這篇文章,我們將介紹數據分析的各種方法,包括描述性
    的頭像 發(fā)表于 07-05 14:51 ?414次閱讀

    機器學習在數據分析的應用

    隨著大數據時代的到來,數據量的爆炸性增長對數據分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從數據中學習規(guī)律,為企業(yè)和組織提供了更高效、更準確的
    的頭像 發(fā)表于 07-02 11:22 ?402次閱讀

    求助,關于AD采集到的數據分析問題

    MATLAB畫圖后能看到幾個周期的圖像 數據特征:在matlab能看到圖像是由兩部分構成,一部分是基波及其n次諧波,即存在上升沿,過沖,另一部分是隨機噪聲 求各位大神科普
    發(fā)表于 05-09 07:40

    態(tài)勢數據分析系統(tǒng)軟件

    智慧華盛恒輝態(tài)勢分析軟件系統(tǒng)的功能描述、部署環(huán)境、界面使用、技術支持及一些常見問題及其解決辦法等。為數據態(tài)勢分析軟件系統(tǒng)的管理人員和使用人員提供說明。 智慧華盛恒輝態(tài)勢
    的頭像 發(fā)表于 04-22 11:36 ?374次閱讀

    廣告投放公司運用大數據分析,實現精準投放

    。廣告投放公司將探討廣告投放公司如何運用大數據分析實現精準投放,以及這一過程中的關鍵要素和挑戰(zhàn)。 一、大數據在廣告投放的作用 大數據在廣告
    的頭像 發(fā)表于 04-11 11:23 ?629次閱讀

    sMT貼片加工過程中,QFN,QFP芯片短路原因分析

    在SMT貼片加工過程中,QFN (Quad Flat No-lead) 和 QFP (Quad Flat Package) 芯片的短路問題是一種常見的缺陷,它可能導致電路板的不良質量,甚至通電后芯片
    的頭像 發(fā)表于 02-04 11:10 ?1596次閱讀

    使用AD5293的過程中遇到的幾個問題求解

    我在使用AD5293的過程中遇到了以下幾個問題: 1.AD5293的VDD,VSS,VLOGIC引腳所連接的10uf的電容是有極性還是無極性的? 2.EXT_CAP引腳,在上電時對地電壓應該是
    發(fā)表于 12-11 08:21

    Get職場新知識:做分析,用大數據分析工具

    為什么企業(yè)每天累積那么多的數據,也做數據分析,但最后決策還是靠經驗?很大程度上是因為這些數據都被以不同的指標和存儲方式放在各自的系統(tǒng),這就導致了
    發(fā)表于 12-05 09:36

    使用Minitab的跨行業(yè)模塊提升您的數據分析

    的用武之地。您可能已經熟悉Minitab統(tǒng)計軟件提供的價值,無論您是在嘗試設計更好的產品、改進流程還是預測可能的結果。畢竟,Minitab五十多年來一直在幫助公司分析他們的數據。 但是
    的頭像 發(fā)表于 11-27 11:44 ?391次閱讀

    PCB設計過程中常見問題匯總

    不注意就會在細節(jié)上出錯,導致嚴重的后果。 針對PCB設計過程中常見的問題進行匯總和分析,希望能夠對大家的設計和制作工作帶來一定的幫助,避免失誤! 1、圖形設計不均勻。造成圖形電鍍時,電流分布不勻
    發(fā)表于 11-16 16:43

    開關電源在使用過程中常見故障及維修技巧

    開關電源在使用過程中常見故障及維修技巧 開關電源作為一種先進的電源技術,被廣泛應用在電子設備的供電領域。它具有高效率、輕便、小體積等優(yōu)點,但是在使用過程中依然會出現一些常見故障,本文
    的頭像 發(fā)表于 10-23 09:35 ?2507次閱讀