0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

統(tǒng)計(jì)學(xué)基礎(chǔ)理論之一——中心極限定理的核心概念

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-18 09:08 ? 次閱讀

編者按:中心極限定理是概率論中的一組重要定理,它的中心思想是無論是什么分布的數(shù)據(jù),當(dāng)我們從中抽取相互獨(dú)立的隨機(jī)樣本,且采集的樣本足夠多時,樣本均值的分布將收斂于正態(tài)分布。為了幫助更多學(xué)生理解這個概念,今天,UW iSchool的教師Mike Freeman制作了一些直觀的可視化圖像,讓不少統(tǒng)計(jì)學(xué)教授大呼要把它們用在課堂上。

本文旨在盡可能直觀地解釋統(tǒng)計(jì)學(xué)基礎(chǔ)理論之一——中心極限定理的核心概念。通過下文中的一系列動圖,讀者應(yīng)該能真正理解這個定理,并從中汲取應(yīng)用靈感,把它用于決策樹等其他項(xiàng)目。

需要注意的是,這里我們不會介紹具體推理過程,所以它不涉及定理解釋。

教科書上的中心極限定理

在看可視化前,我們先來回顧一下統(tǒng)計(jì)學(xué)課程對中心極限定理的描述。

來源:LthID

n>30一般為大樣本的分界線 來源:LthID

來源:LthID

一個簡單的例子

為了降低這個定理的理解門檻,首先我們來舉個簡單的例子。假設(shè)有一個包含100人的團(tuán)體,他們在某些問題上的意見分布在0-100之間。如果以可視化的方式把他們的意見分?jǐn)?shù)表示在水平軸上,我們可以得到下面這幅圖:深色豎線表示所有人意見分?jǐn)?shù)的平均值。

假如你是一名社會科學(xué)家,你想知道這個團(tuán)體的立場特點(diǎn),并用一些信息,比如上面的“平均意見得分”來描述他們。但可惜的是,由于時間、資金有限,你沒法一一詢問。這時候,你就可能需要對這100人進(jìn)行抽樣。比方說,在有限的時間、資金條件內(nèi),你可以從中隨機(jī)抽取10個人作為自己的采訪對象(n=10),向他們詢問有關(guān)特定問題的具體想法:

隨機(jī)抽取10個樣本

如你所見,這些樣本的均值可能會和整個團(tuán)體的總體均值有很大差異。那么,怎么采樣才能更可靠呢?

考慮多個樣本

假設(shè)我們可以從團(tuán)體中采集多個樣本。雖然這種做法在現(xiàn)實(shí)中是客觀存在的(尤其是在政治民意調(diào)查中),但在這里,我們會更多地將其作為一種解釋工具(當(dāng)你進(jìn)行重復(fù)采樣時,實(shí)際上會有一些意料之外的因素出現(xiàn))。對于每個樣本,我們在每次采樣時都跟蹤樣本均值與整體平均值的差。

多次重復(fù)該過程,我們就能獲得樣本均值的分布,它通常被稱為樣本均值分布,或者(更簡單的)抽樣分布。下面是對100人的團(tuán)體進(jìn)行多次抽樣后(每次10人),樣本均值的變化情況:

第一次采樣,樣本均值和總體均值有明顯偏差

多次采樣后,樣本均值和總體均值的偏差變小了

可以發(fā)現(xiàn),隨著抽樣次數(shù)逐漸增多,總體均值和樣本均值之間的差距正在不斷縮小。這是可以理解的,因?yàn)檎麄€過程就相當(dāng)于從100人中抽取更多樣本。但之前我們也說了,資金、時間是有限的,這沒有解決資源受限的問題,也無法反映人整個團(tuán)體在特定問題上的立場。

為了了解每次計(jì)算樣本均值的效果,我們得先看看抽樣分布的分布情況。

理解分布

鑒于上述可視化圖像在分布上不夠直觀,所以在這里,我們把原先表示每個意見的圓圈變成方塊,以直方圖的形式展現(xiàn)總體分布的情況:

顯然,我們的數(shù)據(jù)分布并不正常。雖然上圖中有些部分的曲線是符合正態(tài)分布的,但大多數(shù)是不符合的,這段曲線沒法幫助我們理解這100個人的習(xí)性。相反地,我們可以從樣本均值的分布情況著手,看看抽樣分布的變化情況:

隨著采樣次數(shù)上升,抽樣分布正在發(fā)生變化

進(jìn)一步增加采樣次數(shù),抽樣分布的形狀逐漸趨于穩(wěn)定

隨著采樣數(shù)量的增加,采樣分布在可視化中形成了一條鐘形曲線,符合正態(tài)分布。如上所述,隨著重復(fù)采樣次數(shù)的增加,樣本均值(抽樣分布的平均值)會變得越來越準(zhǔn)確。

為什么重要

當(dāng)采樣的數(shù)量接近無窮大時,我們的抽樣分布就會近似于正態(tài)分布。這個統(tǒng)計(jì)學(xué)基礎(chǔ)理論意味著我們能根據(jù)個體樣本推斷所有樣本。結(jié)合正態(tài)分布的其他知識,我們可以輕松計(jì)算出給定平均值的值的概率。同樣的,我們也可以根據(jù)觀察到的樣本均值估計(jì)總體均值的概率。

維基百科對于“中心極限定理”的定義:中心極限定理是概率論中的一組定理。中心極限定理說明,在適當(dāng)?shù)臈l件下,大量相互獨(dú)立隨機(jī)變量的均值經(jīng)適當(dāng)標(biāo)準(zhǔn)化后依分布收斂于正態(tài)分布。

在留言中,美國田納西州范德堡大學(xué)的醫(yī)學(xué)院生物統(tǒng)計(jì)學(xué)教授Frank Harrell留下了自己的風(fēng)趣評論:“但是在所有定理中,中心極限定理是最后一個我想教給學(xué)生的東西。我想他們得先學(xué)好第一堂課,它包括一些設(shè)計(jì)、數(shù)據(jù)的意義、數(shù)據(jù)的穩(wěn)健性、bootstrap、一些貝葉斯、高精度數(shù)據(jù)圖等等?!?/p>

讀完他的話,是不是覺得即便了解了這個定理,自己要學(xué)的東西還是很多呢?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1078

    瀏覽量

    40352
  • 可視化
    +關(guān)注

    關(guān)注

    1

    文章

    1154

    瀏覽量

    20818

原文標(biāo)題:什么是中心極限定理?這里有一份可視化解釋

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    MPEG基礎(chǔ)理論和協(xié)議分析

    MPEG基礎(chǔ)理論和協(xié)議分析MPEG 基礎(chǔ)理論和協(xié)議分析(包括DVB和ATSC)的指南MPEG 是當(dāng)今最流行的音頻/ 視頻壓縮技術(shù)之一。這是因?yàn)樗粌H僅是個單獨(dú)的標(biāo)準(zhǔn),而是
    發(fā)表于 10-20 17:36

    種基于統(tǒng)計(jì)學(xué)和模糊控制理論的權(quán)控智能節(jié)水系統(tǒng)設(shè)計(jì)

    、集成化、智能化方向發(fā)展。基于此,設(shè)計(jì)了種基于統(tǒng)計(jì)學(xué)和模糊控制理論的權(quán)控智能節(jié)水系統(tǒng)。它利用改進(jìn)的紅外檢測單元準(zhǔn)確地采集數(shù)據(jù);以AT89C2051單片機(jī)為硬件平臺構(gòu)建信號處理、控制的主控制器,對檢測數(shù)據(jù)
    發(fā)表于 07-15 06:30

    統(tǒng)計(jì)學(xué)和編程題目

    統(tǒng)計(jì)學(xué)和編程練習(xí)
    發(fā)表于 09-10 14:21

    統(tǒng)計(jì)學(xué)的概率分布

    統(tǒng)計(jì)學(xué)術(shù)語總結(jié)
    發(fā)表于 09-27 16:24

    量子力學(xué)基礎(chǔ)理論之一 維量子系統(tǒng)的應(yīng)用

    量子力學(xué)基礎(chǔ)理論之一 維量子系統(tǒng)的應(yīng)用 量子力學(xué)開啟了當(dāng)今世界現(xiàn)代的量子計(jì)算與與通訊的大門(俗稱,我國5G---->>>6G),這里見識下其
    發(fā)表于 07-09 09:06

    混頻器的基礎(chǔ)理論和應(yīng)用

    混頻器的基礎(chǔ)理論和應(yīng)用
    發(fā)表于 09-18 16:53 ?32次下載
    混頻器的<b class='flag-5'>基礎(chǔ)理論</b>和應(yīng)用

    如何使用統(tǒng)計(jì)學(xué)知識進(jìn)行和統(tǒng)計(jì)分析誤差分析?

    3.1 誤差分析背后的統(tǒng)計(jì)學(xué)知識
    的頭像 發(fā)表于 08-22 01:32 ?4890次閱讀

    人工智能其實(shí)就是華麗的統(tǒng)計(jì)學(xué)?

    人工智能其實(shí)就是統(tǒng)計(jì)學(xué),只不過用了個很華麗的辭藻,其實(shí)就是統(tǒng)計(jì)學(xué)。好多的公式都非常老,但是所有的人工智能利用的都是統(tǒng)計(jì)學(xué)來解決問題。
    的頭像 發(fā)表于 08-13 15:33 ?2935次閱讀

    機(jī)器學(xué)習(xí)教程之機(jī)器學(xué)習(xí)的核心算法和理論電子教材免費(fèi)下載

    從書本新聞。介紹性文本,介紹機(jī)器學(xué)習(xí)的主要方法和通過經(jīng)驗(yàn)自動改進(jìn)的計(jì)算機(jī)算法的研究。根據(jù)需要,引入統(tǒng)計(jì)學(xué)、人工智能、信息論和其他學(xué)科的基本概念,并均衡地覆蓋理論和實(shí)踐,并且提出它們的使用的主要算法
    發(fā)表于 10-23 14:18 ?10次下載

    人工智能只有統(tǒng)計(jì)學(xué)

    人工智能并未朝著我們期望的方向發(fā)展,而是更多地走向了統(tǒng)計(jì)學(xué)的范疇。
    發(fā)表于 10-14 17:39 ?1160次閱讀

    概率論與數(shù)理統(tǒng)計(jì)PDF電子書免費(fèi)下載

    主要內(nèi)容包括:概率論的基本概念、隨機(jī)變量及其概率分布、數(shù)字特征、大數(shù)定律與中心極限定理統(tǒng)計(jì)量及其概率分布、參數(shù)估計(jì)和假設(shè)檢驗(yàn)、回歸分析、方差分析、馬爾科夫鏈等內(nèi)容。
    發(fā)表于 11-25 08:00 ?0次下載
    概率論與數(shù)理<b class='flag-5'>統(tǒng)計(jì)</b>PDF電子書免費(fèi)下載

    統(tǒng)計(jì)學(xué)對于機(jī)器學(xué)習(xí)有什么作用

    統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)是兩個密切相關(guān)的領(lǐng)域。實(shí)際上,兩者之間的界限有時可能非常模糊。
    發(fā)表于 04-05 21:51 ?1563次閱讀

    數(shù)據(jù)分析師應(yīng)當(dāng)了解的五個統(tǒng)計(jì)基本概念

    本文講述了數(shù)據(jù)分析師應(yīng)當(dāng)了解的五個統(tǒng)計(jì)基本概念統(tǒng)計(jì)特征、概率分布、降維、過采樣/欠采樣、貝葉斯統(tǒng)計(jì)方法。 從高的角度來看,統(tǒng)計(jì)學(xué)
    的頭像 發(fā)表于 11-02 15:57 ?1754次閱讀
    數(shù)據(jù)分析師應(yīng)當(dāng)了解的五個<b class='flag-5'>統(tǒng)計(jì)</b>基本<b class='flag-5'>概念</b>

    深度學(xué)習(xí)與經(jīng)典統(tǒng)計(jì)學(xué)的差異

    深度學(xué)習(xí)和簡單的統(tǒng)計(jì)學(xué)回事嗎?很多人可能都有這個疑問,畢竟二者連術(shù)語都有很多相似的地方。在這篇文章中,理論計(jì)算機(jī)科學(xué)家、哈佛大學(xué)知名教授 Boaz Barak 詳細(xì)比較了深度學(xué)習(xí)與經(jīng)典統(tǒng)計(jì)
    的頭像 發(fā)表于 09-20 15:18 ?1062次閱讀

    統(tǒng)計(jì)學(xué)習(xí)方法代碼集

    統(tǒng)計(jì)學(xué)習(xí)所含部分代碼合集
    發(fā)表于 09-07 09:24 ?0次下載