国产91会所女技师在线观看,JIZZZZ在线无码观看,精品无码国产污污污

互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù)將人類引入大數(shù)據(jù)時(shí)代，三大網(wǎng)絡(luò)每分每秒都在生成、采集人類的行為數(shù)據(jù)。這對于社會科學(xué)的研究（尤其是實(shí)證研究），無疑是一件令人驚喜的事情。它所獲取的海量數(shù)據(jù)，用傳統(tǒng)的方法（如問卷調(diào)查）是無法做到的。例如，社交平臺臉書（facebook）每日產(chǎn)生100億條信息、450億次點(diǎn)贊，有3.5億張新圖片被上傳［1］，其數(shù)據(jù)倉庫存儲了超過300PB的數(shù)據(jù)，并且以每日新增600TB的速度增長［2］；早在2013年，搜索引擎服務(wù)提供商——百度就稱其每天處理100PB以上的數(shù)據(jù)，每天響應(yīng)的請求數(shù)量在百億級，產(chǎn)生的搜索日志數(shù)量達(dá)到1TB。［3］

豐富的網(wǎng)絡(luò)數(shù)據(jù)資源加上新的數(shù)據(jù)處理技術(shù)，使基于大數(shù)據(jù)的知識發(fā)現(xiàn)迅速成為社會科學(xué)中計(jì)算的核心內(nèi)容。社會科學(xué)家們紛紛運(yùn)用網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行創(chuàng)新性研究。例如，運(yùn)用臉書、推特、微博等數(shù)據(jù)來探尋人類行為的規(guī)律、社會心態(tài)的變化，等等。一時(shí)間，此類研究所使用數(shù)據(jù)的體量是否巨大、所運(yùn)用的數(shù)據(jù)處理技術(shù)是否新穎等問題成為大家關(guān)注的焦點(diǎn)。丹·博伊德與凱特·克勞福德指出：“（大家）圍繞針對推特研究的討論，集中于可供使用的推特?cái)?shù)據(jù)的體量這一問題上。”［4］所以，雖然大數(shù)據(jù)的優(yōu)勢很明顯，但其是否能夠完美地滿足社會科學(xué)研究所需數(shù)據(jù)的要求，卻少有人對之深入思考。

一、大數(shù)據(jù)：社會科學(xué)研究的全數(shù)據(jù)模式時(shí)代到來了嗎？

2012年，維克托·邁爾-舍恩伯格、肯尼斯·庫克耶合著的《大數(shù)據(jù)時(shí)代：生活、工作與思維的大變革》提出，大數(shù)據(jù)時(shí)代的一個(gè)思維變革，是要分析與某事物相關(guān)的所有數(shù)據(jù)，而不是依靠分析少量的數(shù)據(jù)樣本。過去，由于收集和分析數(shù)據(jù)受客觀條件的限制，所以采用了隨機(jī)采樣的方法，但這只是一條捷徑，是在難以收集和分析全部數(shù)據(jù)情況下的選擇，它本身存在許多缺陷。而在大數(shù)據(jù)時(shí)代，在很多領(lǐng)域，從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的情況已經(jīng)發(fā)生。如果可能的話，我們會收集所有的數(shù)據(jù)，即“樣本=總體”。［5］（P37）對于舍恩伯格和庫克耶所講的話，有兩點(diǎn)需要注意：一是“在很多領(lǐng)域”而非“在所有領(lǐng)域”；二是目前還只是一種可能性，而非完全做到。因此，其合理的結(jié)論只能是：在很多領(lǐng)域，如果可能的話，我們要分析與某事物相關(guān)的所有數(shù)據(jù)，而不是依靠少量的數(shù)據(jù)樣本。但是，舍恩伯格和庫克耶接下來作了一個(gè)樂觀的估計(jì)：“在大數(shù)據(jù)時(shí)代進(jìn)行抽樣分析就像是在汽車時(shí)代騎馬一樣。在某些特定的情況下，我們依然可以使用樣本分析法，但這不再是我們分析數(shù)據(jù)的主要方式。慢慢地，我們會完全拋棄樣本分析?！保?］（P43）或許正是基于這種樂觀的估計(jì)，他們將大數(shù)據(jù)定義為：“不用隨機(jī)分析法（抽樣調(diào)查）這樣的捷徑，而采用所有數(shù)據(jù)進(jìn)行分析處理?！保?］（P39）顯而易見，舍恩伯格和庫克耶的邏輯是不嚴(yán)密的，既然還只是“在很多領(lǐng)域”與“如果可能”的情況下，能夠做到“樣本=總體”，那么，在一些還不可能收集相關(guān)的所有數(shù)據(jù)的領(lǐng)域，是否就意味著不論其獲得的數(shù)據(jù)的體量有多大，數(shù)據(jù)的模式結(jié)構(gòu)有多復(fù)雜，數(shù)據(jù)的動(dòng)態(tài)增加有多快，都不能算是大數(shù)據(jù)？事實(shí)上，被舍恩伯格和庫克耶確定為大數(shù)據(jù)的谷歌搜索數(shù)據(jù)，也不是收集到嚴(yán)格意義上的所有數(shù)據(jù)，因?yàn)楣雀桦m然在搜索市場占有率第一，但依然有用戶在使用微軟“必應(yīng)”①等搜索引擎。那么，谷歌搜索數(shù)據(jù)也不能算作大數(shù)據(jù)嗎？所以，舍恩伯格和庫克耶的定義無疑會引起大數(shù)據(jù)概念的混亂，但百度百科、360百科、互動(dòng)百科皆收錄了他的定義，正持續(xù)產(chǎn)生廣泛的影響。

舍恩伯格和庫克耶認(rèn)為：“社會科學(xué)是被‘樣本=總體’撼動(dòng)得最厲害的學(xué)科。隨著大數(shù)據(jù)分析取代了樣本分析，社會科學(xué)不再單純依賴于分析經(jīng)驗(yàn)數(shù)據(jù)。這門學(xué)科過去曾非常依賴樣本分析、研究和調(diào)查問卷。而現(xiàn)在，我們可以收集過去無法收集到的信息，不管是通過移動(dòng)電話表現(xiàn)出的關(guān)系，還是通過推特信息表現(xiàn)出的感情。更重要的是，現(xiàn)在我們也不再依賴抽樣調(diào)查了?！保?］（P42）這樣的表述，讓人不得不理解其言下之意是，在社會科學(xué)領(lǐng)域，我們已經(jīng)完全能夠（至少是即將完全能夠）收集、分析與某事物相關(guān)的所有數(shù)據(jù)，而不是依靠少量的數(shù)據(jù)樣本。所以，盡管《大數(shù)據(jù)時(shí)代：生活、工作與思維的大變革》只是一本普通的暢銷書，并非嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)著作，但依然成為很多社會科學(xué)研究者的心靈雞湯。筆者發(fā)現(xiàn)，近幾年社會科學(xué)界對大數(shù)據(jù)的概念存在以下幾種誤解。

1.隨著大數(shù)據(jù)時(shí)代的到來，“一切皆可數(shù)據(jù)化”，社會科學(xué)可以獲得研究所需的“總體數(shù)據(jù)”，全數(shù)據(jù)模式正在開啟。

2.由于大數(shù)據(jù)是“樣本=總體”或至少是“樣本接近于總體”的數(shù)據(jù)，因此，它不存在采樣偏差和數(shù)據(jù)代表性問題。傳統(tǒng)的問卷調(diào)查法將被大數(shù)據(jù)的獲取方法徹底取代。

3.信息技術(shù)的進(jìn)步使計(jì)算能力得到巨大提升，因此對“所有數(shù)據(jù)”的分析將成為主導(dǎo)性甚至唯一的方法。

然而，事實(shí)果真如此嗎？社會科學(xué)研究的全數(shù)據(jù)模式時(shí)代真的已經(jīng)全面到來了嗎？抽樣調(diào)查真的會像汽車時(shí)代的馬匹一樣退出歷史舞臺嗎？

二、挫折與反思：大數(shù)據(jù)研究的失敗案例說明了什么？

大數(shù)據(jù)驅(qū)動(dòng)下的社會科學(xué)研究取得了一系列令人眼界大開的成果，但同樣也有足以促人反思的問題。一個(gè)典型案例是對英國脫歐的預(yù)測。

2016年英國脫歐公投是一件關(guān)系重大的選擇，因此，有許多機(jī)構(gòu)或運(yùn)用傳統(tǒng)方法或基于大數(shù)據(jù)的獲取與分析，對公眾態(tài)度進(jìn)行研究，以預(yù)測投票結(jié)果。

采用傳統(tǒng)民意調(diào)查方法的研究，基本都預(yù)測投票結(jié)果將是留歐。例如，2016年初，英國市場和民意調(diào)查機(jī)構(gòu)依普索·莫瑞（Ipsos Mori）對抽取的514名英國成年人進(jìn)行的電話調(diào)查顯示，有50%的受訪者支持留歐，有38%受訪者支持脫歐，有12%的人搖擺不定［6］；英國政治學(xué)會針對包括學(xué)者、新聞?dòng)浾摺⒚褚鉁y驗(yàn)專家等在內(nèi)的專家群體進(jìn)行了在線問卷調(diào)查，共計(jì)發(fā)放電子問卷2，031份，回收596份。有87%的受訪學(xué)者支持留歐，而支持留歐的新聞?dòng)浾叩谋壤沁_(dá)到97%，專家群體對投票結(jié)果的預(yù)測是55%的選民將投票留歐。［7］也就是說，不論是針對普通人，還是針對專家群體的抽樣調(diào)查，其結(jié)果都指向留歐。但是，實(shí)際投票結(jié)果卻是留歐與脫歐的得票率分別為48.1%與51.9%，宣告?zhèn)鹘y(tǒng)民意調(diào)查方法預(yù)測失敗，那么失敗的原因何在呢？

從投票結(jié)束之后公布的支持留歐者與支持脫歐者的年齡與階層構(gòu)成來看，前者主要是年輕人、精英或者白領(lǐng)階層；后者主要是中老年人以及普通勞工等藍(lán)領(lǐng)階層。圍繞經(jīng)濟(jì)民生這一核心議題，前者認(rèn)為，隨著歐盟擴(kuò)張而大量涌入的“窮親戚”——東歐移民——能夠帶來人口紅利，降低生產(chǎn)成本，從而帶動(dòng)GDP上升；而后者則認(rèn)為移民會擠占就業(yè)機(jī)會，瓜分社會福利。在經(jīng)濟(jì)停滯不前的大背景下，就業(yè)與社會福利的蛋糕本就不大，移民的到來威脅到他們的切身利益。使用傳統(tǒng)方法之所以預(yù)測失準(zhǔn)，主要原因是未能充分接觸藍(lán)領(lǐng)階層而導(dǎo)致了采樣偏差，使調(diào)查樣本不能很好地代表投票群體。而要避免這種采樣偏差是相當(dāng)困難的，因?yàn)檫@意味著要在調(diào)查問卷發(fā)放前就要準(zhǔn)確判斷出不同人群的投票率。既然傳統(tǒng)方法在這項(xiàng)研究中難以避免采樣偏差，那么，大數(shù)據(jù)的獲取與分析能否有效彌補(bǔ)傳統(tǒng)方法的缺陷呢？

有學(xué)者利用大數(shù)據(jù)分析預(yù)測框架對英國脫歐公投的結(jié)果進(jìn)行了預(yù)判。研究采用TRUST法（topic retrieved，uncovered and structurally tested）。具體做法是：對新聞報(bào)道進(jìn)行文本挖掘與分析，析出與英國脫歐相關(guān)的主題詞，譬如經(jīng)濟(jì)、安全、移民等，再運(yùn)用谷歌對基于這些主題詞的網(wǎng)絡(luò)檢索行為進(jìn)行跟蹤，同時(shí)結(jié)合主流民意調(diào)查機(jī)構(gòu)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析，最終得出留歐和脫歐陣營的得票區(qū)間分別為50.1%～53.6%與46.4%～49.7%，平均得票率分別為52%與48%。［8］該預(yù)測與運(yùn)用傳統(tǒng)方法進(jìn)行的預(yù)測出現(xiàn)了相似的偏差，緣由為何呢？

首先，海量的在線新聞和谷歌搜索數(shù)據(jù)雖然是大數(shù)據(jù)，但對于該項(xiàng)分析研究而言，它不是關(guān)于研究對象的“總體數(shù)據(jù)”。該研究的對象是可能參加投票的英國公民，但這一群體并不都是網(wǎng)民，非網(wǎng)民群體在研究中必然被排除在外。

其次，互聯(lián)網(wǎng)作為一種新興媒體，其政治效能越來越被社會精英群體所認(rèn)識和重視，他們中很多人必然利用互聯(lián)網(wǎng)制造符合自己主張（留歐）的輿論態(tài)勢；同時(shí)，作為互聯(lián)網(wǎng)原住民的年輕人（尤其是大學(xué)生）更習(xí)慣于利用網(wǎng)絡(luò)獲取信息，更喜歡參與網(wǎng)絡(luò)造勢，這使得網(wǎng)絡(luò)新聞中留歐的聲音往往是主流，搜索指數(shù)也會偏向留歐。而不少中老年人、藍(lán)領(lǐng)階層往往線上沉默，線下活躍，他們較少受網(wǎng)絡(luò)新聞、意見領(lǐng)袖的影響，也較少在互聯(lián)網(wǎng)上留下行為蹤跡，但這一群體中很多人投票意向篤定。這便導(dǎo)致了留歐在網(wǎng)絡(luò)中的聲勢雖大但卻在投票中失利的結(jié)果。

可見，此研究采集的在線新聞與搜索數(shù)據(jù)只能很好地代表活躍網(wǎng)民，而不能代表有投票意愿的英國公民。在脫歐預(yù)測失敗之后，基于大數(shù)據(jù)分析的美國大選投票結(jié)果預(yù)測也以失敗告終。已有研究指出，預(yù)測失敗的重要原因之一是其落入了“代表性陷阱”。雖然網(wǎng)絡(luò)搜索數(shù)據(jù)、社交媒體數(shù)據(jù)等都是典型的大數(shù)據(jù)，若基于此而預(yù)測大選結(jié)果，卻絕對不是所謂的“樣本=總體”，因?yàn)榫W(wǎng)民≠選民；即便在網(wǎng)民中，不同的偏好、特性、體驗(yàn)、使用習(xí)慣等因素同樣會削弱數(shù)據(jù)的代表性。［9］

從上述案例可以看出，雖然大數(shù)據(jù)時(shí)代可以使我們獲得比以往更多的信息資料，但并不能保證社會科學(xué)就可以開展全數(shù)據(jù)模式的研究。

三、鴻溝難填：信息時(shí)代的數(shù)字不平等

“總體數(shù)據(jù)”“全數(shù)據(jù)模式”是相對于具體的研究對象和研究問題而言的，舍恩伯格和庫克耶的相關(guān)論述混淆了這些概念。他們舉一案例解釋：“艾伯特·拉斯洛·巴拉巴西和他的同事想研究人與人之間的互動(dòng)。于是他們調(diào)查了四個(gè)月內(nèi)所有的移動(dòng)通信記錄——當(dāng)然是匿名的，這些記錄是由一個(gè)為全美1/5的人口提供服務(wù)的無線運(yùn)營商提供的。這是第一次在全社會層面用接近于‘樣本=總體’的數(shù)據(jù)資料進(jìn)行的網(wǎng)絡(luò)分析?！保?］（P42）在此案例中，研究對象是人，研究問題是人與人之間的互動(dòng)，而移動(dòng)通信僅僅是眾多互動(dòng)方式的一部分，因此，作者所說的移動(dòng)通信記錄絕不能視為人與人之間互動(dòng)的總體數(shù)據(jù)；美國并不止這一家無線運(yùn)營商，全美也并非只有1/5人口使用移動(dòng)通信，因此，一家無線運(yùn)營商提供的記錄絕不能視為美國人移動(dòng)通信的總體數(shù)據(jù)；更何況，只調(diào)查了四個(gè)月內(nèi)的所有移動(dòng)通信記錄，其實(shí)連全美1/5人口移動(dòng)通信互動(dòng)的總體數(shù)據(jù)都算不上，怎么能把它當(dāng)作總體樣本呢？此案例中只表明已經(jīng)收集到的數(shù)據(jù)的全部，但相對于研究對象和研究問題而言，這些數(shù)據(jù)仍然是一個(gè)樣本——達(dá)到了大數(shù)據(jù)體量的樣本。

“可以收集過去無法收集到的信息”不等于“可以收集到社會科學(xué)研究需要的所有信息”，輕率地認(rèn)定社會科學(xué)研究“現(xiàn)在不再依賴抽樣調(diào)查了”的結(jié)論，是不嚴(yán)謹(jǐn)?shù)摹Ｊ聦?shí)上，在很多情況下，可資社會科學(xué)研究的大數(shù)據(jù)并非“總體數(shù)據(jù)”，因而同樣存在數(shù)據(jù)代表性問題。而在互聯(lián)網(wǎng)普及過程中出現(xiàn)的網(wǎng)絡(luò)分化，則讓這種狀況在可預(yù)見的未來不可能從根本上得到改變。網(wǎng)絡(luò)分化是指不同的社會群體能夠享受到的互聯(lián)網(wǎng)資源是不同的，在互聯(lián)網(wǎng)的使用中獲益程度之異同，是一種新形式的社會不平等。［10］

全球網(wǎng)絡(luò)指數(shù)（global web index，GWI）的報(bào)告顯示，截至2017年1月，作為世界第一大經(jīng)濟(jì)體、互聯(lián)網(wǎng)發(fā)源地的美國，其互聯(lián)網(wǎng)用戶占整體人口的比例為86%。［11］但從全球范圍來看，其他國家和地區(qū)則遠(yuǎn)遠(yuǎn)達(dá)不到如此高的覆蓋率。全球人口約74.76億，而互聯(lián)網(wǎng)用戶為37.73億。［11］全球互聯(lián)網(wǎng)普及率剛剛過半。

從我國的情況看，由于經(jīng)濟(jì)發(fā)展不平衡，在互聯(lián)網(wǎng)的普及方面，存在顯著的地區(qū)差異、城鄉(xiāng)差異?！兜?1次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示，截至2017年12月，中國網(wǎng)民的規(guī)模達(dá)7.72億，互聯(lián)網(wǎng)普及率為55.8%，但非網(wǎng)民規(guī)模仍然高達(dá)6.11億。［12］在中國網(wǎng)民中，農(nóng)村網(wǎng)民占比27.0%，規(guī)模為2.09億。雖然近幾年農(nóng)村的互聯(lián)網(wǎng)的發(fā)展速度較快，其普及率上升至35.4%，但仍低于城鎮(zhèn)35.6個(gè)百分點(diǎn)。［12］

經(jīng)濟(jì)發(fā)展的不平衡不僅導(dǎo)致城鄉(xiāng)之間的差異，還造成了明顯的地域差異?；ヂ?lián)網(wǎng)普及率從東部沿海發(fā)達(dá)地區(qū)向中西部欠發(fā)達(dá)地域呈梯次遞減趨勢。這些差異造成了“數(shù)字鴻溝”的存在，而填平“鴻溝”并非朝夕之事。由于“數(shù)字鴻溝”的存在，使針對不同研究對象、不同研究問題的社會科學(xué)研究在使用網(wǎng)絡(luò)大數(shù)據(jù)時(shí)，會面臨不同程度的數(shù)據(jù)代表性問題。例如，如果想要研究“知識北漂”關(guān)注什么，從社交媒體上獲取具有較好代表性的數(shù)據(jù)是完全可能的；而如果是研究貧困山區(qū)的留守老人和留守兒童的心理狀態(tài)，那還是采用傳統(tǒng)的“田野調(diào)查”方法為宜。

除了網(wǎng)民與非網(wǎng)民之別，網(wǎng)民結(jié)構(gòu)與人口結(jié)構(gòu)的差異也存在數(shù)據(jù)代表性問題。從我國的情況看，僅網(wǎng)民的性別結(jié)構(gòu)與實(shí)際人口性別比例基本相符，而年齡結(jié)構(gòu)、職業(yè)結(jié)構(gòu)等都存在不小的差距。在網(wǎng)民群體中，年齡在20～39歲的占53.5%；從職業(yè)來看，學(xué)生占到了25.4%。［12］這顯然與人口統(tǒng)計(jì)的特征不符，必然會導(dǎo)致網(wǎng)絡(luò)大數(shù)據(jù)的結(jié)構(gòu)性偏差，在社會科學(xué)研究中應(yīng)予以充分注意。例如，在互聯(lián)網(wǎng)輿情研究中，必須認(rèn)識到這一事實(shí)，即從社交媒體所獲取的數(shù)據(jù)不能很好地代表50歲以上的人群。

四、用戶偏好：數(shù)據(jù)生成的不均衡

即便隨著社會的進(jìn)步，互聯(lián)網(wǎng)最終實(shí)現(xiàn)了全球范圍內(nèi)的高度普及，網(wǎng)絡(luò)大數(shù)據(jù)的代表性依然是社會科學(xué)研究中必須認(rèn)真考察的問題，因?yàn)榛ヂ?lián)網(wǎng)用戶的異質(zhì)性，必然導(dǎo)致他們在使用頻率、需求程度、技能水平、信息素養(yǎng)等方面存在不同程度的差異；同時(shí)，由于社會分工、知識結(jié)構(gòu)、興趣愛好等方面的不同，決定了互聯(lián)網(wǎng)用戶不同的使用偏好。

有學(xué)者對2000年美國綜合社會調(diào)查（GSS）的數(shù)據(jù)進(jìn)行分析后，發(fā)現(xiàn)在美國互聯(lián)網(wǎng)用戶中，受教育程度高、收入高、認(rèn)知測試成績優(yōu)異者更傾向于利用互聯(lián)網(wǎng)“累積資本”，而非單單為了娛樂。［13］對瑞士1997-2000年互聯(lián)網(wǎng)數(shù)據(jù)的研究也顯示，受教育程度高、收入高的用戶往往通過互聯(lián)網(wǎng)獲取有價(jià)值的信息，而社會經(jīng)濟(jì)地位較低者則更多地把互聯(lián)網(wǎng)用于娛樂。［14］在中國的互聯(lián)網(wǎng)應(yīng)用層面，城鄉(xiāng)網(wǎng)民在商務(wù)交易、支付、新聞資訊等使用率方面差異顯著。［12］

互聯(lián)網(wǎng)上有多種多樣的信息工具和平臺，但任何工具、平臺都不可能囊括全部用戶，它們都有自己的目標(biāo)群體，這就意味著任何一種工具、平臺都是一個(gè)特定的數(shù)據(jù)子集。以在線社交平臺為例，據(jù)在線市場營銷咨詢機(jī)構(gòu)智慧洞見（smartinsights.com）發(fā)布的《2017年全球社交媒體研究概要》顯示，截至2017年1月，臉書（facebook）已擁有18.71億活躍用戶，穩(wěn)居全球社交媒體排行榜第一，有79%的美國成年網(wǎng)民使用它；臉書旗下的瓦次普（whats app）、臉書即時(shí)通（facebook messenger）分列第二、第三。［11］18.71億活躍用戶已經(jīng)是一個(gè)相當(dāng)驚人的數(shù)字，但也只占到全球網(wǎng)民的一半左右，某些國家的用戶，例如中國用戶，還特別少。

至于風(fēng)靡我國的微信，社交用戶管理平臺奇智睿思（curiosity）根據(jù)騰訊所發(fā)布的數(shù)據(jù)制作的《2015微信用戶數(shù)據(jù)報(bào)告》顯示，截至2015年第一季度末，微信月活躍用戶達(dá)5.49億，范圍覆蓋200多個(gè)國家，使用語言超過20種［15］；《2017微信用戶&生態(tài)研究報(bào)告》顯示，截至2016年12月，微信國內(nèi)版與國際版（wechat）共有月活躍用戶數(shù)8.89億。［16］其中，中國用戶占有相當(dāng)大的比例。

雖然臉書與微信的普及程度都很高，但二者能夠代表的用戶人群顯然不同。正如伊斯特·豪爾吉陶伊所言，“當(dāng)大數(shù)據(jù)分析指向某特定社交網(wǎng)站或者服務(wù)項(xiàng)目時(shí)，該研究所能夠展現(xiàn)的僅僅是決定加入并已開始使用相應(yīng)網(wǎng)站或者服務(wù)項(xiàng)目的群體的行為與觀點(diǎn)”，而“如果數(shù)據(jù)集中包含成千上萬的用戶的信息，就認(rèn)定研究之結(jié)論可推而廣之，這可能是錯(cuò)誤的，這取決于方法體系而非數(shù)據(jù)體量”。［17］

有些用戶群體（如成長于傳統(tǒng)媒體時(shí)代的中老年人），在網(wǎng)絡(luò)世界里的活躍度有限，他們往往是凱特·克勞福德所定義的“傾聽者”［18］，主要瀏覽頁面，不更新狀態(tài)、不點(diǎn)贊、少與他人互動(dòng)，存在感較弱。2011年，推特披露，約有40%的用戶登錄推特，目的只為傾聽。［19］

即便是活躍的用戶，其關(guān)注點(diǎn)亦相當(dāng)分散，這包含兩層含義。其一，信息與某群體相關(guān)度越高，該群體的關(guān)注度就越高，在網(wǎng)絡(luò)中的反應(yīng)更為強(qiáng)烈。例如2016年的問題疫苗事件，關(guān)注者最多的是年輕的母親。其二，興趣偏好不同的群體，關(guān)注的網(wǎng)站、平臺有所不同。德里克·魯茨與尤爾根·普費(fèi)弗的研究表明，照片墻（instagram）主要受18～29歲的成人、非洲裔美國人、拉美后裔、婦女、城鎮(zhèn)居民的青睞；而品趣（pinterest）則更受25～34歲、年收入平均10萬美元的女性的歡迎。［20］全球網(wǎng)絡(luò)索引（global web index）2014年的數(shù)據(jù)顯示，閱后即焚（snapchat）最受年輕人的偏愛，其用戶群體中16～24歲者占57%，微信與湯博樂（tumblr）的這一數(shù)據(jù)分別為42%、39%，而在臉書和推特的用戶群體中，16～24歲、25～34歲、35～44歲者的比例均在25%左右，45～54歲、55～64歲者的占比相對略低。［11］《2015微信用戶數(shù)據(jù)報(bào)告》表明，微信用戶以男性為主，男性與女性用戶的占比分別為64.3%、35.7%，男女比例為1.8∶1。［15］

因此，與傳統(tǒng)的抽樣調(diào)查不同，基于社交媒體大數(shù)據(jù)的研究面對的是自我選擇樣本，即用戶自我決定是否成為樣本，這種樣本在很多情況下存在系統(tǒng)性偏差。［9］除此之外，垃圾賬戶現(xiàn)象亦值得注意。有些人擁有多個(gè)賬戶；有的賬戶是所謂的“機(jī)器賬戶”，這些賬戶由代碼控制，可自動(dòng)發(fā)消息，常被用來發(fā)送廣告、交友等垃圾信息，其數(shù)據(jù)生成量一般很大，這些噪音也會對網(wǎng)絡(luò)大數(shù)據(jù)的代表性有所影響。

五、總結(jié)與展望

大數(shù)據(jù)時(shí)代，互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù)為解決更多、更細(xì)的社會問題提供了可能。然而，認(rèn)定大數(shù)據(jù)就是“總體數(shù)據(jù)”，認(rèn)為目前社會科學(xué)研究可以全面開啟“全數(shù)據(jù)模式”時(shí)代的觀點(diǎn)，尚缺乏嚴(yán)謹(jǐn)?shù)目茖W(xué)依據(jù)。一個(gè)明顯的事實(shí)是，經(jīng)濟(jì)社會發(fā)展的不平衡現(xiàn)象將相當(dāng)數(shù)量的人擋在了信息社會的大門之外，數(shù)字鴻溝的客觀存在使互聯(lián)網(wǎng)缺失了約半數(shù)人群的電子蹤跡；社會的結(jié)構(gòu)性不平等、用戶群體的異質(zhì)性、社會分工等因素導(dǎo)致數(shù)據(jù)生成方面的不均衡，等等，這些事實(shí)都還存在。因此，將網(wǎng)絡(luò)大數(shù)據(jù)用于社會科學(xué)研究，在很多情況下無法實(shí)現(xiàn)“樣本=總體”的目標(biāo)，這是數(shù)據(jù)代表性問題無法回避的事實(shí)。正如丹·博伊德和凱特·克勞福德所說：“拋開特定數(shù)據(jù)集的代表性，只談其體量的大小毫無意義?！保?］

在大數(shù)據(jù)時(shí)代，社會科學(xué)傳統(tǒng)的抽樣調(diào)查方法并未終結(jié)。2017年4月24日，數(shù)據(jù)運(yùn)營領(lǐng)域的翹楚——騰訊公司，其旗下的“企鵝智酷”公布了《2017微信用戶&生態(tài)研究報(bào)告》，亦專門針對用戶數(shù)據(jù)采樣進(jìn)行了說明。《報(bào)告》稱，通過企鵝智酷網(wǎng)絡(luò)調(diào)研平臺采集到用戶調(diào)研樣本共19，511份，通過中國信息通信研究院采集到的用戶樣本為1，100份，采集到公眾號運(yùn)營者樣本為9，018份。［16］甚至最具權(quán)威的中國互聯(lián)網(wǎng)絡(luò)信息中心，其歷次的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》仍然采用計(jì)算機(jī)輔助、電話訪問的方法獲取抽樣數(shù)據(jù)。［12］這些情況說明，依目前的信息采集條件，所獲取的資料信息仍然是有限的，只能代表某些領(lǐng)域或某些方面。

其實(shí)，對于多數(shù)社會科學(xué)研究而言，網(wǎng)絡(luò)大數(shù)據(jù)并非完美的數(shù)據(jù)?！叭珨?shù)據(jù)模式”是相對于具體的研究任務(wù)而言的。例如，吉拉德·羅坦與艾爾哈特·格拉夫領(lǐng)銜的團(tuán)隊(duì)對2011年突尼斯與埃及革命期間激進(jìn)分子、博主、新聞?dòng)浾?、主流媒體及其他參與者在推特上的信息流進(jìn)行了研究。他們使用了兩個(gè)相應(yīng)的能夠覆蓋兩場革命時(shí)間段的推特?cái)?shù)據(jù)集，整理出常在推特上的發(fā)聲者并將其歸類，然后具體分析這些信息是如何產(chǎn)生并在推特用戶網(wǎng)絡(luò)中擴(kuò)散的。這是典型的對在特定時(shí)間段發(fā)生的特定事件中特定群體的網(wǎng)絡(luò)行為的研究，就此類研究而言，樣本具有很好的代表性。而就除此之外的多數(shù)情況而言，針對具體的研究任務(wù)，所能使用的大數(shù)據(jù)往往存在系統(tǒng)性偏差，如果不能矯正這些偏差（至少這在當(dāng)前是極為困難的），那么，基于大數(shù)據(jù)的分析與預(yù)測就談不上多大的可靠性。［9］因此，研究者對此應(yīng)有清醒的認(rèn)識，尤其在運(yùn)用某特定平臺的數(shù)據(jù)進(jìn)行推理時(shí)，應(yīng)了解研究的適用范圍，避開“代表性陷阱”的干擾。正如伊斯特·豪爾吉陶伊說：“大并不總意味著更好；當(dāng)涉及數(shù)據(jù)集的時(shí)候，體量并非那么重要，大數(shù)據(jù)并不對偏誤免疫；在研究過程中，無論數(shù)據(jù)的大小，要根據(jù)其取樣框架來審慎推導(dǎo)結(jié)論。”

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴