0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù):社會科學(xué)研究的全數(shù)據(jù)模式時(shí)代到來了嗎?

倩倩 ? 來源:天津師范大學(xué)學(xué)報(bào) ? 作者:陳崢 ? 2020-04-21 17:27 ? 次閱讀

互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù)將人類引入大數(shù)據(jù)時(shí)代,三大網(wǎng)絡(luò)每分每秒都在生成、采集人類的行為數(shù)據(jù)。這對于社會科學(xué)的研究(尤其是實(shí)證研究),無疑是一件令人驚喜的事情。它所獲取的海量數(shù)據(jù),用傳統(tǒng)的方法(如問卷調(diào)查)是無法做到的。例如,社交平臺臉書(facebook)每日產(chǎn)生100億條信息、450億次點(diǎn)贊,有3.5億張新圖片被上傳[1],其數(shù)據(jù)倉庫存儲了超過300PB的數(shù)據(jù),并且以每日新增600TB的速度增長[2];早在2013年,搜索引擎服務(wù)提供商——百度就稱其每天處理100PB以上的數(shù)據(jù),每天響應(yīng)的請求數(shù)量在百億級,產(chǎn)生的搜索日志數(shù)量達(dá)到1TB。[3]

豐富的網(wǎng)絡(luò)數(shù)據(jù)資源加上新的數(shù)據(jù)處理技術(shù),使基于大數(shù)據(jù)的知識發(fā)現(xiàn)迅速成為社會科學(xué)中計(jì)算的核心內(nèi)容。社會科學(xué)家們紛紛運(yùn)用網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行創(chuàng)新性研究。例如,運(yùn)用臉書、推特、微博等數(shù)據(jù)來探尋人類行為的規(guī)律、社會心態(tài)的變化,等等。一時(shí)間,此類研究所使用數(shù)據(jù)的體量是否巨大、所運(yùn)用的數(shù)據(jù)處理技術(shù)是否新穎等問題成為大家關(guān)注的焦點(diǎn)。丹·博伊德與凱特·克勞福德指出:“(大家)圍繞針對推特研究的討論,集中于可供使用的推特?cái)?shù)據(jù)的體量這一問題上。”[4]所以,雖然大數(shù)據(jù)的優(yōu)勢很明顯,但其是否能夠完美地滿足社會科學(xué)研究所需數(shù)據(jù)的要求,卻少有人對之深入思考。

一、大數(shù)據(jù):社會科學(xué)研究的全數(shù)據(jù)模式時(shí)代到來了嗎?

2012年,維克托·邁爾-舍恩伯格、肯尼斯·庫克耶合著的《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》提出,大數(shù)據(jù)時(shí)代的一個(gè)思維變革,是要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。過去,由于收集和分析數(shù)據(jù)受客觀條件的限制,所以采用了隨機(jī)采樣的方法,但這只是一條捷徑,是在難以收集和分析全部數(shù)據(jù)情況下的選擇,它本身存在許多缺陷。而在大數(shù)據(jù)時(shí)代,在很多領(lǐng)域,從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的情況已經(jīng)發(fā)生。如果可能的話,我們會收集所有的數(shù)據(jù),即“樣本=總體”。[5](P37)對于舍恩伯格和庫克耶所講的話,有兩點(diǎn)需要注意:一是“在很多領(lǐng)域”而非“在所有領(lǐng)域”;二是目前還只是一種可能性,而非完全做到。因此,其合理的結(jié)論只能是:在很多領(lǐng)域,如果可能的話,我們要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠少量的數(shù)據(jù)樣本。但是,舍恩伯格和庫克耶接下來作了一個(gè)樂觀的估計(jì):“在大數(shù)據(jù)時(shí)代進(jìn)行抽樣分析就像是在汽車時(shí)代騎馬一樣。在某些特定的情況下,我們依然可以使用樣本分析法,但這不再是我們分析數(shù)據(jù)的主要方式。慢慢地,我們會完全拋棄樣本分析?!保?](P43)或許正是基于這種樂觀的估計(jì),他們將大數(shù)據(jù)定義為:“不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理?!保?](P39)顯而易見,舍恩伯格和庫克耶的邏輯是不嚴(yán)密的,既然還只是“在很多領(lǐng)域”與“如果可能”的情況下,能夠做到“樣本=總體”,那么,在一些還不可能收集相關(guān)的所有數(shù)據(jù)的領(lǐng)域,是否就意味著不論其獲得的數(shù)據(jù)的體量有多大,數(shù)據(jù)的模式結(jié)構(gòu)有多復(fù)雜,數(shù)據(jù)的動(dòng)態(tài)增加有多快,都不能算是大數(shù)據(jù)?事實(shí)上,被舍恩伯格和庫克耶確定為大數(shù)據(jù)的谷歌搜索數(shù)據(jù),也不是收集到嚴(yán)格意義上的所有數(shù)據(jù),因?yàn)楣雀桦m然在搜索市場占有率第一,但依然有用戶在使用微軟“必應(yīng)”①等搜索引擎。那么,谷歌搜索數(shù)據(jù)也不能算作大數(shù)據(jù)嗎?所以,舍恩伯格和庫克耶的定義無疑會引起大數(shù)據(jù)概念的混亂,但百度百科、360百科、互動(dòng)百科皆收錄了他的定義,正持續(xù)產(chǎn)生廣泛的影響。

舍恩伯格和庫克耶認(rèn)為:“社會科學(xué)是被‘樣本=總體’撼動(dòng)得最厲害的學(xué)科。隨著大數(shù)據(jù)分析取代了樣本分析,社會科學(xué)不再單純依賴于分析經(jīng)驗(yàn)數(shù)據(jù)。這門學(xué)科過去曾非常依賴樣本分析、研究和調(diào)查問卷。而現(xiàn)在,我們可以收集過去無法收集到的信息,不管是通過移動(dòng)電話表現(xiàn)出的關(guān)系,還是通過推特信息表現(xiàn)出的感情。更重要的是,現(xiàn)在我們也不再依賴抽樣調(diào)查了?!保?](P42)這樣的表述,讓人不得不理解其言下之意是,在社會科學(xué)領(lǐng)域,我們已經(jīng)完全能夠(至少是即將完全能夠)收集、分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠少量的數(shù)據(jù)樣本。所以,盡管《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》只是一本普通的暢銷書,并非嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)著作,但依然成為很多社會科學(xué)研究者的心靈雞湯。筆者發(fā)現(xiàn),近幾年社會科學(xué)界對大數(shù)據(jù)的概念存在以下幾種誤解。

1.隨著大數(shù)據(jù)時(shí)代的到來,“一切皆可數(shù)據(jù)化”,社會科學(xué)可以獲得研究所需的“總體數(shù)據(jù)”,全數(shù)據(jù)模式正在開啟。

2.由于大數(shù)據(jù)是“樣本=總體”或至少是“樣本接近于總體”的數(shù)據(jù),因此,它不存在采樣偏差和數(shù)據(jù)代表性問題。傳統(tǒng)的問卷調(diào)查法將被大數(shù)據(jù)的獲取方法徹底取代。

3.信息技術(shù)的進(jìn)步使計(jì)算能力得到巨大提升,因此對“所有數(shù)據(jù)”的分析將成為主導(dǎo)性甚至唯一的方法。

然而,事實(shí)果真如此嗎?社會科學(xué)研究的全數(shù)據(jù)模式時(shí)代真的已經(jīng)全面到來了嗎?抽樣調(diào)查真的會像汽車時(shí)代的馬匹一樣退出歷史舞臺嗎?

二、挫折與反思:大數(shù)據(jù)研究的失敗案例說明了什么?

大數(shù)據(jù)驅(qū)動(dòng)下的社會科學(xué)研究取得了一系列令人眼界大開的成果,但同樣也有足以促人反思的問題。一個(gè)典型案例是對英國脫歐的預(yù)測。

2016年英國脫歐公投是一件關(guān)系重大的選擇,因此,有許多機(jī)構(gòu)或運(yùn)用傳統(tǒng)方法或基于大數(shù)據(jù)的獲取與分析,對公眾態(tài)度進(jìn)行研究,以預(yù)測投票結(jié)果。

采用傳統(tǒng)民意調(diào)查方法的研究,基本都預(yù)測投票結(jié)果將是留歐。例如,2016年初,英國市場和民意調(diào)查機(jī)構(gòu)依普索·莫瑞(Ipsos Mori)對抽取的514名英國成年人進(jìn)行的電話調(diào)查顯示,有50%的受訪者支持留歐,有38%受訪者支持脫歐,有12%的人搖擺不定[6];英國政治學(xué)會針對包括學(xué)者、新聞?dòng)浾摺⒚褚鉁y驗(yàn)專家等在內(nèi)的專家群體進(jìn)行了在線問卷調(diào)查,共計(jì)發(fā)放電子問卷2,031份,回收596份。有87%的受訪學(xué)者支持留歐,而支持留歐的新聞?dòng)浾叩谋壤沁_(dá)到97%,專家群體對投票結(jié)果的預(yù)測是55%的選民將投票留歐。[7]也就是說,不論是針對普通人,還是針對專家群體的抽樣調(diào)查,其結(jié)果都指向留歐。但是,實(shí)際投票結(jié)果卻是留歐與脫歐的得票率分別為48.1%與51.9%,宣告?zhèn)鹘y(tǒng)民意調(diào)查方法預(yù)測失敗,那么失敗的原因何在呢?

從投票結(jié)束之后公布的支持留歐者與支持脫歐者的年齡與階層構(gòu)成來看,前者主要是年輕人、精英或者白領(lǐng)階層;后者主要是中老年人以及普通勞工等藍(lán)領(lǐng)階層。圍繞經(jīng)濟(jì)民生這一核心議題,前者認(rèn)為,隨著歐盟擴(kuò)張而大量涌入的“窮親戚”——東歐移民——能夠帶來人口紅利,降低生產(chǎn)成本,從而帶動(dòng)GDP上升;而后者則認(rèn)為移民會擠占就業(yè)機(jī)會,瓜分社會福利。在經(jīng)濟(jì)停滯不前的大背景下,就業(yè)與社會福利的蛋糕本就不大,移民的到來威脅到他們的切身利益。使用傳統(tǒng)方法之所以預(yù)測失準(zhǔn),主要原因是未能充分接觸藍(lán)領(lǐng)階層而導(dǎo)致了采樣偏差,使調(diào)查樣本不能很好地代表投票群體。而要避免這種采樣偏差是相當(dāng)困難的,因?yàn)檫@意味著要在調(diào)查問卷發(fā)放前就要準(zhǔn)確判斷出不同人群的投票率。既然傳統(tǒng)方法在這項(xiàng)研究中難以避免采樣偏差,那么,大數(shù)據(jù)的獲取與分析能否有效彌補(bǔ)傳統(tǒng)方法的缺陷呢?

有學(xué)者利用大數(shù)據(jù)分析預(yù)測框架對英國脫歐公投的結(jié)果進(jìn)行了預(yù)判。研究采用TRUST法(topic retrieved,uncovered and structurally tested)。具體做法是:對新聞報(bào)道進(jìn)行文本挖掘與分析,析出與英國脫歐相關(guān)的主題詞,譬如經(jīng)濟(jì)、安全、移民等,再運(yùn)用谷歌對基于這些主題詞的網(wǎng)絡(luò)檢索行為進(jìn)行跟蹤,同時(shí)結(jié)合主流民意調(diào)查機(jī)構(gòu)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,最終得出留歐和脫歐陣營的得票區(qū)間分別為50.1%~53.6%與46.4%~49.7%,平均得票率分別為52%與48%。[8]該預(yù)測與運(yùn)用傳統(tǒng)方法進(jìn)行的預(yù)測出現(xiàn)了相似的偏差,緣由為何呢?

首先,海量的在線新聞和谷歌搜索數(shù)據(jù)雖然是大數(shù)據(jù),但對于該項(xiàng)分析研究而言,它不是關(guān)于研究對象的“總體數(shù)據(jù)”。該研究的對象是可能參加投票的英國公民,但這一群體并不都是網(wǎng)民,非網(wǎng)民群體在研究中必然被排除在外。

其次,互聯(lián)網(wǎng)作為一種新興媒體,其政治效能越來越被社會精英群體所認(rèn)識和重視,他們中很多人必然利用互聯(lián)網(wǎng)制造符合自己主張(留歐)的輿論態(tài)勢;同時(shí),作為互聯(lián)網(wǎng)原住民的年輕人(尤其是大學(xué)生)更習(xí)慣于利用網(wǎng)絡(luò)獲取信息,更喜歡參與網(wǎng)絡(luò)造勢,這使得網(wǎng)絡(luò)新聞中留歐的聲音往往是主流,搜索指數(shù)也會偏向留歐。而不少中老年人、藍(lán)領(lǐng)階層往往線上沉默,線下活躍,他們較少受網(wǎng)絡(luò)新聞、意見領(lǐng)袖的影響,也較少在互聯(lián)網(wǎng)上留下行為蹤跡,但這一群體中很多人投票意向篤定。這便導(dǎo)致了留歐在網(wǎng)絡(luò)中的聲勢雖大但卻在投票中失利的結(jié)果。

可見,此研究采集的在線新聞與搜索數(shù)據(jù)只能很好地代表活躍網(wǎng)民,而不能代表有投票意愿的英國公民。在脫歐預(yù)測失敗之后,基于大數(shù)據(jù)分析的美國大選投票結(jié)果預(yù)測也以失敗告終。已有研究指出,預(yù)測失敗的重要原因之一是其落入了“代表性陷阱”。雖然網(wǎng)絡(luò)搜索數(shù)據(jù)、社交媒體數(shù)據(jù)等都是典型的大數(shù)據(jù),若基于此而預(yù)測大選結(jié)果,卻絕對不是所謂的“樣本=總體”,因?yàn)榫W(wǎng)民≠選民;即便在網(wǎng)民中,不同的偏好、特性、體驗(yàn)、使用習(xí)慣等因素同樣會削弱數(shù)據(jù)的代表性。[9]

從上述案例可以看出,雖然大數(shù)據(jù)時(shí)代可以使我們獲得比以往更多的信息資料,但并不能保證社會科學(xué)就可以開展全數(shù)據(jù)模式的研究。

三、鴻溝難填:信息時(shí)代的數(shù)字不平等

“總體數(shù)據(jù)”“全數(shù)據(jù)模式”是相對于具體的研究對象和研究問題而言的,舍恩伯格和庫克耶的相關(guān)論述混淆了這些概念。他們舉一案例解釋:“艾伯特·拉斯洛·巴拉巴西和他的同事想研究人與人之間的互動(dòng)。于是他們調(diào)查了四個(gè)月內(nèi)所有的移動(dòng)通信記錄——當(dāng)然是匿名的,這些記錄是由一個(gè)為全美1/5的人口提供服務(wù)的無線運(yùn)營商提供的。這是第一次在全社會層面用接近于‘樣本=總體’的數(shù)據(jù)資料進(jìn)行的網(wǎng)絡(luò)分析?!保?](P42)在此案例中,研究對象是人,研究問題是人與人之間的互動(dòng),而移動(dòng)通信僅僅是眾多互動(dòng)方式的一部分,因此,作者所說的移動(dòng)通信記錄絕不能視為人與人之間互動(dòng)的總體數(shù)據(jù);美國并不止這一家無線運(yùn)營商,全美也并非只有1/5人口使用移動(dòng)通信,因此,一家無線運(yùn)營商提供的記錄絕不能視為美國人移動(dòng)通信的總體數(shù)據(jù);更何況,只調(diào)查了四個(gè)月內(nèi)的所有移動(dòng)通信記錄,其實(shí)連全美1/5人口移動(dòng)通信互動(dòng)的總體數(shù)據(jù)都算不上,怎么能把它當(dāng)作總體樣本呢?此案例中只表明已經(jīng)收集到的數(shù)據(jù)的全部,但相對于研究對象和研究問題而言,這些數(shù)據(jù)仍然是一個(gè)樣本——達(dá)到了大數(shù)據(jù)體量的樣本。

“可以收集過去無法收集到的信息”不等于“可以收集到社會科學(xué)研究需要的所有信息”,輕率地認(rèn)定社會科學(xué)研究“現(xiàn)在不再依賴抽樣調(diào)查了”的結(jié)論,是不嚴(yán)謹(jǐn)?shù)摹J聦?shí)上,在很多情況下,可資社會科學(xué)研究的大數(shù)據(jù)并非“總體數(shù)據(jù)”,因而同樣存在數(shù)據(jù)代表性問題。而在互聯(lián)網(wǎng)普及過程中出現(xiàn)的網(wǎng)絡(luò)分化,則讓這種狀況在可預(yù)見的未來不可能從根本上得到改變。網(wǎng)絡(luò)分化是指不同的社會群體能夠享受到的互聯(lián)網(wǎng)資源是不同的,在互聯(lián)網(wǎng)的使用中獲益程度之異同,是一種新形式的社會不平等。[10]

全球網(wǎng)絡(luò)指數(shù)(global web index,GWI)的報(bào)告顯示,截至2017年1月,作為世界第一大經(jīng)濟(jì)體、互聯(lián)網(wǎng)發(fā)源地的美國,其互聯(lián)網(wǎng)用戶占整體人口的比例為86%。[11]但從全球范圍來看,其他國家和地區(qū)則遠(yuǎn)遠(yuǎn)達(dá)不到如此高的覆蓋率。全球人口約74.76億,而互聯(lián)網(wǎng)用戶為37.73億。[11]全球互聯(lián)網(wǎng)普及率剛剛過半。

從我國的情況看,由于經(jīng)濟(jì)發(fā)展不平衡,在互聯(lián)網(wǎng)的普及方面,存在顯著的地區(qū)差異、城鄉(xiāng)差異?!兜?1次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2017年12月,中國網(wǎng)民的規(guī)模達(dá)7.72億,互聯(lián)網(wǎng)普及率為55.8%,但非網(wǎng)民規(guī)模仍然高達(dá)6.11億。[12]在中國網(wǎng)民中,農(nóng)村網(wǎng)民占比27.0%,規(guī)模為2.09億。雖然近幾年農(nóng)村的互聯(lián)網(wǎng)的發(fā)展速度較快,其普及率上升至35.4%,但仍低于城鎮(zhèn)35.6個(gè)百分點(diǎn)。[12]

經(jīng)濟(jì)發(fā)展的不平衡不僅導(dǎo)致城鄉(xiāng)之間的差異,還造成了明顯的地域差異?;ヂ?lián)網(wǎng)普及率從東部沿海發(fā)達(dá)地區(qū)向中西部欠發(fā)達(dá)地域呈梯次遞減趨勢。這些差異造成了“數(shù)字鴻溝”的存在,而填平“鴻溝”并非朝夕之事。由于“數(shù)字鴻溝”的存在,使針對不同研究對象、不同研究問題的社會科學(xué)研究在使用網(wǎng)絡(luò)大數(shù)據(jù)時(shí),會面臨不同程度的數(shù)據(jù)代表性問題。例如,如果想要研究“知識北漂”關(guān)注什么,從社交媒體上獲取具有較好代表性的數(shù)據(jù)是完全可能的;而如果是研究貧困山區(qū)的留守老人和留守兒童的心理狀態(tài),那還是采用傳統(tǒng)的“田野調(diào)查”方法為宜。

除了網(wǎng)民與非網(wǎng)民之別,網(wǎng)民結(jié)構(gòu)與人口結(jié)構(gòu)的差異也存在數(shù)據(jù)代表性問題。從我國的情況看,僅網(wǎng)民的性別結(jié)構(gòu)與實(shí)際人口性別比例基本相符,而年齡結(jié)構(gòu)、職業(yè)結(jié)構(gòu)等都存在不小的差距。在網(wǎng)民群體中,年齡在20~39歲的占53.5%;從職業(yè)來看,學(xué)生占到了25.4%。[12]這顯然與人口統(tǒng)計(jì)的特征不符,必然會導(dǎo)致網(wǎng)絡(luò)大數(shù)據(jù)的結(jié)構(gòu)性偏差,在社會科學(xué)研究中應(yīng)予以充分注意。例如,在互聯(lián)網(wǎng)輿情研究中,必須認(rèn)識到這一事實(shí),即從社交媒體所獲取的數(shù)據(jù)不能很好地代表50歲以上的人群。

四、用戶偏好:數(shù)據(jù)生成的不均衡

即便隨著社會的進(jìn)步,互聯(lián)網(wǎng)最終實(shí)現(xiàn)了全球范圍內(nèi)的高度普及,網(wǎng)絡(luò)大數(shù)據(jù)的代表性依然是社會科學(xué)研究中必須認(rèn)真考察的問題,因?yàn)榛ヂ?lián)網(wǎng)用戶的異質(zhì)性,必然導(dǎo)致他們在使用頻率、需求程度、技能水平、信息素養(yǎng)等方面存在不同程度的差異;同時(shí),由于社會分工、知識結(jié)構(gòu)、興趣愛好等方面的不同,決定了互聯(lián)網(wǎng)用戶不同的使用偏好。

有學(xué)者對2000年美國綜合社會調(diào)查(GSS)的數(shù)據(jù)進(jìn)行分析后,發(fā)現(xiàn)在美國互聯(lián)網(wǎng)用戶中,受教育程度高、收入高、認(rèn)知測試成績優(yōu)異者更傾向于利用互聯(lián)網(wǎng)“累積資本”,而非單單為了娛樂。[13]對瑞士1997-2000年互聯(lián)網(wǎng)數(shù)據(jù)的研究也顯示,受教育程度高、收入高的用戶往往通過互聯(lián)網(wǎng)獲取有價(jià)值的信息,而社會經(jīng)濟(jì)地位較低者則更多地把互聯(lián)網(wǎng)用于娛樂。[14]在中國的互聯(lián)網(wǎng)應(yīng)用層面,城鄉(xiāng)網(wǎng)民在商務(wù)交易、支付、新聞資訊等使用率方面差異顯著。[12]

互聯(lián)網(wǎng)上有多種多樣的信息工具和平臺,但任何工具、平臺都不可能囊括全部用戶,它們都有自己的目標(biāo)群體,這就意味著任何一種工具、平臺都是一個(gè)特定的數(shù)據(jù)子集。以在線社交平臺為例,據(jù)在線市場營銷咨詢機(jī)構(gòu)智慧洞見(smartinsights.com)發(fā)布的《2017年全球社交媒體研究概要》顯示,截至2017年1月,臉書(facebook)已擁有18.71億活躍用戶,穩(wěn)居全球社交媒體排行榜第一,有79%的美國成年網(wǎng)民使用它;臉書旗下的瓦次普(whats app)、臉書即時(shí)通(facebook messenger)分列第二、第三。[11]18.71億活躍用戶已經(jīng)是一個(gè)相當(dāng)驚人的數(shù)字,但也只占到全球網(wǎng)民的一半左右,某些國家的用戶,例如中國用戶,還特別少。

至于風(fēng)靡我國的微信,社交用戶管理平臺奇智睿思(curiosity)根據(jù)騰訊所發(fā)布的數(shù)據(jù)制作的《2015微信用戶數(shù)據(jù)報(bào)告》顯示,截至2015年第一季度末,微信月活躍用戶達(dá)5.49億,范圍覆蓋200多個(gè)國家,使用語言超過20種[15];《2017微信用戶&生態(tài)研究報(bào)告》顯示,截至2016年12月,微信國內(nèi)版與國際版(wechat)共有月活躍用戶數(shù)8.89億。[16]其中,中國用戶占有相當(dāng)大的比例。

雖然臉書與微信的普及程度都很高,但二者能夠代表的用戶人群顯然不同。正如伊斯特·豪爾吉陶伊所言,“當(dāng)大數(shù)據(jù)分析指向某特定社交網(wǎng)站或者服務(wù)項(xiàng)目時(shí),該研究所能夠展現(xiàn)的僅僅是決定加入并已開始使用相應(yīng)網(wǎng)站或者服務(wù)項(xiàng)目的群體的行為與觀點(diǎn)”,而“如果數(shù)據(jù)集中包含成千上萬的用戶的信息,就認(rèn)定研究之結(jié)論可推而廣之,這可能是錯(cuò)誤的,這取決于方法體系而非數(shù)據(jù)體量”。[17]

有些用戶群體(如成長于傳統(tǒng)媒體時(shí)代的中老年人),在網(wǎng)絡(luò)世界里的活躍度有限,他們往往是凱特·克勞福德所定義的“傾聽者”[18],主要瀏覽頁面,不更新狀態(tài)、不點(diǎn)贊、少與他人互動(dòng),存在感較弱。2011年,推特披露,約有40%的用戶登錄推特,目的只為傾聽。[19]

即便是活躍的用戶,其關(guān)注點(diǎn)亦相當(dāng)分散,這包含兩層含義。其一,信息與某群體相關(guān)度越高,該群體的關(guān)注度就越高,在網(wǎng)絡(luò)中的反應(yīng)更為強(qiáng)烈。例如2016年的問題疫苗事件,關(guān)注者最多的是年輕的母親。其二,興趣偏好不同的群體,關(guān)注的網(wǎng)站、平臺有所不同。德里克·魯茨與尤爾根·普費(fèi)弗的研究表明,照片墻(instagram)主要受18~29歲的成人、非洲裔美國人、拉美后裔、婦女、城鎮(zhèn)居民的青睞;而品趣(pinterest)則更受25~34歲、年收入平均10萬美元的女性的歡迎。[20]全球網(wǎng)絡(luò)索引(global web index)2014年的數(shù)據(jù)顯示,閱后即焚(snapchat)最受年輕人的偏愛,其用戶群體中16~24歲者占57%,微信與湯博樂(tumblr)的這一數(shù)據(jù)分別為42%、39%,而在臉書和推特的用戶群體中,16~24歲、25~34歲、35~44歲者的比例均在25%左右,45~54歲、55~64歲者的占比相對略低。[11]《2015微信用戶數(shù)據(jù)報(bào)告》表明,微信用戶以男性為主,男性與女性用戶的占比分別為64.3%、35.7%,男女比例為1.8∶1。[15]

因此,與傳統(tǒng)的抽樣調(diào)查不同,基于社交媒體大數(shù)據(jù)的研究面對的是自我選擇樣本,即用戶自我決定是否成為樣本,這種樣本在很多情況下存在系統(tǒng)性偏差。[9]除此之外,垃圾賬戶現(xiàn)象亦值得注意。有些人擁有多個(gè)賬戶;有的賬戶是所謂的“機(jī)器賬戶”,這些賬戶由代碼控制,可自動(dòng)發(fā)消息,常被用來發(fā)送廣告、交友等垃圾信息,其數(shù)據(jù)生成量一般很大,這些噪音也會對網(wǎng)絡(luò)大數(shù)據(jù)的代表性有所影響。

五、總結(jié)與展望

大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù)為解決更多、更細(xì)的社會問題提供了可能。然而,認(rèn)定大數(shù)據(jù)就是“總體數(shù)據(jù)”,認(rèn)為目前社會科學(xué)研究可以全面開啟“全數(shù)據(jù)模式”時(shí)代的觀點(diǎn),尚缺乏嚴(yán)謹(jǐn)?shù)目茖W(xué)依據(jù)。一個(gè)明顯的事實(shí)是,經(jīng)濟(jì)社會發(fā)展的不平衡現(xiàn)象將相當(dāng)數(shù)量的人擋在了信息社會的大門之外,數(shù)字鴻溝的客觀存在使互聯(lián)網(wǎng)缺失了約半數(shù)人群的電子蹤跡;社會的結(jié)構(gòu)性不平等、用戶群體的異質(zhì)性、社會分工等因素導(dǎo)致數(shù)據(jù)生成方面的不均衡,等等,這些事實(shí)都還存在。因此,將網(wǎng)絡(luò)大數(shù)據(jù)用于社會科學(xué)研究,在很多情況下無法實(shí)現(xiàn)“樣本=總體”的目標(biāo),這是數(shù)據(jù)代表性問題無法回避的事實(shí)。正如丹·博伊德和凱特·克勞福德所說:“拋開特定數(shù)據(jù)集的代表性,只談其體量的大小毫無意義?!保?]

在大數(shù)據(jù)時(shí)代,社會科學(xué)傳統(tǒng)的抽樣調(diào)查方法并未終結(jié)。2017年4月24日,數(shù)據(jù)運(yùn)營領(lǐng)域的翹楚——騰訊公司,其旗下的“企鵝智酷”公布了《2017微信用戶&生態(tài)研究報(bào)告》,亦專門針對用戶數(shù)據(jù)采樣進(jìn)行了說明。《報(bào)告》稱,通過企鵝智酷網(wǎng)絡(luò)調(diào)研平臺采集到用戶調(diào)研樣本共19,511份,通過中國信息通信研究院采集到的用戶樣本為1,100份,采集到公眾號運(yùn)營者樣本為9,018份。[16]甚至最具權(quán)威的中國互聯(lián)網(wǎng)絡(luò)信息中心,其歷次的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》仍然采用計(jì)算機(jī)輔助、電話訪問的方法獲取抽樣數(shù)據(jù)。[12]這些情況說明,依目前的信息采集條件,所獲取的資料信息仍然是有限的,只能代表某些領(lǐng)域或某些方面。

其實(shí),對于多數(shù)社會科學(xué)研究而言,網(wǎng)絡(luò)大數(shù)據(jù)并非完美的數(shù)據(jù)?!叭珨?shù)據(jù)模式”是相對于具體的研究任務(wù)而言的。例如,吉拉德·羅坦與艾爾哈特·格拉夫領(lǐng)銜的團(tuán)隊(duì)對2011年突尼斯與埃及革命期間激進(jìn)分子、博主、新聞?dòng)浾?、主流媒體及其他參與者在推特上的信息流進(jìn)行了研究。他們使用了兩個(gè)相應(yīng)的能夠覆蓋兩場革命時(shí)間段的推特?cái)?shù)據(jù)集,整理出常在推特上的發(fā)聲者并將其歸類,然后具體分析這些信息是如何產(chǎn)生并在推特用戶網(wǎng)絡(luò)中擴(kuò)散的。這是典型的對在特定時(shí)間段發(fā)生的特定事件中特定群體的網(wǎng)絡(luò)行為的研究,就此類研究而言,樣本具有很好的代表性。而就除此之外的多數(shù)情況而言,針對具體的研究任務(wù),所能使用的大數(shù)據(jù)往往存在系統(tǒng)性偏差,如果不能矯正這些偏差(至少這在當(dāng)前是極為困難的),那么,基于大數(shù)據(jù)的分析與預(yù)測就談不上多大的可靠性。[9]因此,研究者對此應(yīng)有清醒的認(rèn)識,尤其在運(yùn)用某特定平臺的數(shù)據(jù)進(jìn)行推理時(shí),應(yīng)了解研究的適用范圍,避開“代表性陷阱”的干擾。正如伊斯特·豪爾吉陶伊說:“大并不總意味著更好;當(dāng)涉及數(shù)據(jù)集的時(shí)候,體量并非那么重要,大數(shù)據(jù)并不對偏誤免疫;在研究過程中,無論數(shù)據(jù)的大小,要根據(jù)其取樣框架來審慎推導(dǎo)結(jié)論。”

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評論

    相關(guān)推薦

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    了電力的實(shí)時(shí)平衡和優(yōu)化,有效降低了電網(wǎng)的運(yùn)行成本和故障率。 此外,書中還討論了人工智能在能源科學(xué)研究中的挑戰(zhàn)和機(jī)遇。這些挑戰(zhàn)包括數(shù)據(jù)質(zhì)量、算法優(yōu)化、隱私保護(hù)等方面,而機(jī)遇則體現(xiàn)在技術(shù)創(chuàng)新、產(chǎn)業(yè)升級
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    閱讀這一章后,我深感人工智能與生命科學(xué)的結(jié)合正引領(lǐng)著一場前所未有的科學(xué)革命,以下是我個(gè)人的讀后感: 1. 技術(shù)革新與生命科學(xué)進(jìn)步 這一章詳細(xì)闡述了人工智能如何通過其強(qiáng)大的數(shù)據(jù)處理和分析
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    人工智能在科學(xué)研究中的核心技術(shù),包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。這些技術(shù)構(gòu)成了AI for Science的基石,使得AI能夠處理和分析復(fù)雜的數(shù)據(jù)集,從而發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和規(guī)
    發(fā)表于 10-14 09:16

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    人工智能:科學(xué)研究的加速器 第一章清晰地闡述了人工智能作為科學(xué)研究工具的強(qiáng)大功能。通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等先進(jìn)技術(shù),AI能夠處理和分析海量數(shù)據(jù),發(fā)現(xiàn)傳統(tǒng)方法難以捕捉的模式和規(guī)律。這不
    發(fā)表于 10-14 09:12

    軟通動(dòng)力榮登“2024信創(chuàng)500強(qiáng)”榜單

    近日,德本咨詢聯(lián)合互聯(lián)網(wǎng)周刊、中國社會科學(xué)院信息化研究中心以及eNet研究院發(fā)布“2024信創(chuàng)500強(qiáng)”榜單。憑借在信創(chuàng)領(lǐng)域的創(chuàng)新引領(lǐng)和深厚的技術(shù)實(shí)力,軟通動(dòng)力成功上榜。
    的頭像 發(fā)表于 07-29 16:06 ?466次閱讀

    機(jī)械革命入選《2024全國企業(yè)新質(zhì)生產(chǎn)力賦能典型案例》

    近日,德本咨詢聯(lián)合互聯(lián)網(wǎng)周刊、中國社會科學(xué)院信息化研究中心以及eNet研究院正式發(fā)布了《2024全國企業(yè)新質(zhì)生產(chǎn)力賦能典型案例》。經(jīng)過多輪行業(yè)內(nèi)專家的嚴(yán)格評審,機(jī)械革命憑借“機(jī)械革命智能編程AIPC應(yīng)用實(shí)踐”成功入選。
    的頭像 發(fā)表于 07-23 09:21 ?406次閱讀
    機(jī)械革命入選《2024全國企業(yè)新質(zhì)生產(chǎn)力賦能典型案例》

    深蘭科技入選《2024全國“人工智能+”行動(dòng)創(chuàng)新案例TOP100》榜單

    近日,中科院《互聯(lián)網(wǎng)周刊》聯(lián)合eNET研究院、德本咨詢、中國社會科學(xué)院信息化研究中心共同發(fā)布了《2024全國“人工智能+”行動(dòng)創(chuàng)新案例TOP100》榜單。
    的頭像 發(fā)表于 04-20 09:48 ?491次閱讀
    深蘭科技入選《2024全國“人工智能+”行動(dòng)創(chuàng)新案例TOP100》榜單

    2023工業(yè)機(jī)器人排行榜發(fā)布

    近日,由中國科學(xué)院主管、科學(xué)出版社主辦的商業(yè)期刊《互聯(lián)網(wǎng)周刊》(CIW)聯(lián)合德本咨詢(DBC)、中國社會科學(xué)院信息化研究中心(CIS)發(fā)布了“2023工業(yè)機(jī)器人排行榜”。
    的頭像 發(fā)表于 04-20 09:24 ?772次閱讀
    2023工業(yè)機(jī)器人排行榜發(fā)布

    微機(jī)差熱天平:科學(xué)研究的得力助手

    在現(xiàn)代科學(xué)研究領(lǐng)域,精確測量物質(zhì)在加熱或冷卻過程中的熱效應(yīng)是至關(guān)重要的。微機(jī)差熱天平,作為一種精度高、靈敏度高的熱分析儀器,已經(jīng)成為科研工作者不可或缺的得力助手。上海和晟HS-TGA-101微機(jī)差
    的頭像 發(fā)表于 03-08 10:38 ?360次閱讀
    微機(jī)差熱天平:<b class='flag-5'>科學(xué)研究</b>的得力助手

    CYBT-343026傳輸大數(shù)據(jù)時(shí)會丟數(shù)據(jù)的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模塊。 我根據(jù) SPP 樣本制作了一個(gè)操作 SPP 的應(yīng)用程序。 但是,傳輸大數(shù)據(jù)時(shí)有時(shí)會丟失數(shù)據(jù)。 它從
    發(fā)表于 03-01 15:04

    淺析大數(shù)據(jù)時(shí)代下的數(shù)據(jù)中心運(yùn)維管理

    淺析大數(shù)據(jù)時(shí)代下的數(shù)據(jù)中心運(yùn)維管理 張穎姣 安科瑞電氣股份有限公司?上海嘉定201801 摘要:本文將從數(shù)據(jù)中心運(yùn)維管理的角度,聯(lián)系現(xiàn)實(shí)情況,對運(yùn)維管理進(jìn)行
    的頭像 發(fā)表于 02-22 14:40 ?292次閱讀
    淺析<b class='flag-5'>大數(shù)據(jù)</b><b class='flag-5'>時(shí)代</b>下的<b class='flag-5'>數(shù)據(jù)</b>中心運(yùn)維管理

    大數(shù)據(jù)技術(shù)是干嘛的 大數(shù)據(jù)核心技術(shù)有哪些

    大數(shù)據(jù)技術(shù)是指用來處理和存儲海量、多類型、高速的數(shù)據(jù)的一系列技術(shù)和工具?,F(xiàn)如今,大數(shù)據(jù)已經(jīng)滲透到各個(gè)行業(yè)和領(lǐng)域,對企業(yè)決策和業(yè)務(wù)發(fā)展起到了重要作用。本文將詳細(xì)介紹大數(shù)據(jù)技術(shù)的概念、發(fā)展
    的頭像 發(fā)表于 01-31 11:07 ?2736次閱讀

    GPU:大數(shù)據(jù)時(shí)代的強(qiáng)力引擎

    現(xiàn)如今,我們正身處于數(shù)據(jù)爆炸的時(shí)代,大規(guī)模的數(shù)據(jù)正在重新定義著科技和商業(yè)的規(guī)則。GPU(GraphicsProcessingUnit,圖形處理單元)技術(shù)已經(jīng)成為科技創(chuàng)新的關(guān)鍵利器,極大地提高了系統(tǒng)
    的頭像 發(fā)表于 01-04 08:27 ?633次閱讀
    GPU:<b class='flag-5'>大數(shù)據(jù)</b><b class='flag-5'>時(shí)代</b>的強(qiáng)力引擎

    大數(shù)據(jù)技術(shù)如何為精益管理賦能?

    隨著科技的飛速發(fā)展,大數(shù)據(jù)技術(shù)已經(jīng)逐漸滲透到各個(gè)領(lǐng)域,為企業(yè)帶來了前所未有的變革。在精益管理領(lǐng)域,大數(shù)據(jù)技術(shù)的運(yùn)用更是為企業(yè)管理帶來了諸多優(yōu)勢,為企業(yè)高效運(yùn)營注入了新的活力。 一、
    的頭像 發(fā)表于 12-19 09:58 ?529次閱讀

    2023 CCF中國開源大會「開放科學(xué)——引領(lǐng)未來科學(xué)研究發(fā)展的新范式分論壇」成功舉辦

    10月22日,由開放原子開源基金會和CCF開源戰(zhàn)略工作組聯(lián)合出品,2023 CCF中國開源大會「開放科學(xué)——引領(lǐng)未來科學(xué)研究發(fā)展的新范式分論壇」圓滿舉行。本次論壇旨在探討開放科學(xué)與開源在不同領(lǐng)域
    的頭像 發(fā)表于 10-24 10:20 ?496次閱讀