0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

社會計(jì)算結(jié)合大數(shù)據(jù)與人工智能算法解決社會問題

AI智勝未來 ? 來源:社會學(xué)研究雜志 ? 作者:周濤、高馨等 ? 2022-11-25 11:39 ? 次閱讀

社會計(jì)算(social computing)的方法論以社會科學(xué)理論為導(dǎo)引,并結(jié)合大數(shù)據(jù)與人工智能算法解決社會問題。本文從大量文獻(xiàn)中提煉出融合大數(shù)據(jù)與社會科學(xué)理論的五種研究類型:基于大數(shù)據(jù)的探索性研究、基于大數(shù)據(jù)的驗(yàn)證性研究、大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)整合下的探索性或驗(yàn)證性研究、基于大型互聯(lián)網(wǎng)實(shí)驗(yàn)的驗(yàn)證性研究和基于大數(shù)據(jù)(或結(jié)合結(jié)構(gòu)化數(shù)據(jù))先探索后驗(yàn)證的整合研究。本文針對上述五種研究進(jìn)行了典型研究示例和若干相關(guān)研究成果展示。

一引言

社會科學(xué)家一般多關(guān)注因果和解釋性問題,計(jì)算機(jī)學(xué)家旨在提升預(yù)測模型準(zhǔn)確率。而隨著社會計(jì)算、計(jì)算社會學(xué)、計(jì)算社會科學(xué)等交叉學(xué)科的興起,關(guān)于“預(yù)測性和可解釋性不再是權(quán)衡和競爭,而是可以相互補(bǔ)充”的呼吁逐漸得到重視。2021年,霍夫曼(Jake Hofman)與瓦茨(Duncan Watts)等人在《自然》雜志上發(fā)文,依據(jù)可解釋性和預(yù)測性將計(jì)算社會科學(xué)的研究方法劃分到四個象限中:(1)描述性統(tǒng)計(jì);(2)因果研究;(3)預(yù)測模型與預(yù)測因子分析;(4)因果與預(yù)測整合的研究(Hofman et al.,2021)。其中,第一象限與第三象限是數(shù)據(jù)驅(qū)動的探索性研究,第二象限是理論驅(qū)動的驗(yàn)證性研究,第四象限則是探索性和驗(yàn)證性結(jié)合的研究。本文以電子印跡大數(shù)據(jù)、整合的大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)、大型互聯(lián)網(wǎng)實(shí)驗(yàn)數(shù)據(jù)這三種數(shù)據(jù)來源為基礎(chǔ),結(jié)合單獨(dú)或者整合的探索性和驗(yàn)證性研究方法,為這一領(lǐng)域的方法論做出系統(tǒng)的梳理和詳細(xì)的案例展示。

大數(shù)據(jù)及其分析方法的出現(xiàn)推動了社會科學(xué)研究新范式的涌現(xiàn)。傳統(tǒng)社會科學(xué)定量研究中,問卷數(shù)據(jù)存在樣本規(guī)模小(蘭德爾、馬科夫斯基,2006)、失真(Fisher,1993)和系統(tǒng)誤差等問題。而獲得更準(zhǔn)確且更大規(guī)模的數(shù)據(jù),如經(jīng)濟(jì)社會普查數(shù)據(jù)的成本極高,同時,這類數(shù)據(jù)通常時效性也較差(高見、周濤,2016;Einav & Levin,2014)。

大量非結(jié)構(gòu)化電子印跡數(shù)據(jù)(如網(wǎng)頁搜索、社交網(wǎng)絡(luò)互動內(nèi)容、衛(wèi)星遙感、視頻圖像、移動通信、社交媒體等)的記錄和積累為社會科學(xué)研究者帶來了前所未有的重大機(jī)會和挑戰(zhàn)(舍恩伯格、庫克耶,2013)。一方面,這些非結(jié)構(gòu)化數(shù)據(jù)具有規(guī)模更大、實(shí)時性更強(qiáng)、精度更高的特點(diǎn)。因此,非結(jié)構(gòu)化大數(shù)據(jù)的使用既可以降低小樣本數(shù)據(jù)的稀疏性和偏差度,又可以增加社會現(xiàn)象動態(tài)發(fā)展過程的可見度,更好地描述社會經(jīng)濟(jì)發(fā)展態(tài)勢。另一方面,理解和分析這類海量的非結(jié)構(gòu)化數(shù)據(jù),需要前沿的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)力學(xué)方法,這對以統(tǒng)計(jì)分析為主要工具的傳統(tǒng)社會科學(xué)研究者提出了挑戰(zhàn)。

近年來,大批計(jì)算機(jī)科學(xué)家和物理學(xué)家與社會科學(xué)家形成深度合作,旨在共同應(yīng)對社會治理和預(yù)測問題,積極應(yīng)對上述傳統(tǒng)統(tǒng)計(jì)分析方法面臨的挑戰(zhàn)并提供了一些解決方案。這些具有交叉學(xué)科性質(zhì)的學(xué)者一同提出了若干新的研究分支,包括計(jì)算社會科學(xué)(Lazer et al.,2009;Shah et al.,2015)、計(jì)算社會經(jīng)濟(jì)學(xué)(Gao et al.,2019;Zhou,2021)、社會計(jì)算(Wang et al.,2007;孟小峰等,2013;Evans et al.,2020;Evans,2020),等等。盡管這些研究分支的提法各有不同,但這些涌現(xiàn)出來的新研究分支具有明顯的共性,即都是基于大數(shù)據(jù),運(yùn)用統(tǒng)計(jì)力學(xué)、動態(tài)建模和人工智能等方法和技術(shù),來獲得對社會現(xiàn)象和規(guī)律更精準(zhǔn)的刻畫,并提出科學(xué)解釋。需要注意的是,與傳統(tǒng)社會科學(xué)相比,二者之間的區(qū)別主要體現(xiàn)在研究方法的發(fā)展上,而非研究問題本身。新研究分支雖然只是在研究方法和數(shù)據(jù)上有所發(fā)展,卻在解決重要社會問題上創(chuàng)生出巨大價值。概括來說,這些研究在與理論的對話過程中往往基于大量新數(shù)據(jù)來應(yīng)用新方法,從而獲得有社會科學(xué)理論觀照的新發(fā)現(xiàn),因此,筆者將這些研究統(tǒng)稱為“社會計(jì)算(social computing)驅(qū)動的社會科學(xué)研究”。

國內(nèi)關(guān)于社會計(jì)算研究的綜述性文章,主要從數(shù)據(jù)、方法、工具或具體引入某一 方法形成的新研究范式等方面展開闡述。其中包括羅瑋和羅教講(2015)基于2014年美國社會學(xué)年會“新計(jì)算社會學(xué)”討論會以及相關(guān)文獻(xiàn),將計(jì)算社會學(xué)相關(guān)內(nèi)容劃分為“大數(shù)據(jù)的獲取與分析、質(zhì)性研究與定量研究的融合、互聯(lián)網(wǎng)社會實(shí)驗(yàn)研究、計(jì)算機(jī)模擬研究和新型社會計(jì)算工具的研制與開發(fā)”這五類,主要從數(shù)據(jù)、方法和工具來做闡釋,將這三個方面視為計(jì)算社會科學(xué)研究所需要的“原料”。陳云松等人(2020)則以瓦茨在2014年《美國社會學(xué)雜志》(American Journal of Sociology)上對社會科學(xué)家只重視可解釋性而忽略預(yù)測性的批評為基礎(chǔ),重點(diǎn)介紹基于機(jī)器學(xué)習(xí)的方法為社會計(jì)算研究帶來的新研究范式。胡安寧等人(2021)從研究方法層面介紹了機(jī)器學(xué)習(xí)模型在處理個體效應(yīng)異質(zhì)性中存在的優(yōu)勢。羅家德等人(2018,2021)主要從方法論層面闡述了理論、數(shù)據(jù)挖掘結(jié)果和預(yù)測模型間的動態(tài)三角對話的研究范式。

本文主旨是針對具體的研究問題,闡述如何使用和整合對應(yīng)的社會科學(xué)理論、新數(shù)據(jù)和新方法來獲得新發(fā)現(xiàn)、驗(yàn)證或修正理論,為相關(guān)研究者對上述不同要素進(jìn)行組合、銜接和取舍以形成完整研究提供參考和定位。因此,我們從方法論角度作綜合梳理,輔以具體案例展示,提出社會計(jì)算驅(qū)動的五類社會科學(xué)研究,分別是:(1)基于大數(shù)據(jù)的探索性研究;(2)基于大數(shù)據(jù)的驗(yàn)證性研究;(3)大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)整合下的探索性或驗(yàn)證性研究;(4)基于大型互聯(lián)網(wǎng)實(shí)驗(yàn)的驗(yàn)證性研究;(5)基于大數(shù)據(jù)(或結(jié)合結(jié)構(gòu)化數(shù)據(jù))先探索后驗(yàn)證的整合研究。這五種方法論的提煉是筆者以薩爾加尼克(Matthew Salganik)基于大數(shù)據(jù)和調(diào)查數(shù)據(jù)提出的擴(kuò)充型提問(擴(kuò)展研究變量和議題)和豐富型提問(整合少數(shù)人的調(diào)查數(shù)據(jù)與大量研究對象的大數(shù)據(jù))兩種方法論(Salganik,2017)為基礎(chǔ),結(jié)合上述霍夫曼與瓦茨等人(Hofman et al.,2021)在《自然》雜志上提出四象限研究,進(jìn)一步提煉得出的分類。在本文的劃分依據(jù)下,第三類大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)整合下的探索性或驗(yàn)證性研究以及第五類基于大數(shù)據(jù)(或結(jié)合結(jié)構(gòu)化數(shù)據(jù))先探索后驗(yàn)證的整合研究尤其反映了薩爾加尼克(Salganik,2017)以及霍夫曼與瓦茨等人(Hofman et al.,2021)的方法論關(guān)切,展現(xiàn)了近年來的重要發(fā)展,標(biāo)示著社會科學(xué)理論和社會計(jì)算方法在進(jìn)一步深度整合。

這五大方法論劃分所強(qiáng)調(diào)的核心內(nèi)容包括以下三點(diǎn)。

第一,社會計(jì)算不是計(jì)算機(jī)科學(xué)(computer science)和社會數(shù)據(jù)(social data)的簡單疊加,而是方法論層面的革新。社會計(jì)算扎根社會現(xiàn)實(shí)問題,解釋和聯(lián)系社會科學(xué)理論。

第二,五種方法論主要從該類研究所關(guān)注和解決的社會科學(xué)理論問題出發(fā),以社會科學(xué)研究中對理論問題的探索性、驗(yàn)證性以及探索和驗(yàn)證的整合研究來劃分。

第三,圍繞所對話的理論或研究問題,社會計(jì)算驅(qū)動的社會科學(xué)研究的數(shù)據(jù)來源主要包括直接獲得的電子印跡數(shù)據(jù)、電子印跡數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的結(jié)合,或是大規(guī)模網(wǎng)絡(luò)實(shí)驗(yàn)數(shù)據(jù)。

綜上所述,五種研究方法論以社會科學(xué)的問題意識為核心,以不同數(shù)據(jù)來源為基礎(chǔ),組織不同測量、分析方法和模型來解決問題。上述要素綜合形成五種差異化的方法論演進(jìn)路線。在提出上述方法論的“骨架”后,本文在每個方法論闡述下凝練和舉出一個典型的案例,并簡要介紹若干其他有代表性的案例,通過實(shí)例化的方式展現(xiàn)五種方法論下的具體的研究步驟和范式。

二基于大數(shù)據(jù)的探索性研究

以往社會科學(xué)研究的數(shù)據(jù)往往來自問卷調(diào)查和控制實(shí)驗(yàn),存在數(shù)據(jù)樣本數(shù)量少、主觀性高的問題。此外,當(dāng)知曉自己是調(diào)查對象或?qū)嶒?yàn)對象,受訪者會傾向于給出更易被社會接受的答案,而非真實(shí)的答案(Fisher,1993)。本文強(qiáng)調(diào)的電子化印跡數(shù)據(jù)是在研究對象不知情的情況下在現(xiàn)實(shí)生活中記錄形成的,因此叫做自然數(shù)據(jù)。這類數(shù)據(jù)具有細(xì)粒度、大規(guī)模、強(qiáng)時序性的特點(diǎn),因此,在開展大數(shù)據(jù)的探索性研究過程中發(fā)揮了重要作用。

大數(shù)據(jù)的探索性研究可以用于分析失業(yè)情況和職場發(fā)展。在無干預(yù)的情況下,筆者通過分析企業(yè)員工在內(nèi)部辦公系統(tǒng)中留下的記錄,發(fā)現(xiàn)員工在辦公系統(tǒng)中的活躍程度,特別是通過回溯員工間在辦公系統(tǒng)發(fā)布任務(wù)、領(lǐng)取任務(wù)、上傳、分享和下載文件等行為形成的互動關(guān)系,和該員工接下來一年之內(nèi)的晉升或者離職有顯著關(guān)系(張琳艷等,2015;Yuan et al.,2015)。自然數(shù)據(jù)還可以用來定量刻畫兩性不平等的程度。筆者通過分析互聯(lián)網(wǎng)求職者的簡歷數(shù)據(jù),發(fā)現(xiàn)平均而言女性要比男性多讀一個學(xué)位或者多工作5年才能獲得和男性一樣的預(yù)期收入(Yang et al.,2018;王軍等,2019)。

以下,筆者通過一個宗教隔離的研究案例(Hu et al.,2019)來詳細(xì)展示如何采集和分析自然數(shù)據(jù),并得到有價值的結(jié)論。宗教在人類文化中扮演著重要角色,宗教信仰有正面的價值,例如促進(jìn)人類的合作(Purzycki et al.,2016)、提高生活的滿意度(Lim & Putnam,2010)以及精神和身體健康水平(Koenig et al.,2001),等等。與此同時,因?yàn)椴煌诮讨g可能存在信仰內(nèi)容和觀念形態(tài)的差異,宗教之間會出現(xiàn)隔離現(xiàn)象,而這種現(xiàn)象對于文化演進(jìn)、經(jīng)濟(jì)發(fā)展和政治制度往往存在負(fù)面的影響(Atran & Jeremy,2012)。

筆者利用微博的公開數(shù)據(jù)分析宗教信徒之間形成的在線社交關(guān)系,觀察這種社交關(guān)系中不同宗教之間是否存在隔離現(xiàn)象。為了從微博用戶中把有宗教信仰的用戶找出來,筆者先建立了一個宗教相關(guān)關(guān)鍵詞的列表,該詞表覆蓋了最常見的一些和宗教相關(guān)的詞語。筆者在微博用戶的自我介紹、標(biāo)簽和昵稱中搜索這些關(guān)鍵詞,發(fā)現(xiàn)170000多用戶包含了詞表中至少一個關(guān)鍵詞,有9000多用戶包含了至少兩個關(guān)鍵詞。筆者所在的研究團(tuán)隊(duì)人工標(biāo)注了這9000多用戶,確認(rèn)其中6875名是有特定宗教信仰的用戶,分別屬于佛教、基督教、道教、伊斯蘭教中的一類。隨后,根據(jù)這些用戶之間的關(guān)注行為形成宗教關(guān)注網(wǎng)絡(luò)。通過對這一特殊社交網(wǎng)絡(luò)的探索性分析,筆者得到以下四個主要的發(fā)現(xiàn)。

第一,不同宗教之間的社交隔離非常嚴(yán)重。事實(shí)上,98.4%的微博關(guān)注關(guān)系出現(xiàn)在兩個信仰同一宗教的用戶間,而只有1.6%的連邊跨越不同宗教。筆者使用“同配系數(shù)”(assortative coefficient)(Newman,2003)來比較不同類別節(jié)點(diǎn)間連邊的比例與隨機(jī)化的網(wǎng)絡(luò)相應(yīng)連邊的比例,以刻畫不同類別節(jié)點(diǎn)之間的隔離程度。最終得到同配系數(shù)r=0.973(r取值的區(qū)間是[-1,1],r=1時表示完全隔離)。該結(jié)果說明不同宗教之間的社交隔離非常嚴(yán)重。筆者還計(jì)算了很多其他測量隔離程度的指數(shù),包括E-I指數(shù)(Krackhardt & Stern,1988)、Gupta-Anderson-May指數(shù)(Gupta et al.,1989)、優(yōu)勢比(Moody,2001)等,結(jié)論均相同。

第二,跨越宗教的連邊對于維持整體網(wǎng)絡(luò)的連通性起到了決定性的作用。社交網(wǎng)絡(luò)是一種典型的具有交換和傳播信息功能的網(wǎng)絡(luò),對于這類網(wǎng)絡(luò)而言,連通性是非常重要的性質(zhì)。要判斷連邊對于維持網(wǎng)絡(luò)連通性的作用大小,最通常的辦法是比較去掉這些連邊前后的網(wǎng)絡(luò)連通性的差異(Li et al.,2021)。筆者對比了移除不同類型的連邊前后網(wǎng)絡(luò)的連通性,發(fā)現(xiàn)相比于其他算法篩選的連邊,移除跨宗教連邊后網(wǎng)絡(luò)連通性下降得最多,說明跨宗教連邊在維持網(wǎng)絡(luò)連通性方面所起到的作用比通過其他算法篩選出來的邊都要顯著得多。

第三,在中國,信仰不同宗教的微博用戶中,佛教徒最具開放性。在排除了不同教派人數(shù)差異的影響后,筆者發(fā)現(xiàn),平均而言佛教徒關(guān)注其他宗教信徒或被其他宗教信徒關(guān)注的可能性都要更大。

第四,所有的跨宗教連邊中約一半都和慈善有關(guān)。筆者發(fā)現(xiàn),在所有被分析的6875個用戶中,有309個用戶至少吸引了一個其他宗教信仰者的關(guān)注。其中有33個屬于主要發(fā)布慈善活動消息和新聞的用戶。在這33個用戶中,有15人曾因?yàn)榇壬苹顒颖幻襟w報(bào)道過,有12人在微博標(biāo)簽中有“慈善家”這一標(biāo)簽。雖然這33個慈善用戶只占了所有用戶中的0.48%,但卻吸引了46.7%的跨宗教連邊,可見慈善是增加宗教間溝通的可能切入點(diǎn)。

社會計(jì)算科學(xué)驅(qū)動的探索性研究從數(shù)據(jù)挖掘(data mining)出發(fā),在得到一些指標(biāo)值與行為規(guī)律的發(fā)現(xiàn)后,不能止步于此,還需要與現(xiàn)有理論對話并進(jìn)行詮釋,從而可以提出命題,以豐富、修正舊理論或發(fā)展新理論。接下來,筆者將繼續(xù)展示如何根據(jù)上述探索研究中發(fā)現(xiàn)的指標(biāo)和行為規(guī)律與宗教研究的相關(guān)理論進(jìn)行對話,對探索結(jié)果做出詮釋并提出理論命題。

根據(jù)案例研究問題和重要發(fā)現(xiàn),本研究問題與齊美爾提出的“社會距離”展開了對話。這個概念主要表征“個體之間、群體之間或者個體與群體之間的相互作用和分離程度”(孔建勛、張曉倩,2017:76)。美國芝加哥學(xué)派社會學(xué)家帕克認(rèn)為“社會距離是用以描述人際、社會關(guān)系的狀態(tài),表征相互理解和親密的程度的概念”(Park,1924;孔建勛、張曉倩,2017:77)。博格達(dá)斯(Emory Bogardus)開發(fā)了社會距離測量量表,主要用于研究種族之間的隔離(Bogardus,1925)。已有的一些宗教理論揭示了宗教之間由于受到歷史、宗教文化、利益和資源分配失衡以及各國“政教分離”政策的實(shí)施等影響,最終導(dǎo)致宗教去中心化,造成多元文化沖突(亨廷頓,2013;Nataraj,1965)。上述發(fā)現(xiàn)一、二證實(shí)了在中國情境下宗教分離現(xiàn)象的存在,并測量了分離程度。

回顧中國情境下的宗教研究,佛教非排他性的宗教觀(薛克翹,2006)解釋了發(fā)現(xiàn)三中佛教徒更有可能關(guān)注其他宗教信仰的人的結(jié)果。另外,社會規(guī)范理論強(qiáng)調(diào)社會整體對于宗教的態(tài)度會影響信徒的幸福感(Eichhorn, 2011;Stavrova et al., 2013)。在中國傳統(tǒng)宗教中,由于佛教是溝通中國大陸與東亞、南亞、臺灣地區(qū)和香港地區(qū)的重要載體(Ji,2011;Laliberté,2011),因此受到更多的重視和認(rèn)同,例如開展世界性的佛教論壇等(Lu & Gao,2017)。因此,在中國佛教徒的幸福感水平極大可能高于其他宗教信徒。

關(guān)于發(fā)現(xiàn)四,信徒參加宗教活動以及個人宗教身份的認(rèn)同可以提升其幸福感(Ritter et al.,2014),當(dāng)幸福感提升后,這些信徒可能更愿意關(guān)注社會慈善等事務(wù),同時也有更大可能關(guān)注其他宗教信仰的人。因此,跨宗教連邊大多與慈善相關(guān)。

綜上,在上述理論詮釋的基礎(chǔ)上,關(guān)于發(fā)現(xiàn)三、四的解釋還需要因果關(guān)系的進(jìn)一步驗(yàn)證,由此我們提出以下命題,以期在后續(xù)研究中把幸福感視作中介變量來解釋宗教身份認(rèn)同與參與慈善活動和關(guān)注其他宗教群體的因果關(guān)系。

命題1:個人宗教身份的認(rèn)同和參加宗教活動可以提升信徒的幸福感,使信徒愿意關(guān)注社會慈善。

命題2:個人宗教身份的認(rèn)同和參加宗教活動可以提升信徒的幸福感,使信徒愿意和其他宗教群體個人產(chǎn)生聯(lián)系。

上述基于微博大數(shù)據(jù)的探索性研究雖然簡單,但卻是第一次定量化地在中國的互聯(lián)網(wǎng)環(huán)境中測量了宗教隔離的程度。同時,在方法上可以讓讀者觀察到如何利用自然數(shù)據(jù)對宗教和相關(guān)社會問題進(jìn)行探索性研究,展示了從收集數(shù)據(jù)、指標(biāo)計(jì)算、數(shù)據(jù)挖掘、發(fā)現(xiàn)行為規(guī)律、對話理論做出詮釋、提出后續(xù)有待驗(yàn)證的命題的過程。

探索性研究一般到發(fā)現(xiàn)和詮釋為止,而這里提出命題旨在展示如何在探索和理論對話中啟發(fā)后續(xù)更多因果關(guān)系的驗(yàn)證,從而形成理論上的推論,而非僅僅止步于社會事實(shí)的發(fā)現(xiàn)。綜上所述,以電子印跡大數(shù)據(jù)為基礎(chǔ)的探索性研究對于理論的意義主要包括如下兩點(diǎn)。第一,可以使用大規(guī)模(甚至是全樣本)、細(xì)粒度、無干預(yù)的數(shù)據(jù)為理論提供新的測量方法和工具,定量化、科學(xué)化地揭示社會規(guī)律和事實(shí)。第二,在探索普遍性規(guī)律及變量之間可能的關(guān)聯(lián)關(guān)系的基礎(chǔ)上,啟發(fā)理論上基于因果機(jī)制的發(fā)現(xiàn)、提出命題,助益于后續(xù)更嚴(yán)格的建模和驗(yàn)證。

三基于大數(shù)據(jù)的驗(yàn)證性研究

目前大多數(shù)社會計(jì)算驅(qū)動的社會科學(xué)研究所得到的實(shí)際上只是描述與關(guān)聯(lián)關(guān)系,用這種關(guān)聯(lián)關(guān)系直接對社會現(xiàn)象進(jìn)行解釋是不可靠的,因?yàn)槌浞值慕忉尡仨毥⒃谝蚬P(guān)系的前提下。瓦茨曾分析了若干社會科學(xué)研究論文,指出大量的研究都把可解釋性和因果性混為一談,同時他對因果關(guān)系的驗(yàn)證也提出了更高的要求,即如果變量之間存在因果關(guān)系,那么同時應(yīng)具備高預(yù)測性,從而更好地用于政策干預(yù)(Watts,2014)。得益于大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,預(yù)測的效果被越來越多地用于結(jié)合因果計(jì)量模型,以共同驗(yàn)證社會科學(xué)的理論假設(shè),從而彌補(bǔ)了單單使用預(yù)測模型無法真正證明或者證偽理論假設(shè)的缺陷。事實(shí)上,關(guān)聯(lián)關(guān)系也可以用于預(yù)測,所以預(yù)測精度高對于因果關(guān)系的存在是必要而非充分的(Hempel & Oppenheim,1948)。另外,應(yīng)用預(yù)測方法也有很多局限性(Jasny & Stone,2017;周濤,2017)。因此,筆者倡導(dǎo)在使用預(yù)測模型得到結(jié)果后,仍需要結(jié)合可解釋人工智能方法,如SHAP(shapley additive explanations)(Lundberg & Lee,2017)等做出理論詮釋,進(jìn)一步通過假設(shè)演繹、使用因果模型/實(shí)驗(yàn)來做驗(yàn)證——這樣才是具有說服力的社會計(jì)算研究方法。

下面著重介紹一個基于高校學(xué)生校園行為的大數(shù)據(jù)研究學(xué)生行為和成績之間關(guān)系的案例(Cao et al.,2017)。回顧相關(guān)理論和實(shí)證研究。第一,生活規(guī)律的學(xué)生往往有更好的自控能力,而自控能力和成績表現(xiàn)是正相關(guān)的(Poropat,2009)。第二,更規(guī)律的生活,例如規(guī)律地吃飯、打熱水、洗澡等活動,往往意味著更好的健康狀況,而健康狀況與學(xué)生表現(xiàn)有直接的關(guān)系(Santana et al.,2017;Hoffmann et al.,2018)。實(shí)證表明,規(guī)律的吃飯行為與學(xué)業(yè)表現(xiàn)具有很強(qiáng)的相關(guān)性(Valladares et al.,2016)。尤其是吃早餐對于學(xué)生的認(rèn)知能力、心理健康和幸福感具有正向的影響。第三,社會發(fā)展理論表明學(xué)生習(xí)得行為就是來自其在社會化過程中個體行為以及與他人互動的一致性(Catalano et al.,2009),因此有規(guī)律的生活有助于個體的發(fā)展和增強(qiáng)其學(xué)校連結(jié)(school conneetedness)。而且,已有研究顯示,較強(qiáng)的學(xué)校連結(jié)有利于學(xué)生的健康,可以提高其學(xué)業(yè)表現(xiàn)(Basch,2011;Sampasa-Kanyinga & Hamilton,2017)。

因此我們形成了一個理論假設(shè):有規(guī)律的生活會正向影響學(xué)生成績。

筆者及其研究小組分析了中國某大學(xué)校園一卡通中18960名本科生的匿名數(shù)據(jù),覆蓋了五個學(xué)期,包括3380567次洗澡、20060881次吃飯、3466020次進(jìn)出圖書館和2305311次在教學(xué)樓打水的記錄等——這些也是第二部分強(qiáng)調(diào)的“自然數(shù)據(jù)”。筆者通過計(jì)算學(xué)生洗澡和吃飯時間的真實(shí)熵來定量刻畫生活的規(guī)律性。之所以采用真實(shí)熵而非香農(nóng)熵,是因?yàn)楹饬繉W(xué)生吃飯是否規(guī)律不僅要看時間分布是否集中,還要看是否有序,比如吃了早餐吃中餐再吃晚餐,第二天同樣吃早餐、中餐、晚餐,這是有規(guī)律的。而如果第一天吃了早餐不吃中餐,直接吃晚餐,第二天不吃早餐,吃中餐和晚餐,規(guī)律性相較于第一種情況有所降低。筆者用真實(shí)熵來度量集中度和周期性(Song et al.,2010;Xu et al.,2019),最終證明了假設(shè),即生活規(guī)律的程度和學(xué)生學(xué)習(xí)成績顯著相關(guān)(Cao et al.,2017)。

為排除其他因素的影響,筆者同時控制了其他行為指數(shù)(例如努力程度)對上述相關(guān)關(guān)系的影響,同時控制了單純的學(xué)生行為數(shù)據(jù)等變量,最終得到生活規(guī)律性仍然對學(xué)習(xí)成績有顯著影響并且可以顯著提升預(yù)測準(zhǔn)確率(Cao et al.,2019;Yao et al.,2019)。因此本案例展示從理論對話、提出假設(shè)、驗(yàn)證假設(shè)、穩(wěn)健性檢驗(yàn)的驗(yàn)證性研究過程,這一方法論已經(jīng)廣泛用于社會計(jì)算驅(qū)動的社會科學(xué)研究的方方面面,例如對勞動力市場的分析(張琳艷等,2015;Yuan et al.,2015)和家庭財(cái)富情況的分析(Blumenstock et al.,2015)等。

此外,大數(shù)據(jù)結(jié)合網(wǎng)絡(luò)動態(tài)模型可以為探索復(fù)雜系統(tǒng)理論的動態(tài)演化機(jī)制提供解決方案。風(fēng)險投資領(lǐng)域普遍存在的聯(lián)合投資現(xiàn)象可以給投資者帶來更廣闊的市場機(jī)會(Hochberg et al.,2010)和更高的市場聲望(Poldolny,2001;Milanov & Shephere,2013),幫助其抵御不確定的市場環(huán)境和投資風(fēng)險。中國風(fēng)險聯(lián)合投資中存在“主投—跟投”的現(xiàn)象,這些“主投”機(jī)構(gòu)一般為產(chǎn)業(yè)領(lǐng)袖。產(chǎn)業(yè)領(lǐng)袖會建立自己的圈子,圈子中存在其他跟投機(jī)構(gòu),這些產(chǎn)業(yè)領(lǐng)袖同時充當(dāng)著溝通不同圈子的“橋”的角色,導(dǎo)致小世界網(wǎng)絡(luò)結(jié)構(gòu)的形成。但不同圈子的其他跟隨者之間則存在很少的聯(lián)系,因此,這些產(chǎn)業(yè)領(lǐng)袖之間形成了一個互相聯(lián)系緊密的“精英俱樂部”。筆者對中國2000年到2013年風(fēng)險投資產(chǎn)業(yè)投資事件進(jìn)行整理,將兩個機(jī)構(gòu)在同一時間投資同一家公司的行為視為一次聯(lián)合投資,從而形成整個風(fēng)險投資產(chǎn)業(yè)的聯(lián)合投資網(wǎng)絡(luò)(Gu et al.,2019)。筆者基于社會網(wǎng)理論中伙伴選擇機(jī)制(partner-selection mechanism)和嵌入性理論(embedding theory)建立關(guān)于聯(lián)合投資網(wǎng)絡(luò)兩種嵌入性的合作策略——關(guān)系性嵌入和結(jié)構(gòu)性嵌入的假設(shè)(Granovetter,2017),使用基于多主體建模的方法,從網(wǎng)絡(luò)的初始情況出發(fā),預(yù)測網(wǎng)絡(luò)發(fā)展演化的過程。在與真實(shí)風(fēng)險投資網(wǎng)數(shù)據(jù)對比后發(fā)現(xiàn),與隨機(jī)選擇模型相比,這兩個機(jī)制下的模擬模型在全局和局部網(wǎng)絡(luò)特征方面更接近真實(shí)的風(fēng)險聯(lián)合投資網(wǎng)絡(luò),并隨時間變化,逐漸涌現(xiàn)出“精英俱樂部型小世界網(wǎng)絡(luò)”的結(jié)構(gòu)。該研究從大數(shù)據(jù)與基于多主體的模型為中國風(fēng)險投資聯(lián)合網(wǎng)絡(luò)結(jié)構(gòu)的涌現(xiàn)提供了理論上的解釋,屬于驗(yàn)證性研究,而過去調(diào)查問卷幾乎不可能收集這類長時段、多時間戳、全產(chǎn)業(yè)的社會網(wǎng)絡(luò)數(shù)據(jù)。由于大數(shù)據(jù)的積累,這類動態(tài)演化的問題才可以得到解釋。

在社會計(jì)算驅(qū)動的驗(yàn)證性研究中,無論是預(yù)測模型還是模擬模型,強(qiáng)調(diào)的都是使用大數(shù)據(jù)、利用因果模型或者理論指導(dǎo)下的模擬模型來驗(yàn)證因果關(guān)系和理論機(jī)制,最終獲得變量間因果關(guān)系上的可解釋性。

四大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)整合下的探索性研究

非結(jié)構(gòu)化大數(shù)據(jù)不能取代傳統(tǒng)的問卷調(diào)查或是檔案數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)。這兩類數(shù)據(jù)的整合一方面可以測量更豐富的理論構(gòu)念,增強(qiáng)理論發(fā)展、修正和探索,另一方面可以增強(qiáng)社會預(yù)測,助力社會治理,解決單一數(shù)據(jù)源不能解決的問題。

大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)整合可以推斷更多較難獲得的調(diào)查數(shù)據(jù)。大數(shù)據(jù)技術(shù)的發(fā)展讓我們有機(jī)會采集和處理與一個國家總?cè)丝谝?guī)模相當(dāng)(同一數(shù)量級)的數(shù)據(jù),例如Facebook、Twitter、微信、微博等社交媒體和智能手機(jī)覆蓋總?cè)丝谥姓紦?jù)相當(dāng)比例的用戶。因此,這類數(shù)據(jù)不再被看作是人口數(shù)據(jù)的一個小規(guī)模抽樣,而是可以直接表達(dá)總體的統(tǒng)計(jì)性質(zhì)。一方面,獲得這些大數(shù)據(jù)的成本遠(yuǎn)遠(yuǎn)低于經(jīng)濟(jì)或人口普查,但另一方面,這些在社交媒體和手機(jī)通信中表現(xiàn)出來的行為本身往往不能直接回答我們亟須了解的有關(guān)家庭收入、就業(yè)情況、身心健康等重要社會問題。

將社交媒體和手機(jī)通信大數(shù)據(jù)與部分社會調(diào)查數(shù)據(jù)相結(jié)合,可以為上述難題提供可行的解決方案。例如,當(dāng)我們需要分析大量個體的家庭收入時,就會面臨以下兩個方面的困難:一是很多較貧困的國家和地區(qū)不進(jìn)行全民經(jīng)濟(jì)普查,二是這類數(shù)據(jù)往往不輕易向科研機(jī)構(gòu)開放。在這種情況下,一方面,我們可以利用傳統(tǒng)問卷調(diào)查的方式獲得少量家庭收入的調(diào)查數(shù)據(jù),由于這部分?jǐn)?shù)據(jù)和研究問題非常相關(guān)且獲得成本較高,我們不妨稱其為“難獲得的直接數(shù)據(jù)”。另一方面,大量社交媒體和手機(jī)通信大數(shù)據(jù)可稱為“易獲得的間接數(shù)據(jù)”。當(dāng)二者結(jié)合,我們將“難獲得的直接數(shù)據(jù)” 作為扎根真相(ground truth),利用機(jī)器學(xué)習(xí)的方法,建立通過“易獲得的間接數(shù)據(jù)”來預(yù)測扎根真相的模型。先基于這些少量樣本訓(xùn)練優(yōu)化模型,待達(dá)到相當(dāng)精確度后,原則上就可以推論出所有“易獲得的間接數(shù)據(jù)”樣本的“難獲得的直接數(shù)據(jù)”,如使用社交媒體或智能手機(jī)用戶的家庭收入。盡管預(yù)測得到的數(shù)據(jù)不完全準(zhǔn)確,但是其精確度對于分析宏觀問題往往是足夠的。

布盧門施托克(Joshua Blumenstock)等人利用上述方法嘗試?yán)L制了盧旺達(dá)全國范圍的財(cái)富分布情況并識別最貧困的人口(Blumenstock et al.,2015;Blumenstock,2016;Steele et al.,2017)。通過和運(yùn)營商合作,該研究團(tuán)隊(duì)可以分析匿名處理后的盧旺達(dá)150萬手機(jī)用戶數(shù)十億次電話和短信的頻率數(shù)據(jù)。他們在盧旺達(dá)手機(jī)用戶中招募了856名志愿者,收集了這些人非常詳細(xì)的社會經(jīng)濟(jì)狀況的問卷調(diào)查數(shù)據(jù),內(nèi)容包括財(cái)產(chǎn)所有權(quán)、住宅特征、福利情況,等等。根據(jù)這些志愿者每人平均數(shù)千次電話和短信記錄,建立了機(jī)器學(xué)習(xí)模型,可以利用志愿者的手機(jī)記錄預(yù)測他們的財(cái)富指數(shù),預(yù)測得到的財(cái)富指數(shù)和真實(shí)財(cái)富指數(shù)之間的皮爾遜相關(guān)系數(shù)高達(dá)0.68。盡管預(yù)測數(shù)值和真實(shí)數(shù)值還存在不小的偏差,但這個預(yù)測模型能夠通過手機(jī)數(shù)據(jù)估計(jì)150萬盧旺達(dá)家庭的財(cái)富情況,并描繪覆蓋整個盧旺達(dá)的財(cái)富地圖和貧困人口分布圖。相比大規(guī)模的經(jīng)濟(jì)普查或問卷調(diào)查,這種“從間接數(shù)據(jù)推斷直接數(shù)據(jù)”方法的性價比在繪制地區(qū)經(jīng)濟(jì)狀況畫像和時事政策干預(yù)中具有顯著優(yōu)勢。

大數(shù)據(jù)與調(diào)查數(shù)據(jù)相結(jié)合的方法還可以進(jìn)一步修正或探索理論。鄧巴提出以功能劃分五種不同互動模式的理論——親族支持團(tuán)體、共情群體、共宿群體、社群或族系和部落群體(Dunbar,1993;Dunbar & Spoors,1995;Hill & Dunbar,2003;Zhou et al.,2005;Pollet et al.,2011)。黃光國提出了中國語境下的三種不同的社會關(guān)系行為原則(Hwang,1987)——需求法則、人情交換法則和公平法則?;诖耍P者嘗試探索關(guān)于中國人的人脈圈層到底可以劃分為幾層(羅家德等,2021;Gao et al.,2020)。筆者以問卷調(diào)查收集到的用戶之間的關(guān)系強(qiáng)度作為扎根真相,再從這些用戶在社交軟件中互動的電子印跡化數(shù)據(jù)整理出指標(biāo),結(jié)合扎根真相,建立五層、四層、三層探索性預(yù)測分類模型,輔以解釋模型,不斷尋找準(zhǔn)確率最高的劃分方式,從而得到最合適的圈層結(jié)構(gòu)。初步探索結(jié)果發(fā)現(xiàn),家人、親密熟人、一般熟人、認(rèn)識之人四層模型解釋力最強(qiáng),預(yù)測模型最逼近扎根真相。

綜上所述,融合大數(shù)據(jù)與社會調(diào)查的探索性或驗(yàn)證性研究主要強(qiáng)調(diào)的是使用大數(shù)據(jù)和預(yù)測模型來提出新的測量模型,建立基于理論構(gòu)念或需要通過問卷調(diào)查和定性訪談獲得的“扎根真相”,形成新的測量模型,從而通過易取得的大數(shù)據(jù)和預(yù)測模型去估計(jì)不易獲得的扎根真相的過程,最大限度地展現(xiàn)大數(shù)據(jù)與調(diào)查數(shù)據(jù)結(jié)合后的價值,解決各類社會科學(xué)問題,極大地滿足了社會治理、營銷等多個場景中對于獲得更具實(shí)時性、全局性、低成本性的扎根真相的應(yīng)用需求。

五基于大型互聯(lián)網(wǎng)實(shí)驗(yàn)的驗(yàn)證性研究

除了電子印跡收集到的“自然數(shù)據(jù)”以及與社會調(diào)查和結(jié)構(gòu)化數(shù)據(jù)整合得到的數(shù)據(jù)外,另外一種重要的大數(shù)據(jù)來源就是網(wǎng)絡(luò)實(shí)驗(yàn)收集的數(shù)據(jù)。這類數(shù)據(jù)具有規(guī)模較大、成本較低、代表性較高的特點(diǎn),為以實(shí)驗(yàn)為基礎(chǔ)的驗(yàn)證性研究帶來了新的機(jī)遇。

社會實(shí)驗(yàn)是在實(shí)驗(yàn)室的環(huán)境中抽象和模擬真實(shí)社會情景,并通過受試者在實(shí)驗(yàn)室中的反饋推斷真實(shí)人群的社會心理和社會行為的研究方法,也是最近半個世紀(jì)以來社會科學(xué)研究中被越來越多使用的手段之一。與觀察行為不同,研究人員開展實(shí)驗(yàn),以期系統(tǒng)性地干預(yù)世界,獲得因果性的驗(yàn)證(Salganik,2017)。在實(shí)驗(yàn)設(shè)計(jì)中,研究者可以設(shè)計(jì)隨機(jī)對照實(shí)驗(yàn)以排除混雜因素,這就要求研究者要先提出理論假設(shè),然后把假設(shè)轉(zhuǎn)化成研究設(shè)計(jì)。具體來說,包括設(shè)計(jì)實(shí)驗(yàn)方式、確定混雜因素、具體設(shè)計(jì)實(shí)驗(yàn)、招募參與者、隨機(jī)分組、實(shí)施干預(yù)、測量結(jié)果、驗(yàn)證假設(shè)、得出結(jié)論等步驟(陳曉萍等,2012)。因此,實(shí)驗(yàn)是一種嚴(yán)格以理論為指導(dǎo)的研究類型,是一種驗(yàn)證性研究。

雖然傳統(tǒng)的線下實(shí)驗(yàn)研究是因果研究中非常重要的研究范式,但也存在如下局限。第一,由于招募志愿者和實(shí)施實(shí)驗(yàn)的成本較高,因此受試者數(shù)量往往很少,由此造成統(tǒng)計(jì)顯著度和可信度降低。第二,為了節(jié)省成本和實(shí)施方便,很多研究人員直接在其工作的校園內(nèi)招募志愿者,這些被招募的學(xué)生并不能充分代表廣泛人群,因此實(shí)驗(yàn)結(jié)果的普適性常被質(zhì)疑。最近開放科學(xué)合作組織對100項(xiàng)心理學(xué)實(shí)驗(yàn)進(jìn)行了重復(fù),結(jié)果發(fā)現(xiàn),成功復(fù)現(xiàn)的實(shí)驗(yàn)還不到40%(Open Science Collaboration,2015)。盡管對于這個結(jié)論還存在爭議(Gilbert et al.,2016),但是目前越來越多的證據(jù)顯示小樣本的實(shí)驗(yàn)室心理行為研究的可信度遠(yuǎn)低于預(yù)期。

運(yùn)用互聯(lián)網(wǎng)的手段設(shè)計(jì)和實(shí)施大規(guī)模社會科學(xué)實(shí)驗(yàn)有望克服原有實(shí)驗(yàn)設(shè)計(jì)成本過高、樣本數(shù)量較少、樣本代表性不足等問題。例如,在米爾格拉姆(Stanley Milgram)著名的線下小世界實(shí)驗(yàn)中,其中一次,他讓受試將發(fā)出的296封信件通過熟人關(guān)系送達(dá)隨機(jī)選擇的千里之外的陌生人(Milgram,1967)。事實(shí)上只有64封信件送到了收件者手中,米爾格拉姆僅從這64封信件要經(jīng)歷多少次轉(zhuǎn)手中得到了著名的“六度分離”理論,即兩個陌生美國人之間只隔了五個中間的熟人就可以相互連接起來。與之相對,多德(Peter Dodds)等人利用互聯(lián)網(wǎng)上電子郵件重做了米爾格拉姆的實(shí)驗(yàn)(Dodds et al.,2003)。來自168個國家和地區(qū)的98865人參加了這次實(shí)驗(yàn),數(shù)據(jù)可信度和推論范圍遠(yuǎn)超過米爾格拉姆的線下實(shí)驗(yàn)。實(shí)驗(yàn)的結(jié)果顯示,在當(dāng)時普遍使用的互聯(lián)網(wǎng)通信網(wǎng)絡(luò)中,人們連接更加緊密,美國大陸的“六度分離”演變成世界范圍的“四度分離”。

另外一個具有代表性的利用大規(guī)?;ヂ?lián)網(wǎng)實(shí)驗(yàn)研究社會科學(xué)問題的工作是邦德(Robert Bond)等人針對美國議會大選做的涉及6100多萬人的政治動員實(shí)驗(yàn)(Bond et al.,2012)。他們假設(shè)個人的投票行為會受到朋友投票行為的影響。通過與Facebook合作,他們在2010年11月2日美國議會大選日當(dāng)天,以所有18歲以上登錄了Facebook網(wǎng)頁的用戶為實(shí)驗(yàn)對象并將其劃分為三類:(1)社會組——實(shí)驗(yàn)對象的Facebook頁面“新聞推薦”欄目的頂部會出現(xiàn)一個鼓勵用戶去投票的通告,并提供幫助用戶找到附近的投票站的鏈接。這個通告下面有一個寫著“我已經(jīng)投過票了”的按鈕,用戶通過點(diǎn)這個按鈕來表達(dá)政治選擇,該信息可以被Facebook好友獲取。此外,用戶還可以看到好友中已經(jīng)點(diǎn)了那個按鈕的數(shù)量,系統(tǒng)還會隨機(jī)展示6個報(bào)告投過票的朋友的頭像。(2)信息組——用戶除了看不到任何投過票朋友的頭像外,能夠得到和社會組完全相同的信息。(3)控制組——用戶在自己的Facebook主頁沒有收到任何相關(guān)信息。

這個研究最終發(fā)現(xiàn),社會組有20.04%的人會點(diǎn)擊“我已經(jīng)投過票了”按鈕,而信息組只有17.96%,相差2.08%。這證明了社會化的場景會大幅度提高人們政治表達(dá)的意愿。此外,通過對比真實(shí)的投票記錄來分析這些用戶是否真正會去投票,研究者發(fā)現(xiàn),社會組和信息組的真實(shí)投票率相同,都比沒有得到信息的用戶高0.39%,進(jìn)一步證明利用人際關(guān)系網(wǎng)絡(luò)的政治動員是有效果的。另外,社會組和信息組的真實(shí)投票率相同說明社會場景更多是讓人們愿意表達(dá)和分享,而不是立刻和直接地改變?nèi)说男袨椤?/p>

網(wǎng)絡(luò)大規(guī)模科學(xué)實(shí)驗(yàn)在很大程度上解決了傳統(tǒng)線下實(shí)驗(yàn)樣本量小、代表性不足等缺陷,也給社會科學(xué)理論中因果關(guān)系的驗(yàn)證帶來了很多機(jī)會。下面,筆者將簡要介紹幾個典型案例,以便讀者可以從中更加全面地了解這類研究的方法論優(yōu)勢。

2009年10月,美國國防高級研究計(jì)劃局(DARPA)組織了一個旨在探索“互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)如何在解決一個緊急的跨區(qū)域問題上發(fā)揮重要作用”的競賽,競賽的目標(biāo)是要參賽隊(duì)在最短的時間內(nèi)找到美國大陸上10個紅色的氣象氣球。與其他團(tuán)隊(duì)設(shè)置的只獎勵最后找到氣球的人的獎勵機(jī)制不同,麻省理工學(xué)院彭特蘭(Alex Pentland)等人基于Kleinberg-Raghavan機(jī)制(Kleinberg & Raghavan,2005)提出了一種層層遞推的激勵機(jī)制。參與者領(lǐng)取待解決的任務(wù)后,通過社交媒體或者其他方式找到自己朋友中可能會解決問題或者對解決問題有幫助的人參與進(jìn)來,最終形成一個鏈條。如果某個人A最終解決了問題,A是由B引入的,B是由C引入的,C是由D引入的,那么A、B、C、D共同分享獎金。彭特蘭小組利用這個機(jī)制的吸引力在比賽前就招募到了4400人幫助尋找氣球,最終也在正式比賽中以最短的時間找到了10個氣球,奪取了比賽的冠軍(Pickard et al.,2011)。這一實(shí)驗(yàn)獎勵機(jī)制也啟發(fā)了一系列后續(xù)研究(Li et al.,2017;顧勤、周濤,2021)。

另外一個是關(guān)于馬太效應(yīng)理論的網(wǎng)絡(luò)實(shí)驗(yàn)。薩爾加尼克等人(Salganik et al., 2006)利用互聯(lián)網(wǎng)招募了14341名青年志愿者參加一個音樂鑒賞任務(wù)。他們被要求對48首新歌進(jìn)行從優(yōu)到差的排序。這些人被分為9個組,其中控制組的志愿者看不到任何其他人的信息,其余志愿者被分為8個組,他們在評價歌曲的同時可以看到每一首歌被他們所在小組人員下載的次數(shù)。薩爾加尼克等人發(fā)現(xiàn),控制組不同歌曲下載的次數(shù)比較接近,但是另外8個組中歌曲下載次數(shù)的差異遠(yuǎn)遠(yuǎn)大于控制組,出現(xiàn)了“贏者通吃”的現(xiàn)象。這暗示了馬太效應(yīng)的存在:初始下載次數(shù)占優(yōu)的歌曲會影響其他志愿者下載,從而使得初始的差距被進(jìn)一步放大。在一個后續(xù)實(shí)驗(yàn)中,研究團(tuán)隊(duì)顛倒了受歡迎和不受歡迎的歌曲下載的初始排名,最終得到了完全不同的結(jié)果(Salganik & Watts,2008)。范德賴特(van de Rijt)研究小組做了另外一個揭示初始條件設(shè)置導(dǎo)致馬太效應(yīng)發(fā)生的網(wǎng)上實(shí)驗(yàn),并完整地觀察到這一過程(van de Rijt,2014)。他們在眾籌網(wǎng)站Kickstarter上隨機(jī)選擇了200個新的眾籌項(xiàng)目,這些項(xiàng)目被選擇時的籌款總額都是0美元。然后,研究組隨機(jī)選擇100個項(xiàng)目(控制組)不做任何操作,另外100個項(xiàng)目給一筆隨機(jī)選定額度的初始捐助。盡管在選擇要給哪些項(xiàng)目進(jìn)行初始捐助的時候研究組是盲目的,但是這些獲得了少量初始捐助的項(xiàng)目最終成功募集到所需資金的概率是另外100個控制組項(xiàng)目的兩倍,初始的24.52美元平均能吸引191美元的額外捐助。

綜上,實(shí)施大規(guī)?;ヂ?lián)網(wǎng)實(shí)驗(yàn)可以解決以往線下實(shí)驗(yàn)樣本量小、代表性不足等問題,從而通過較低的成本形成或驗(yàn)證以往無法驗(yàn)證的理論。

六基于大數(shù)據(jù)先探索后驗(yàn)證的整合研究

基于大數(shù)據(jù)或大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的整合數(shù)據(jù)還可以開展先探索后驗(yàn)證的整合性研究。一方面,探索性研究可以獲得定量化的社會現(xiàn)象之間可能的聯(lián)系的規(guī)律,在與理論對話中獲得對現(xiàn)象的解釋或提出待驗(yàn)證的理論命題。另一方面,驗(yàn)證性研究可以在已有命題的基礎(chǔ)上做出理論驗(yàn)證的研究設(shè)計(jì),提出假設(shè),用計(jì)量工具/實(shí)驗(yàn)來驗(yàn)證假設(shè)。這種整合性的研究兼具理論上的推論性和應(yīng)用上的可預(yù)測性。

筆者以組織管理中某大型互聯(lián)網(wǎng)公司中“影響團(tuán)隊(duì)創(chuàng)新能力的因素”為例來簡述這一過程(Luo & Gao,2021)。我們收集了該公司兩萬余名員工形成的三千多個團(tuán)隊(duì)從2014年到2018年的五年期資料。本案例采用的研究思路如下:第一,在探索性研究部分,回顧已有文獻(xiàn)中影響團(tuán)隊(duì)創(chuàng)新的因素,整合大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)并計(jì)算表征上述影響因素的指標(biāo),形成指標(biāo)體系,針對“團(tuán)隊(duì)是否具有高創(chuàng)新能力”這一問題建立預(yù)測模型,依據(jù)預(yù)測模型作可解釋機(jī)器學(xué)習(xí)模型(interpretable AI)分析,對特征重要性、特征之間的關(guān)系進(jìn)行詮釋。第二,在探索性研究啟發(fā)驗(yàn)證性研究部分,針對探索分析得到的、但已有理論未提供解釋的新的發(fā)現(xiàn),使用反溯推理(abductive reasoning)(Peirce,1893)提出假設(shè),驗(yàn)證假設(shè)并得出結(jié)論,從而對預(yù)測模型的黑箱作出進(jìn)一步解釋,由此完成先探索后驗(yàn)證的整合研究。

本案例數(shù)據(jù)來源主要有兩部分,一部分是全公司員工參與項(xiàng)目和培訓(xùn)課程的帶有時間戳的印記化記錄,包括其參加項(xiàng)目和課程名稱的文本,還包括團(tuán)隊(duì)內(nèi)面試官對新招聘員工擁有的知識和技能的評價文本等非結(jié)構(gòu)化數(shù)據(jù)。另一部分為這些團(tuán)隊(duì)的創(chuàng)新獎勵記錄、員工個人信息等結(jié)構(gòu)化數(shù)據(jù)。已有影響團(tuán)隊(duì)創(chuàng)新的因素主要包括:團(tuán)隊(duì)在合作網(wǎng)絡(luò)中的位置(團(tuán)隊(duì)對外獲取異質(zhì)知識、資源的能力)、知識與技能、團(tuán)隊(duì)內(nèi)網(wǎng)絡(luò)密度(團(tuán)隊(duì)內(nèi)成員的互動特征)、團(tuán)隊(duì)規(guī)模、團(tuán)隊(duì)成員組成(相似性和異質(zhì)性)等。因此筆者對團(tuán)隊(duì)創(chuàng)新能力、團(tuán)隊(duì)合作網(wǎng)絡(luò)位置以及員工知識進(jìn)行定義和測量,并從數(shù)據(jù)中得到相關(guān)的指標(biāo)。

為了測量團(tuán)隊(duì)在合作網(wǎng)絡(luò)中的位置,筆者根據(jù)員工參加項(xiàng)目記錄,將員工作為節(jié)點(diǎn),如果兩個員工在同一時間段共同參與同一個項(xiàng)目,則二者之間就形成了一條項(xiàng)目合作的連邊。由于員工本身嵌入在正式的團(tuán)隊(duì)中,最終可以形成嵌入在同一或不同“團(tuán)隊(duì)”中的員工與員工之間項(xiàng)目合作網(wǎng)絡(luò),進(jìn)而計(jì)算相關(guān)網(wǎng)絡(luò)指標(biāo)來表征團(tuán)隊(duì)在合作網(wǎng)絡(luò)中的位置以及團(tuán)隊(duì)內(nèi)的互動特征。

員工培訓(xùn)課程中的知識多樣性主要通過員工參加培訓(xùn)課程的記錄來計(jì)算。因?yàn)榕嘤?xùn)課程知識為文本數(shù)據(jù),需要通過人工標(biāo)注的方式對其中涉及的知識作分類,形成每一個團(tuán)隊(duì)中“員工—獲取知識分類”的矩陣,并使用信息熵計(jì)算團(tuán)隊(duì)中員工通過參加培訓(xùn)課程獲得知識的多樣性。

招聘員工知識的多樣性則基于面試官對新招聘員工知識和技能的評價文本,通過自然語言處理技術(shù),提取出新聘員工技能的實(shí)詞,再利用詞向量和詞嵌入的方法表示出文本特征。最終所有員工知識和技能點(diǎn)在嵌入空間中的平均距離即可表示出員工知識的多樣性。

通過對結(jié)構(gòu)化數(shù)據(jù)庫的分析,可以得到團(tuán)隊(duì)的創(chuàng)新能力、團(tuán)隊(duì)成員組成的性別、職級、工作類型多樣性,以及平均年齡、任期、團(tuán)隊(duì)規(guī)模等。

基于上述建立的指標(biāo)體系,隨機(jī)篩選50%的樣本建立針對“團(tuán)隊(duì)是否具備高創(chuàng)新能力”的預(yù)測模型,使用十折交叉驗(yàn)證的方法以保證結(jié)論的穩(wěn)健性,剩下50%的樣本用于后續(xù)驗(yàn)證性分析。以50%作為訓(xùn)練集,50%作為測試集建立預(yù)測模型,使用多種預(yù)測模型的實(shí)驗(yàn)中得到XGBoost預(yù)測模型準(zhǔn)確率最高,平均準(zhǔn)確率為76%。接下來作預(yù)測模型的可解釋AI分析,使用SHAP模型,對指標(biāo)重要性進(jìn)行排序并篩選重要指標(biāo),得到除團(tuán)隊(duì)成員構(gòu)成的其他指標(biāo)外,“參加培訓(xùn)課程知識多樣性”“合作網(wǎng)絡(luò)E-I指數(shù)”“新員工知識與上一年入職新員工知識差異”“團(tuán)隊(duì)內(nèi)合作網(wǎng)絡(luò)密度”(不分先后)這些指標(biāo)對于團(tuán)隊(duì)創(chuàng)新能力的提高影響最大。在此基礎(chǔ)上,筆者對這些變量之間的交互關(guān)系與團(tuán)隊(duì)高創(chuàng)新能力關(guān)系做了進(jìn)一步的探索,發(fā)現(xiàn)培訓(xùn)知識多樣性和新員工與上一年入職員工知識差異的交互作用有利于提高對團(tuán)隊(duì)創(chuàng)新能力的預(yù)測準(zhǔn)確率,而在已有理論中卻缺少知識和網(wǎng)絡(luò)之間的交互關(guān)系對團(tuán)隊(duì)創(chuàng)新能力影響的闡述。

綜上,在建立預(yù)測模型和可解釋模型的探索中,得到三個結(jié)論:(1)合作網(wǎng)絡(luò)對外開放程度對創(chuàng)新能力的積極效果(Burt,2004;Carnabuci & Diószegi, 2015)。(2)團(tuán)隊(duì)員工參加培訓(xùn)知識多樣性是影響創(chuàng)新的重要指標(biāo)(Tannenbaum & Yuki, 1992;Brown & Charliez, 2013)。(3)招聘知識多樣性高,或與上一年入職員工知識異質(zhì)性高的員工進(jìn)入團(tuán)隊(duì),可以為團(tuán)隊(duì)帶來更異質(zhì)的想法,增強(qiáng)團(tuán)隊(duì)創(chuàng)新能力。

針對上述幾個因素之間的交互關(guān)系對于團(tuán)隊(duì)創(chuàng)新能力的影響在已有理論中缺少解釋的現(xiàn)狀,啟發(fā)我們在理論上來進(jìn)行推理(reasoning),發(fā)展理論并開展驗(yàn)證性研究(Shrestha et al.,2021)?;诖?,在驗(yàn)證性分析部分,筆者提出并驗(yàn)證了團(tuán)隊(duì)在合作網(wǎng)絡(luò)中的位置和團(tuán)隊(duì)員工培訓(xùn)課程學(xué)習(xí)知識的多樣性分別受到新注入的知識的多樣性(即招聘知識與上一年入職員工知識的差異)的調(diào)節(jié),對提高團(tuán)隊(duì)創(chuàng)新產(chǎn)生積極的影響。

首先提出假設(shè)。由于在網(wǎng)絡(luò)中多樣化的知識對于創(chuàng)新的積極效果受到傳播過程異質(zhì)信息快速同質(zhì)化的影響,學(xué)習(xí)多樣化知識很難長期維持團(tuán)隊(duì)的高創(chuàng)新能力。而“注入”知識多樣性的員工會給網(wǎng)絡(luò)帶來一個積極的“震動”,改變團(tuán)隊(duì)在網(wǎng)絡(luò)中組織知識的方式,使得團(tuán)隊(duì)可以更好地利用網(wǎng)絡(luò)中異質(zhì)的結(jié)構(gòu)和內(nèi)容的創(chuàng)新優(yōu)勢,帶來更多的想法,改變已有成員的認(rèn)知結(jié)構(gòu)(Perretti et al.,2006),進(jìn)而調(diào)整成員固有的看待已有知識的方式,塑造他們新的認(rèn)知,為創(chuàng)新帶來新的活力。因此,我們提出了假設(shè)1。

假設(shè)1:新加入員工與上一年入職員工知識的差異正向調(diào)節(jié)團(tuán)隊(duì)培訓(xùn)知識多樣性對提高團(tuán)隊(duì)創(chuàng)新能力的正向影響。

一個團(tuán)隊(duì)中的員工有更多的團(tuán)隊(duì)外的合作者有利于團(tuán)隊(duì)成員與更多的不同工作模式和知識特征的團(tuán)隊(duì)進(jìn)行交流、資源共享,因此有助于團(tuán)隊(duì)創(chuàng)新。但是,由于長期穩(wěn)定合作的團(tuán)隊(duì)之間已深諳彼此交互的術(shù)語,這種例行的合作模式會導(dǎo)致團(tuán)隊(duì)之間在合作中變得僵化(Morrison,2002;Perretti & Negro,2006)。因此,團(tuán)隊(duì)中有新的成員加入,會對團(tuán)隊(duì)之間的合作者重新思考合作方式和互動模式產(chǎn)生影響。因此,筆者認(rèn)為,與已有成員相比,具有異質(zhì)知識的新成員的加入不僅會讓已有合作網(wǎng)絡(luò)中的成員重新思考他們與新成員的工作配合方式,舊的合作關(guān)系下的成員之間也會重新調(diào)整和思考他們合作的策略與模式。帶有異質(zhì)知識的新成員加入合作網(wǎng)絡(luò)會增強(qiáng)團(tuán)隊(duì)在跨團(tuán)隊(duì)合作網(wǎng)絡(luò)中的優(yōu)勢地位。因此提出假設(shè)2。

假設(shè)2:新的帶有異質(zhì)知識的員工的加入正向調(diào)節(jié)團(tuán)隊(duì)在合作網(wǎng)絡(luò)中的開放度(E-I指數(shù)來衡量,越大代表開放度越大)對團(tuán)隊(duì)創(chuàng)新的積極影響。

使用上述隨機(jī)劃分的剩余50%的數(shù)據(jù)集,筆者使用面板數(shù)據(jù)進(jìn)行回歸分析,得到在控制歷史創(chuàng)新能力和其他影響團(tuán)隊(duì)創(chuàng)新因素的基礎(chǔ)上,合作網(wǎng)絡(luò)E-I指數(shù)和新入職員工與上一年入職員工知識差異的交互作用對維持團(tuán)隊(duì)創(chuàng)新能力存在積極的效果(β=0.025,P<0.001),員工培訓(xùn)課程知識多樣性和新入職員工與上一年入職員工知識差異的交互作用同樣對維持團(tuán)隊(duì)創(chuàng)新能力存在積極的效果(β=0.019,0.001

綜上,第一階段探索性分析中二者之間的特征交互作用對團(tuán)隊(duì)創(chuàng)新能力影響的探索結(jié)果在理論上獲得了解釋,后續(xù)研究可以根據(jù)探索性分析得到的其他洞見來形成更多值得驗(yàn)證的理論假設(shè)。

通過對大數(shù)據(jù)的充分利用,本案例使用了綜合的、擴(kuò)展的測量指標(biāo),建立了具有較好預(yù)測準(zhǔn)確率的預(yù)測模型,對影響團(tuán)隊(duì)創(chuàng)新解釋機(jī)制做出了理論上的貢獻(xiàn)。同時,通過這個研究案例還可以看出,非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)的融合可以形成較大規(guī)模的樣本量,探索性和驗(yàn)證性研究中使用不同的數(shù)據(jù)集進(jìn)行探索和驗(yàn)證,避免使用同一批數(shù)據(jù)既做擬合又做驗(yàn)證,能夠在很大程度上檢驗(yàn)以往研究中理論可重復(fù)性低的問題(Nosek et al.,2015)。

以上案例展示了從探索性研究到驗(yàn)證性研究的一條演進(jìn)道路。此外,還有研究先基于理論假設(shè)作驗(yàn)證,再使用預(yù)測模型探索重要特征(Christoph et al.,2021),也有研究同時建立預(yù)測模型和可解釋模型,二者之間不斷對話,啟發(fā)理論創(chuàng)新。例如在2018年發(fā)表在《自然》雜志上的一篇文章(Awad et al.,2018)收集了223個國家4000萬參與者對于自動駕駛汽車決策選擇的數(shù)據(jù),通過探索性和驗(yàn)證性整合研究來啟發(fā)新的心理學(xué)理論,發(fā)現(xiàn)了以往忽略的自動駕駛汽車的一些倫理規(guī)范問題,例如人類決策過程的內(nèi)在沖突、人際沖突、倫理道德的文化差異等。在此基礎(chǔ)上,后續(xù)研究(Agrawal et al.,2020)使用該數(shù)據(jù)對預(yù)測模型和決策心理模型進(jìn)行了對話和相互的修正,針對預(yù)測模型和心理模型預(yù)測結(jié)果差異較大的樣本進(jìn)行分析,獲得在具體決策情境下,一些在心理模型中未被注意到的幾種因素的交互關(guān)系對決策的影響,啟發(fā)作者提出理論假設(shè)并做出實(shí)驗(yàn)驗(yàn)證,使得心理可解釋模型更加完善。最終得到了僅由22個參數(shù)組成的心理理論模型,相比于未考慮交互項(xiàng)但具有超過3000個參數(shù)的深度學(xué)習(xí)模型,該模型兼?zhèn)涓哳A(yù)測精度和可解釋性。正如魯?。–harles Rudin)所強(qiáng)調(diào)的,在高風(fēng)險決策中僅僅依靠預(yù)測模型及其特征重要性分析是非常危險的,應(yīng)該輔以嚴(yán)格的驗(yàn)證性分析,結(jié)論才具有可靠性和推論性(Rudin,2019)。

綜上,大數(shù)據(jù)(或與結(jié)構(gòu)化數(shù)據(jù)整合)的探索性和驗(yàn)證性相結(jié)合的研究可在理論解釋模型上提供新的洞見,具體包括:(1)獲得新的理論的測量指標(biāo)、測量方法,或者對原有缺少可解釋性的指標(biāo)進(jìn)行拆解或重新劃分。(2)獲得不同指標(biāo)之間的交互關(guān)系與因變量可能存在的因果關(guān)系。(3)獲得在社會治理、知識決策、政策干預(yù)上新的洞見和啟發(fā)。將這種探索性和驗(yàn)證性的研究綜合起來,可以獲得理論上的可解釋性和較高的預(yù)測性。

七總結(jié)與討論

融合大數(shù)據(jù)與社會科學(xué)理論的研究方法開始見諸學(xué)術(shù)期刊不過二十年左右的時間,大量的文章則在最近幾年才出現(xiàn)。相比社會科學(xué)漫長的歷史來說,社會計(jì)算驅(qū)動的社會科學(xué)研究方法論方興未艾,整體上來說還處于不斷摸索前進(jìn)的階段,本文主要在方法論上做了一個階段性小結(jié)。本文對社會科學(xué)理論的探索性研究、驗(yàn)證性研究以及數(shù)據(jù)取得的三種不同方法(收集電子印跡的大數(shù)據(jù)、整合大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)庫或問卷調(diào)查的數(shù)據(jù)以及互聯(lián)網(wǎng)實(shí)驗(yàn)數(shù)據(jù))劃分了五類研究方法,并對每一類研究方法給出了一個梗概的介紹。不排除將來還有更多的研究進(jìn)路被發(fā)現(xiàn)和使用。毋庸置疑的是,社會計(jì)算驅(qū)動的社會科學(xué)研究新方法論,深刻地改變了整個社會科學(xué)的理論發(fā)展與研究范式。

需要強(qiáng)調(diào)的是,與早期的大數(shù)據(jù)研究僅強(qiáng)調(diào)歸納而忽略因果、演繹推理不同,社會計(jì)算更多強(qiáng)調(diào)用理論指導(dǎo)計(jì)算機(jī)技術(shù)探索并解釋社會規(guī)律和模式,與社會學(xué)理論形成密切的對話,最終用于啟發(fā)、驗(yàn)證或修正理論。

當(dāng)然,如前文所述的方法還存在很多的缺陷和挑戰(zhàn),需要有志于此的學(xué)者作更多的貢獻(xiàn)。

首先,將社會計(jì)算研究用于政策干預(yù)和指導(dǎo)存在較大的挑戰(zhàn)。邦德等人研究中涉及6100萬人的實(shí)驗(yàn)并形成干預(yù),這類研究不僅僅立足于解釋和預(yù)測,更重要的目標(biāo)是達(dá)成有利于社會發(fā)展、降低不平等(Bond et al.,2012;Blumenstock,2016)的干預(yù),但此類研究還是鳳毛麟角。

其次,幾種研究方法可能帶來一系列法規(guī)、道德和倫理的問題,需要研究人員謹(jǐn)慎對待。大數(shù)據(jù)和人工智能的研究本身就帶來了一系列的科學(xué)倫理問題(Poldolny,2001)。具體來說,第一,要特別注意保護(hù)被分析對象的隱私。在使用“自然數(shù)據(jù)”時,一部分?jǐn)?shù)據(jù)并非來自公開網(wǎng)站(例如智能手機(jī)數(shù)據(jù)),一部分?jǐn)?shù)據(jù)雖然來自公開網(wǎng)站但不等于用戶希望別人看到自己被分析的結(jié)果——例如一個人愿意在Facebook上向好友公開他的信息,但不等于他愿意公開通過其Facebook數(shù)據(jù)預(yù)測到他罹患抑郁癥(de Choudhury et al.,2014)或者是男同性戀(Kosinski et al.,2013)的結(jié)論。雖然研究論文使用和報(bào)道的數(shù)據(jù)經(jīng)過匿名化處理,但是最近一些研究發(fā)現(xiàn)可以通過這些匿名數(shù)據(jù)反推到個體(de Montjoye et al.,2013,2015)。所以在報(bào)告研究結(jié)果和共享研究數(shù)據(jù)時要非常謹(jǐn)慎,避免其他研究人員通過技術(shù)手段反向識別數(shù)據(jù)對象的身份。第二,在開展互聯(lián)網(wǎng)實(shí)驗(yàn)時,有些時候?yàn)榱藢?shí)驗(yàn)效果,受試者并不知道自己處于實(shí)驗(yàn)環(huán)境下,研究人員必須充分評估實(shí)施實(shí)驗(yàn)對受試者的情緒和心理造成的影響。第三,對于分析結(jié)果和結(jié)論的公開也要謹(jǐn)慎。譬如數(shù)據(jù)分析和生物、物理實(shí)驗(yàn)可能會揭示不同種族的人群因?yàn)榛蚧蛘咂渌驅(qū)е碌闹橇?、體力和心理的差異,這些差異的公開可能反而會將弱勢群體置于更不利的位置。

結(jié)合本文所給出的幾種研究方法類型,在社會科學(xué)理論指導(dǎo)下的社會計(jì)算研究可總結(jié)為驗(yàn)證性研究和探索性研究,或是兩者的結(jié)合。固然在單一論文中這五類研究方法多是單獨(dú)使用的,但在系列研究中,探索性與驗(yàn)證性研究卻應(yīng)在如圖1所示的理論、數(shù)據(jù)挖掘和模型的三角對話中一輪又一輪地交互進(jìn)行。伴隨著理論、數(shù)據(jù)挖掘和模型的三角對話,這一過程中同時存在著演繹法和歸納法。

一方面,社會科學(xué)理論可以為大數(shù)據(jù)挖掘提供指導(dǎo),選擇更適合刻畫研究對象的指標(biāo),實(shí)例化或修正算法。另外,理論還可以為機(jī)器學(xué)習(xí)模型或者動態(tài)模擬模型的建立提供靈感或直接支持。得到模型后也需要繼續(xù)與理論進(jìn)行對話,判斷是否與已有理論一致,如果一致則為理論的驗(yàn)證,如果不一致則對模型進(jìn)行影響準(zhǔn)確率因素的分析,以不斷修正模型。

另一方面,隨著數(shù)據(jù)驅(qū)動的預(yù)測模型的建立,數(shù)據(jù)挖掘結(jié)果和機(jī)器學(xué)習(xí)模型同樣可以啟發(fā)探索新的理論方向,驗(yàn)證或挑戰(zhàn)已有理論。當(dāng)理論與機(jī)器學(xué)習(xí)模型不一致時,通過對模型作可解釋人工智能算法、定性調(diào)查、分錯誤樣本溯因,綜合判斷是否需要對理論進(jìn)行修正和重新闡述,可提出相應(yīng)的命題(Evans et al.,2020)。同樣,因數(shù)據(jù)驅(qū)動而建構(gòu)的模型后續(xù)還可繼續(xù)根據(jù)提出的命題來完成驗(yàn)證性研究。這些例子可以在本文第二部分和第四部分中找到。

ddf17540-6bd4-11ed-8abf-dac502259ad0.png

本文所討論的驗(yàn)證性研究可以粗略地分為三類。第一類是利用數(shù)據(jù)挖掘結(jié)果和機(jī)器學(xué)習(xí)或動態(tài)模擬模型,提供理論修正或重建洞見。這只是完成了弱模型(weak model)的建立,接下來可根據(jù)探索性研究提出的命題,繼續(xù)結(jié)合理論提出嚴(yán)格的理論假設(shè),再收集大數(shù)據(jù)、建立因果模型、驗(yàn)證假設(shè),最終得出更具推論性的結(jié)論。第二類是利用大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的整合進(jìn)行理論驗(yàn)證。結(jié)構(gòu)化數(shù)據(jù)庫或問卷調(diào)查可以提供扎根真相,因果模型可以驗(yàn)證理論假設(shè),大數(shù)據(jù)則可以測量和計(jì)算更多相關(guān)指標(biāo),從而極大地豐富傳統(tǒng)社會科學(xué)理論研究議題。第三類則是根據(jù)理論設(shè)計(jì)大規(guī)模互聯(lián)網(wǎng)實(shí)驗(yàn)。

如本文第四部分所描述的探索性研究案例,可以在一輪又一輪的三角對話中,與某一研究相關(guān)的各類型數(shù)據(jù)整合在一起,預(yù)測模型被建立且在修正中準(zhǔn)確度不斷提高,由此社會科學(xué)的理論可以得到更深入的發(fā)展。從探索性到驗(yàn)證性的完整研究在第六部分案例中有所展示。

很多學(xué)科都曾因?yàn)槔碚摵头椒ǖ耐黄贫a(chǎn)生重大轉(zhuǎn)折。這個轉(zhuǎn)折期往往群星璀璨,碩果累累。20世紀(jì)初期量子力學(xué)理論對物理學(xué)的影響、20世紀(jì)后期基因測序技術(shù)對生物學(xué)的影響就是非常典型的例子。筆者認(rèn)為,社會科學(xué)這一歷史悠久的學(xué)科正在因?yàn)榇髷?shù)據(jù)和人工智能技術(shù)的引入而經(jīng)歷一次重大的轉(zhuǎn)折。希望在可見的未來可以有更多新鮮的血液,在一個學(xué)科發(fā)生重大轉(zhuǎn)折的開始時期就注入進(jìn)來,從而將此一新方法深植在社會科學(xué)研究之中。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46333

    瀏覽量

    236498
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8831

    瀏覽量

    137137

原文標(biāo)題:社會計(jì)算驅(qū)動的社會科學(xué)研究方法

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    發(fā)展人工智能社會的利與弊?

    人工智能(AI)的發(fā)展對社會的影響是深遠(yuǎn)且復(fù)雜的,它如同一把雙刃劍,既帶來了前所未有的機(jī)遇和利益,也伴隨著一系列挑戰(zhàn)和風(fēng)險。 一、人工智能發(fā)展的利益 提高生產(chǎn)力和效率 人工智能可以自動
    的頭像 發(fā)表于 10-22 16:47 ?192次閱讀

    《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    、優(yōu)化等方面的應(yīng)用有了更清晰的認(rèn)識。特別是書中提到的基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的能源管理系統(tǒng),通過實(shí)時監(jiān)測和分析能源數(shù)據(jù),實(shí)現(xiàn)了能源的高效利用和智能化管理。 其次,第6章通過多個案例展示了人工智能
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    閱讀這一章后,我深感人工智能與生命科學(xué)的結(jié)合正引領(lǐng)著一場前所未有的科學(xué)革命,以下是我個人的讀后感: 1. 技術(shù)革新與生命科學(xué)進(jìn)步 這一章詳細(xì)闡述了人工智能如何通過其強(qiáng)大的數(shù)據(jù)處理和分析
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第一章人工智能驅(qū)動的科學(xué)創(chuàng)新學(xué)習(xí)心得

    ,還促進(jìn)了新理論、新技術(shù)的誕生。 3. 挑戰(zhàn)與機(jī)遇并存 盡管人工智能為科學(xué)創(chuàng)新帶來了巨大潛力,但第一章也誠實(shí)地討論了伴隨而來的挑戰(zhàn)。數(shù)據(jù)隱私、算法偏見、倫理道德等問題不容忽視。如何在利用AI提升科研效率
    發(fā)表于 10-14 09:12

    智能制造與人工智能的區(qū)別

    智能制造與人工智能在定義、技術(shù)組成、應(yīng)用領(lǐng)域以及發(fā)展重點(diǎn)等方面存在明顯的區(qū)別。
    的頭像 發(fā)表于 09-15 14:27 ?468次閱讀

    串口屏與人工智能結(jié)合

    著重要作用。而人工智能技術(shù)的融入,則為串口屏賦予了“智慧”的大腦,使其不僅能夠高效展示信息,還能進(jìn)行數(shù)據(jù)分析、智能決策,乃至實(shí)現(xiàn)更加人性化的人機(jī)交互。本文將深入探討串口屏如何與人工智能
    的頭像 發(fā)表于 08-16 12:29 ?1180次閱讀

    FPGA在人工智能中的應(yīng)用有哪些?

    定制化的硬件設(shè)計(jì),提高了硬件的靈活性和適應(yīng)性。 綜上所述,F(xiàn)PGA在人工智能領(lǐng)域的應(yīng)用前景廣闊,不僅可以用于深度學(xué)習(xí)的加速和云計(jì)算的加速,還可以針對特定應(yīng)用場景進(jìn)行定制化計(jì)算,為人工智能
    發(fā)表于 07-29 17:05

    計(jì)算機(jī)視覺與人工智能的關(guān)系是什么

    、交流等方面。計(jì)算機(jī)視覺與人工智能之間存在著密切的聯(lián)系,計(jì)算機(jī)視覺是人工智能的一個重要分支,也是實(shí)現(xiàn)人工智能的關(guān)鍵技術(shù)之一。
    的頭像 發(fā)表于 07-09 09:25 ?414次閱讀

    科達(dá)嘉電感器在大數(shù)據(jù)與人工智能領(lǐng)域被廣泛應(yīng)用

    近年來,大數(shù)據(jù)與人工智能成為科技領(lǐng)域的熱門話題。大數(shù)據(jù)人工智能提供了大量的數(shù)據(jù)作為輸入,使得人工智能算
    的頭像 發(fā)表于 02-29 13:56 ?425次閱讀

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 在新一輪科技革命與產(chǎn)業(yè)變革的時代背景下,嵌入式人工智能成為國家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級的核心驅(qū)動力。同時在此背景驅(qū)動下,眾多名企也紛紛在嵌入式人工智能領(lǐng)域布局
    發(fā)表于 02-26 10:17

    科達(dá)嘉電感器廣泛應(yīng)用于大數(shù)據(jù)人工智能領(lǐng)域?yàn)锳I賦能

    近年來,大數(shù)據(jù)與人工智能成為科技領(lǐng)域的熱門話題。大數(shù)據(jù)人工智能提供了大量的數(shù)據(jù)作為輸入,使得人工智能算
    的頭像 發(fā)表于 02-23 17:29 ?759次閱讀

    大數(shù)據(jù)與人工智能賦能精益生產(chǎn):掀起工業(yè)革命的浪潮!

    隨著科技的飛速發(fā)展,大數(shù)據(jù)人工智能已經(jīng)成為當(dāng)今社會的熱門話題。在這場科技革命中,大數(shù)據(jù)人工智能如何賦能精益生產(chǎn),引領(lǐng)工業(yè)革命的浪潮呢?
    的頭像 發(fā)表于 12-13 16:20 ?350次閱讀

    基于人工智能算法的推薦系統(tǒng)原理及優(yōu)勢

    推薦系統(tǒng)是一種人工智能人工智能算法,通常與機(jī)器學(xué)習(xí)相關(guān),使用大數(shù)據(jù)向消費(fèi)者建議或推薦其他產(chǎn)品。這些推薦可以基于各種標(biāo)準(zhǔn),包括過去的購買、搜索歷史記錄、人口統(tǒng)計(jì)信息和其他因素。推薦系統(tǒng)非常有用,因?yàn)樗鼈兛梢詭椭脩袅私庾约簾o法自
    發(fā)表于 11-20 11:40 ?2155次閱讀
    基于<b class='flag-5'>人工智能算法</b>的推薦系統(tǒng)原理及優(yōu)勢

    龍芯中科連續(xù)兩年為安徽省大數(shù)據(jù)與人工智能應(yīng)用競賽保駕護(hù)航

    近日,2023年安徽省大數(shù)據(jù)與人工智能應(yīng)用競賽人工智能賽道決賽(以下簡稱“大賽”)在安徽工業(yè)經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院圓滿落幕。
    的頭像 發(fā)表于 11-02 10:37 ?873次閱讀
    龍芯中科連續(xù)兩年為安徽省<b class='flag-5'>大數(shù)據(jù)</b><b class='flag-5'>與人工智能</b>應(yīng)用競賽保駕護(hù)航

    如何使單片機(jī)與無線供電結(jié)合,從而使人工智能脫離電池和線路?

    如何使單片機(jī)與無線供電結(jié)合,從而使人工智能脫離電池和線路
    發(fā)表于 10-31 06:34