0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

提供全域數(shù)據(jù)與服務(wù)的畫像標(biāo)簽體系

數(shù)據(jù)分析與開發(fā) ? 來源:一個數(shù)據(jù)人的自留地 ? 作者:一個數(shù)據(jù)人的自留 ? 2021-04-01 09:59 ? 次閱讀

阿里

為打破數(shù)據(jù)孤島,創(chuàng)造更大的數(shù)據(jù)價值,阿里設(shè)計(jì)了OneEntity來提供全域數(shù)據(jù)與服務(wù)。OneEntity體系主要包含統(tǒng)一實(shí)體、全域標(biāo)簽、全域關(guān)系、全域行為4大類。

894b45a6-9247-11eb-8b86-12bb97331649.png

01

標(biāo)簽分類

其中GProfile全域標(biāo)簽的分類,將“人”的立體刻畫劃分為“人的核心屬性”和“人的向往與需求”2大部分,具體包含4大類:

人的核心屬性,可分為自然屬性、社會屬性。

-自然屬性:是指人的肉體存在及其特征,是人自出生后自然存在的,一般不會因人為因素發(fā)生較大的改變。例如“性別”“生肖”“年齡”“身高”“體重”等。

-社會屬性:指人在實(shí)踐活動基礎(chǔ)上產(chǎn)生的一切社會關(guān)系的總和。人一旦進(jìn)入社會就會產(chǎn)生社會屬性。例如經(jīng)濟(jì)狀況、家庭狀況、社會地位、政治宗教、地理位置、價值觀等。

人的向往與需求,可分為興趣偏好、行為消費(fèi)偏好。

-興趣偏好:是人堆非物化對象的內(nèi)在心理向往與外在行為表達(dá),是一種法子內(nèi)心的本能喜好,與物質(zhì)無必然關(guān)系。例如渴望愛情、需要安全感、討厭臟亂環(huán)境等。

-行為消費(fèi)偏好:是人對物化對象的需求與外在行為表達(dá),涉及各行業(yè),與物質(zhì)世界存在千絲萬縷的聯(lián)系。例如母嬰行業(yè)偏好、美妝行業(yè)偏好、洗護(hù)行業(yè)偏好、家裝行業(yè)偏好等。

在以上四大類的基礎(chǔ)上,我們又嘗試根據(jù)不同的業(yè)務(wù)形態(tài)進(jìn)一步細(xì)分二級、三級分類。

02

標(biāo)簽萃取

標(biāo)簽的萃取工作包含:數(shù)據(jù)采集;清洗,去噪聲并統(tǒng)一;反復(fù)試用并確定最佳算法及模型;為模型選擇計(jì)算因子并對模型中的每一個計(jì)算因子調(diào)配權(quán)重;產(chǎn)出標(biāo)簽質(zhì)量評估報告以輔助驗(yàn)收。

我們隨機(jī)抽查了若干個在用的標(biāo)簽,預(yù)估工作量和工作周期,一個有價值的標(biāo)簽的萃取,平均耗時2周。

慢的主要原因,一是由于萃取流程復(fù)雜,每個標(biāo)簽萃取都依賴底層的基礎(chǔ)數(shù)據(jù),而較少依賴上一層匯總的數(shù)據(jù)中間層數(shù)據(jù);二是大量重復(fù)的人力,對應(yīng)的標(biāo)簽萃取邏輯時可以復(fù)用的,包含算法的選擇、模型訓(xùn)練和計(jì)算因子的加權(quán)等,但由于不同人來做,造成了很多重復(fù)工作。

標(biāo)簽萃取過程復(fù)雜,那有什么可以參考的流程呢?

89b4ccf6-9247-11eb-8b86-12bb97331649.png

首先,數(shù)據(jù)源層面:建設(shè)一套完整的數(shù)據(jù)源,以O(shè)neEntity體系為核心,將OneEntity相關(guān)實(shí)體及其行為全部串聯(lián)起來,與存量的標(biāo)簽一起作為數(shù)據(jù)源。

其次,標(biāo)簽計(jì)算層面:將標(biāo)簽萃取邏輯沉淀為2種,分別對應(yīng)到偏好類標(biāo)簽和分類預(yù)測類標(biāo)簽的工具型產(chǎn)品的生產(chǎn)過程中,包含計(jì)算因子、權(quán)重等業(yè)務(wù)規(guī)則、數(shù)據(jù)樣本選擇、模型與算法選擇等。

最后,標(biāo)簽監(jiān)測層面:沉淀質(zhì)量評估報告和生產(chǎn)監(jiān)測、上線等管理流程。

當(dāng)一整套工具型產(chǎn)品上線之后,批量生產(chǎn)十幾個同類型標(biāo)簽只需要2天左右,這是因?yàn)樵谘a(bǔ)足數(shù)據(jù)源、確定業(yè)務(wù)規(guī)則、選擇數(shù)據(jù)樣本、選擇算法與模型的過程中,減少了大量的代碼開發(fā)與模型訓(xùn)練的工作。

在這個過程中,參與的角色也發(fā)生了變化,從原本的以數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)倉工程師、數(shù)據(jù)科學(xué)家為主導(dǎo),轉(zhuǎn)變?yōu)閷I(yè)務(wù)更為熟悉的業(yè)務(wù)人員、數(shù)據(jù)分析師為主導(dǎo)。

2

網(wǎng)易

網(wǎng)易大數(shù)據(jù)融合用戶娛樂、電商購物、教育、新聞資訊、通訊等多行業(yè)10+產(chǎn)品線,構(gòu)建起全域用戶畫像數(shù)據(jù),目前總標(biāo)簽1000+,ID量URS、phone、idfa、IMEI、oaid等均達(dá)到憶級。

01

標(biāo)簽分類

1.基礎(chǔ)標(biāo)簽:

性別、年齡、教育背景、生活習(xí)慣(早起晚起)、地理位置(POI信息)、職業(yè)狀況、經(jīng)濟(jì)情況(有車有房)、設(shè)備信息(手機(jī)、運(yùn)營商等)、會員信息(會員等級)、衍生信息。

其中衍生標(biāo)簽,如評估是否已婚,在原由標(biāo)簽體系下沒有此類標(biāo)簽,但可通過多個標(biāo)簽進(jìn)行組合生成新的標(biāo)簽,包含是否有小孩、30歲等條件組合。

89c4214c-9247-11eb-8b86-12bb97331649.jpg

2. 行為標(biāo)簽

包含地域、廣告、搜過、播放、點(diǎn)擊、評論、關(guān)注、收藏、購買等維度。

3. 偏好標(biāo)簽

包含出行購物、手機(jī)數(shù)碼、家裝家居、教育公益、文化娛樂、新聞資訊、金融理財、游戲競技、動漫影視、明星藝人等維度

4. 預(yù)測標(biāo)簽

包含利用算法進(jìn)行預(yù)測生成的標(biāo)簽,包含是否出行、是否買車等標(biāo)簽。

注意:

1. 標(biāo)簽的枚舉值十分重要,業(yè)務(wù)分析過程中很容易出現(xiàn)枚舉值的偏差,不符合實(shí)際業(yè)務(wù)邏輯

2. 注意標(biāo)簽之間的沖突,如年齡15歲,學(xué)歷卻是博士或者有小孩

02

標(biāo)簽計(jì)算

預(yù)測類標(biāo)簽案例:性別,主要包含三種方案:

1. 標(biāo)簽傳播:根據(jù)用戶在各個業(yè)務(wù)場景,如母嬰商品點(diǎn)擊行為,進(jìn)行item標(biāo)記,構(gòu)建user-item的興趣網(wǎng)絡(luò)進(jìn)行 Graph Embedding,最后進(jìn)行分類,預(yù)測用戶的性別。

2. 語義分析:利用NLP算法對用戶昵稱進(jìn)行語義分析

3. 自行填寫:利用業(yè)務(wù)屬性自行填寫的內(nèi)容進(jìn)行判斷,此處需對數(shù)據(jù)質(zhì)量進(jìn)行過濾,排除如生日為1990-01-01的參數(shù)異常值信息。

89d8dccc-9247-11eb-8b86-12bb97331649.jpg

基于上述三類算法特征結(jié)果集,對模型進(jìn)行融合,然后對用戶的性別進(jìn)行預(yù)測,其準(zhǔn)確率在0.6以上。

注意:需要突破的地方在于特征的稀疏性,因?yàn)镮D-mapping打通后,數(shù)據(jù)覆蓋率僅20%左右,嚴(yán)重影響了模型的整體效果。

3

汽車之家

用戶畫像的構(gòu)建就是把用戶標(biāo)簽分列到不同的類里面,這些類都是什么,彼此之間的聯(lián)系,就構(gòu)成了標(biāo)簽體系。

01

按用途分類

1.人口屬性:用戶自然屬性、用戶會員、用戶所屬年代、用戶價值登記、是否增換購用戶、用戶分群、UVN-B用戶分群、用戶分層、用戶流失預(yù)警

89e2b422-9247-11eb-8b86-12bb97331649.png

2.網(wǎng)絡(luò)屬性:用戶APP設(shè)備信息、用戶PC設(shè)備信息、用戶活躍時段、用戶平臺偏好、用戶活躍類型

3.內(nèi)容興趣偏好:業(yè)務(wù)類型偏好、內(nèi)容分類標(biāo)簽、用戶關(guān)注作者偏好、用戶產(chǎn)品偏好、用戶顯式負(fù)反饋、用戶論壇偏好、車友圈偏好、用戶興趣欄目

4.車興趣偏好 :用戶短期興趣車偏好、用戶興趣車偏好、配置偏好、用戶顏色偏好、用戶購車目的、用戶置換偏好、用戶推薦有車、二手車用戶偏好、用戶購車意向、用戶新舊偏好、用戶購車階段、用戶有車標(biāo)簽、用戶興趣集中度、用戶能源偏好、用戶生產(chǎn)方式偏好

5.金融畫像:分期購車意向度、用戶購買力、二手車用戶購買力、用戶汽車價格偏好、用戶經(jīng)濟(jì)屬性、增換購用戶預(yù)測線索

6.場景畫像:用戶地理位置

02

按統(tǒng)計(jì)方式分類

1.統(tǒng)計(jì)類標(biāo)簽

統(tǒng)計(jì)類標(biāo)簽,通過業(yè)務(wù)規(guī)則,將業(yè)務(wù)問題轉(zhuǎn)化為數(shù)據(jù)口徑實(shí)現(xiàn)。如收藏列表、 搜索關(guān)鍵詞、保險到期時間、是否下過線索、30天內(nèi)訪問xx次等。

2.興趣類標(biāo)簽

興趣類標(biāo)簽,基于興趣遷移模型構(gòu)建用戶標(biāo)簽。綜合考慮特征、特征權(quán)重、距今時間、行為次數(shù)等因素,用戶興趣標(biāo)簽構(gòu)建公式如下:

用戶興趣標(biāo)簽=行為類型權(quán)重*時間衰減*行為次數(shù)

-特征:需要結(jié)合業(yè)務(wù)選擇,如瀏覽、搜索、線索、對比、互動、點(diǎn)擊、有車等行為。

-權(quán)重:用戶在平臺上發(fā)生的行為具體到用戶標(biāo)簽層面有著不同的行為權(quán)重,一般而言,行為發(fā)生的成本越高,權(quán)重越大??梢杂蓸I(yè)務(wù)人員確定,也可以采用TF-IDF技術(shù)分析得出。

-時間衰減:用戶行為收時間的影響不斷衰減,距離現(xiàn)在越遠(yuǎn),對用戶興趣的影響越低,這里采用牛頓冷卻定律的思想擬合衰減系數(shù),衰減周期結(jié)合業(yè)務(wù)制定。

-行為次數(shù):在固定時間周期內(nèi)行為發(fā)生的次數(shù)越多,興趣傾向越重。

3.模型類標(biāo)簽

基于機(jī)器學(xué)習(xí)方法進(jìn)行數(shù)據(jù)建模預(yù)測用戶的標(biāo)簽,這類標(biāo)簽在標(biāo)簽體系中占比較少,其實(shí)現(xiàn)難度高,開發(fā)成本高。

例如:

-是否有車:基于RF+LR模型實(shí)現(xiàn)

-常駐地:基于GPS聚類獲取,采用DBSCAN

-購車轉(zhuǎn)化:GBDT

-用戶分群:KMENAS聚類產(chǎn)生

03

按時效分類

從數(shù)據(jù)時效上,可分為離線畫像和實(shí)時畫像。離線與實(shí)時采用的構(gòu)建思想相同,不同之處在于:

-離線畫像:描述用戶長期的習(xí)慣;

-實(shí)時畫像:描述用戶當(dāng)下的興趣,會隨時間的改變而發(fā)生變更;

總結(jié)

各大公司的標(biāo)簽分類不同,現(xiàn)市面上有三種常用的標(biāo)簽分類方式,按用途分類,可分為基礎(chǔ)信息、用戶行為、業(yè)務(wù)偏好、場景標(biāo)簽;按統(tǒng)計(jì)方式分類,可分為事實(shí)類標(biāo)簽、規(guī)則類標(biāo)簽、預(yù)測類標(biāo)簽;按時效分類,可分為靜態(tài)標(biāo)簽、動態(tài)標(biāo)簽。

原文標(biāo)題:干貨:阿里/網(wǎng)易/汽車之家畫像標(biāo)簽體系

文章出處:【微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:干貨:阿里/網(wǎng)易/汽車之家畫像標(biāo)簽體系

文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    華為云全域 Serverless 8 月更新盤點(diǎn)

    【摘要】 近年來,華為云持續(xù)構(gòu)筑全域 Serverless 云服務(wù),推出了一系列競爭力領(lǐng)先的 Serverless 產(chǎn)品,包括函數(shù)工作流 FunctionGraph、Serverless 容器引擎
    的頭像 發(fā)表于 09-27 00:06 ?372次閱讀
    華為云<b class='flag-5'>全域</b> Serverless 8 月更新盤點(diǎn)

    軟通動力數(shù)據(jù)庫全棧服務(wù),助力企業(yè)數(shù)據(jù)體系全面升級

    。在企業(yè)節(jié)與"數(shù)博會"展區(qū),軟通動力受邀分享數(shù)據(jù)庫專業(yè)服務(wù)全棧解決方案,并重點(diǎn)展示以全棧云服務(wù)為核心的數(shù)智化能力。 軟通動力高級數(shù)據(jù)服務(wù)
    的頭像 發(fā)表于 09-05 15:30 ?249次閱讀
    軟通動力<b class='flag-5'>數(shù)據(jù)</b>庫全棧<b class='flag-5'>服務(wù)</b>,助力企業(yè)<b class='flag-5'>數(shù)據(jù)</b>庫<b class='flag-5'>體系</b>全面升級

    IP風(fēng)險畫像如何維護(hù)網(wǎng)絡(luò)安全

    的重要工具。 什么是IP風(fēng)險畫像? IP風(fēng)險畫像是一種基于大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)的網(wǎng)絡(luò)安全管理工具。它通過對IP地址的網(wǎng)絡(luò)行為、流量特征、歷史記錄等多維度數(shù)據(jù)進(jìn)行深入分析,構(gòu)建出每個
    的頭像 發(fā)表于 09-04 14:43 ?203次閱讀

    服務(wù)提供商數(shù)據(jù)在精確定位中的應(yīng)用

    我們在網(wǎng)絡(luò)連接和數(shù)據(jù)傳輸時通過利用ISP提供數(shù)據(jù),可以實(shí)現(xiàn)對用戶和設(shè)備的精確定位。接下來我將就ISP數(shù)據(jù)在精確定位中的應(yīng)用進(jìn)行闡述。 ISP數(shù)據(jù)
    的頭像 發(fā)表于 07-18 11:18 ?267次閱讀

    服務(wù)體驗(yàn)-服務(wù)發(fā)現(xiàn)

    :用戶在 HarmonyOS Connect標(biāo)簽的支持下,用戶也可以通過碰一碰、靠近或掃一掃該標(biāo)簽,發(fā)現(xiàn)并使用元服務(wù)。 本材料整理來源于HarmonyOS NEXT Developer Beta1
    發(fā)表于 07-15 17:02

    云安全服務(wù)體系由哪五部分組成

    云安全服務(wù)體系是一個復(fù)雜的系統(tǒng),它包括多個組成部分,以確保云環(huán)境中的數(shù)據(jù)和應(yīng)用程序的安全。以下是云安全服務(wù)體系的五個主要部分: 云安全策略和合規(guī)性 云安全策略是確保云環(huán)境安全的基石。這包括定義安全
    的頭像 發(fā)表于 07-02 09:24 ?377次閱讀

    工業(yè)互聯(lián)網(wǎng)三大體系是什么?

    、工業(yè)產(chǎn)品和工業(yè)服務(wù),形成了全面覆蓋生產(chǎn)和管理各環(huán)節(jié)的智能化“血液循環(huán)系統(tǒng)”。 2. 平臺體系:平臺體系是工業(yè)互聯(lián)網(wǎng)的核心,它主要負(fù)責(zé)數(shù)據(jù)的集成、管理和分析。通過平臺
    的頭像 發(fā)表于 05-25 14:03 ?862次閱讀

    海辰儲能榮獲NECAS、CTEAS售后服務(wù)體系雙項(xiàng)權(quán)威認(rèn)證

    近日,憑借完善、專業(yè)的售后服務(wù)體系,經(jīng)過嚴(yán)格審核,海辰儲能順利通過NECAS、CTEAS雙體系權(quán)威認(rèn)證,榮獲“NECAS全國商品售后服務(wù)達(dá)標(biāo)認(rèn)證五星級”和“CTEAS售后服務(wù)體系完善程
    的頭像 發(fā)表于 02-29 11:10 ?1986次閱讀
    海辰儲能榮獲NECAS、CTEAS售后<b class='flag-5'>服務(wù)體系</b>雙項(xiàng)權(quán)威認(rèn)證

    PLC通過智能網(wǎng)關(guān),與OPCUA服務(wù)端通訊,實(shí)現(xiàn)標(biāo)簽數(shù)據(jù)讀寫

    標(biāo)簽后,點(diǎn)右上角的‘添加到數(shù)據(jù)表’,如下圖: 智能網(wǎng)關(guān)IGT-DSER還支持將OPCUA服務(wù)端的數(shù)據(jù)發(fā)送到到西門子的S7-1200/1500、三菱Q/L系列、R系列、FX5系列,以及M
    發(fā)表于 01-02 16:41

    凱米斯科技提供高效優(yōu)質(zhì)的運(yùn)維服務(wù)

    、標(biāo)準(zhǔn)化管理和強(qiáng)大的技術(shù)支持等方面,這些特點(diǎn)使得凱米斯能夠?yàn)榭蛻?b class='flag-5'>提供快速高效優(yōu)質(zhì)的運(yùn)維服務(wù)。凱米斯運(yùn)維管養(yǎng)服務(wù)六大體系保障數(shù)據(jù)監(jiān)測質(zhì)量1.人
    的頭像 發(fā)表于 12-27 08:12 ?384次閱讀
    凱米斯科技<b class='flag-5'>提供</b>高效優(yōu)質(zhì)的運(yùn)維<b class='flag-5'>服務(wù)</b>

    水下PNT體系信息架構(gòu)及關(guān)鍵問題

    -8]。因此,構(gòu)建水下PNT體系,為水下載體提供全時全域、實(shí)用有效、安全可靠的PNT信息服務(wù), 滿足不斷增長的國家安全、經(jīng)濟(jì)、民用、科研和商業(yè)的需要[9-12],就顯得尤為迫切。
    的頭像 發(fā)表于 12-10 09:52 ?1122次閱讀
    水下PNT<b class='flag-5'>體系</b>信息架構(gòu)及關(guān)鍵問題

    基于客戶感知識別的管理體系創(chuàng)新

    完善客戶感知畫像,識別管理“中樞神經(jīng)”。結(jié)合客戶歷史投訴點(diǎn)位,利用網(wǎng)絡(luò)面數(shù)據(jù)、客戶面數(shù)據(jù),運(yùn)用神經(jīng)網(wǎng)絡(luò)算法,將客戶感知、投訴和現(xiàn)網(wǎng)的KPI/KQI建立聯(lián)系,形成客戶感知畫像
    的頭像 發(fā)表于 12-08 16:36 ?519次閱讀

    zookeeper主要提供什么服務(wù)

    Zookeeper是開源的一種分布式協(xié)調(diào)服務(wù),它為分布式系統(tǒng)提供一致性、可靠性、高性能的分布式協(xié)調(diào)服務(wù),主要用于解決分布式系統(tǒng)中的數(shù)據(jù)一致性問題。Zookeeper可以被看作是一個分布
    的頭像 發(fā)表于 12-04 10:34 ?875次閱讀

    RFID電子標(biāo)簽大概多少錢 如何挑選RFID標(biāo)簽

    RFID電子標(biāo)簽是一種利用射頻技術(shù)進(jìn)行自動識別的電子標(biāo)簽,它通過無線電波通信,實(shí)現(xiàn)快速、遠(yuǎn)距離、非接觸式的自動識別和數(shù)據(jù)交換。RFID標(biāo)簽通常由電子芯片和天線組成,天線在
    的頭像 發(fā)表于 11-28 16:28 ?2020次閱讀
    RFID電子<b class='flag-5'>標(biāo)簽</b>大概多少錢 如何挑選RFID<b class='flag-5'>標(biāo)簽</b>

    服務(wù)商一般提供的存儲服務(wù)有哪些

    服務(wù)商一般提供的存儲服務(wù)有很多,包括以下幾種: 對象存儲服務(wù):對象存儲服務(wù)是云服務(wù)
    的頭像 發(fā)表于 11-17 09:51 ?2393次閱讀