亚洲a∨无码精品色午夜,四虎永久在线精品视频,少妇丰满大乳被男人揉捏视频,熟女少妇丰满一区二区,少妇无码av无码专区在线观看

推廣 熱搜: 湖北  加油站  山東  滿意度  汽車  就業(yè)質(zhì)量  大數(shù)據(jù)  移動(dòng)  重慶  房地產(chǎn) 

北京大學(xué):2015年社交網(wǎng)絡(luò)數(shù)據(jù)分析與應(yīng)用

日期:2015-10-12     瀏覽:727    下載:5     體積:1M     評(píng)論:0    

Notice: Undefined variable: description in D:\websoft\www\diaoyan\wwwroot\file\cache\tpl\default\chip\content.php on line 161












 周靜、朱雪寧

北京大學(xué)光華管理學(xué)院營銷系、商務(wù)統(tǒng)計(jì)與經(jīng)濟(jì)計(jì)量系

根據(jù)最近的一份調(diào)查數(shù)據(jù)顯示,美國互聯(lián)網(wǎng)媒體的市值已達(dá)10890億美元,是傳統(tǒng)媒體的3倍,類似的在中國,根據(jù)艾瑞咨詢發(fā)布的2014年第二季度網(wǎng)絡(luò)經(jīng)濟(jì)核心數(shù)據(jù)顯示,截止2014年6月30日,中國主要上市互聯(lián)網(wǎng)公司市值前五的為騰訊(1405.6億美元)、百度(654.5億美元)、京東(389.7億美元)、奇虎360(120.9億美元)、唯品會(huì)(111.9億美元)。與此同時(shí),以Facebook,Twitter,微博,微信等為代表的社交網(wǎng)絡(luò)應(yīng)用正蓬勃發(fā)展,開啟了互聯(lián)網(wǎng)時(shí)代的社交概念。據(jù)全球最大的社會(huì)化媒體傳播咨詢公司W(wǎng)e Are Very Social Limited分析指出,目前社交類軟件使用的人數(shù)已達(dá)25億——占世界總?cè)藬?shù)約的35%,另據(jù)艾瑞咨詢發(fā)布的2014年第二季度社區(qū)交友數(shù)據(jù)顯示,2014年5月,社區(qū)交友類服務(wù)月度覆蓋人數(shù)達(dá)到4.7億,在總體網(wǎng)民中滲透率為92.5%;2014年5月社交服務(wù)在移動(dòng)App端月度覆蓋人數(shù)為1.9億人,其中微博服務(wù)在移動(dòng)端優(yōu)勢(shì)較為明顯,月度覆蓋人數(shù)達(dá)到1.1億人;互聯(lián)網(wǎng)媒體和社交網(wǎng)絡(luò)是Web2.0時(shí)代兩個(gè)非常重要的應(yīng)用,那么一個(gè)自然的問題是這兩個(gè)領(lǐng)域?qū)?huì)如何互動(dòng)發(fā)展?本報(bào)告主要從數(shù)據(jù)分析(非財(cái)務(wù)、非戰(zhàn)略)的角度嘗試探討網(wǎng)絡(luò)結(jié)構(gòu)會(huì)給互聯(lián)網(wǎng)媒體帶來什么樣的機(jī)遇和挑戰(zhàn)。具體而言,我們根據(jù)自己的研究經(jīng)驗(yàn)只關(guān)注以下幾個(gè)方面:新聞、影音和搜索,根據(jù)艾瑞咨詢發(fā)布的2013網(wǎng)絡(luò)經(jīng)濟(jì)核心數(shù)據(jù)顯示,這三部分的收入占到中國市值TOP20互聯(lián)網(wǎng)企業(yè)總市值的32.16%,其重要性不可忽視。我們通過具體的案例并結(jié)合理論前沿做探索性的研討。

一、音樂推薦

根據(jù)《2013中國網(wǎng)絡(luò)音樂市場(chǎng)年度報(bào)告》顯示,2013年底,我國網(wǎng)絡(luò)音樂用戶規(guī)模達(dá)到4.5億。其中,手機(jī)音樂用戶人數(shù)由2012年的0.96億增長(zhǎng)到2013年的2.91億,年增長(zhǎng)率達(dá)203%。從網(wǎng)絡(luò)音樂用戶規(guī)模的飛躍式增長(zhǎng)可以看到音樂流媒體服務(wù)蘊(yùn)含著巨大的商機(jī)。在國外,科技巨頭爭(zhēng)奪音樂市場(chǎng)的野心也初露端倪,今年年初,蘋果斥資30億美元買下Beats Electronics,而谷歌也隨后收購了流媒體音樂服務(wù)提供商Songza。

音樂產(chǎn)業(yè)在新媒體時(shí)代占據(jù)重要地位。本報(bào)告主要關(guān)注移動(dòng)互聯(lián)網(wǎng)環(huán)境下在線音樂服務(wù)商(酷狗音樂、QQ音樂、天天動(dòng)聽等)的發(fā)展現(xiàn)狀并且對(duì)當(dāng)前的音樂個(gè)性化推薦提出我們的一些見解。

1.1 音樂推薦與社交網(wǎng)絡(luò)

根據(jù)國內(nèi)知名研究機(jī)構(gòu)CNIT-Research 8月份發(fā)布的《2014年第二季度中國手機(jī)音樂APP市場(chǎng)報(bào)告》的數(shù)據(jù)顯示,排名前三的手機(jī)音樂App為酷狗音樂、QQ音樂、天天動(dòng)聽。他們所占的市場(chǎng)份額分別為:20.1%,17.0%以及15.8%。

001002003

 

 

酷狗音樂                 QQ音樂                   天天動(dòng)聽

其中,酷狗音樂和天天動(dòng)聽?wèi){借在在線音樂領(lǐng)域長(zhǎng)期積累的用戶資源、高品質(zhì)音質(zhì)、卓越的UI界面以及完美的下載體驗(yàn)取勝。而QQ音樂主要依附強(qiáng)大的社交工具QQ應(yīng)運(yùn)而生,可謂是“社交音樂”領(lǐng)域的先驅(qū)者。從2014年第二季度手機(jī)音樂數(shù)據(jù)來看,QQ音樂增勢(shì)迅猛,連續(xù)三個(gè)月用戶下載量增速均超過行業(yè)增速水平,而酷狗音樂、天天動(dòng)聽均增速低于市場(chǎng)行業(yè)增速,用戶市場(chǎng)份額有所下降。

根據(jù)速途研究院對(duì)手機(jī)音樂用戶愿景的調(diào)查顯示,有58%的用戶希望增強(qiáng)個(gè)性化音樂推薦的功能,這說明有很多用戶在收聽音樂時(shí)其實(shí)并不清楚自己喜歡什么類型的歌曲,如果音樂電臺(tái)能根據(jù)用戶的個(gè)人喜好“猜出”用戶喜歡什么歌曲并為其進(jìn)行推薦,那將會(huì)給用戶帶來意想不到的完美體驗(yàn)。目前的很多音樂軟件都支持推薦這一功能。以下是音樂App市場(chǎng)中常見的音樂產(chǎn)品的個(gè)性化推薦以及定制方式:

0040051006

 

 

 

 

酷狗音樂                          QQ音樂                          天天動(dòng)聽

根據(jù)研究,推薦模式主要分為以下幾種:(1) 熱點(diǎn)推薦,可以根據(jù)大眾的搜索記錄,通過排行榜的形式得到,也可以根據(jù)近期發(fā)生的音樂娛樂事件推薦,如中國好聲音、我是歌手等;(2)根據(jù)用戶的聽歌記錄推薦,包括用戶對(duì)每首歌的喜惡記錄;(3)根據(jù)地理位置信息結(jié)合用戶興趣進(jìn)行推薦;(4)根據(jù)用戶喜歡的歌手信息進(jìn)行推薦。但是,以上這些推薦模式都沒有能夠充分利用社交網(wǎng)絡(luò)的信息。在社交網(wǎng)絡(luò)風(fēng)靡全球的時(shí)代,有越來越多的音樂服務(wù)商發(fā)現(xiàn),社交網(wǎng)絡(luò)可以幫助商家留住更多的用戶,同時(shí),充分利用社交網(wǎng)絡(luò)信息將帶來更加卓越完美的用戶體驗(yàn)??梢钥吹?,酷狗音樂和天天動(dòng)聽都允許用戶使用第三方賬戶(微博、QQ)進(jìn)行綁定登錄,并提供分享到微博、微信等選項(xiàng);QQ音樂特設(shè)了“動(dòng)態(tài)”專欄,用于顯示好友分享的音樂。另外,酷狗和QQ音樂都可以通過定位的方式推薦附近的志趣相投的好友。

007

008

009

 

 

 

 

酷狗音樂                              QQ音樂                     天天動(dòng)聽

上述事實(shí)說明,社交音樂存在巨大的潛力和價(jià)值。那么,這一方面有無突出的企業(yè)呢?其中英國的Last.fm和中國的QQ音樂可以算得上是這方面的一個(gè)代表。

0100111

Last.fm                                                                    QQ音樂

Last.fm是 Audioscrobbler 音樂引擎設(shè)計(jì)團(tuán)隊(duì)的旗艦產(chǎn)品,有遍布232個(gè)國家超過1500萬的活躍聽眾。2007年被CBS Interactive以2.8億美元價(jià)格收購,目前,Last.fm是全球最大的社交音樂平臺(tái)。QQ音樂是中國互聯(lián)網(wǎng)領(lǐng)域領(lǐng)先的網(wǎng)絡(luò)音樂平臺(tái)及正版數(shù)字音樂服務(wù)提供商,在中國手機(jī)音樂市場(chǎng)所占份額躋身四大巨頭(其他三個(gè)分別是酷狗、天天動(dòng)聽、酷我),月活躍用戶已達(dá)到3億,是中國社交音樂領(lǐng)域的領(lǐng)軍人物。

以QQ音樂為例,我們?cè)敿?xì)分析它在利用社交網(wǎng)絡(luò)信息進(jìn)行個(gè)性化推薦的優(yōu)勢(shì)與可能存在的不足。QQ音樂依附強(qiáng)大的社交工具QQ而生,長(zhǎng)期以來受到廣大用戶的喜愛,這與QQ背后的億萬級(jí)用戶是無法割離的,可以說,QQ音樂是有先天的社交優(yōu)勢(shì)的。用戶登錄QQ音樂后,可以看到動(dòng)態(tài)欄中顯示的好友音樂動(dòng)態(tài),同時(shí),它還允許用戶綁定自己的微博賬號(hào),把音樂分享給微博好友。不僅如此,QQ音樂允許用戶自己編輯生成歌單,并分享給好友,這起到了一定的自媒體的作用。在“明星部落”這一功能中,QQ音樂允許粉絲之間交流互動(dòng),并形成一定的社交規(guī)模。從上述總結(jié)中,我們已經(jīng)可以看到,QQ音樂已經(jīng)有意識(shí)的把社交信息融合到產(chǎn)品設(shè)計(jì)和運(yùn)營中,以增加客戶粘性。但是從數(shù)據(jù)分析的基礎(chǔ)和推薦算法的構(gòu)建上,是否真正做到有效利用社交網(wǎng)絡(luò)信息了呢?為此,使用QQ音樂于2012年全面更新升級(jí)的“猜你喜歡”功能,并發(fā)現(xiàn)了如下問題:當(dāng)筆者沒有任何聽歌記錄時(shí),這一模塊并不能為筆者推薦歌曲。根據(jù)提示內(nèi)容,目前該功能可能主要依靠用戶的歷史聽歌記錄進(jìn)行推薦。同樣的問題出現(xiàn)在QQ音樂館的推薦欄中:大部分初始推薦音樂來源于當(dāng)下熱門音樂歌曲,缺少個(gè)性化成分。

0121

013

QQ音樂:猜你喜歡                                              QQ音樂館

以上事實(shí)說明音樂服務(wù)商在推薦算法上沒有充分利用社交網(wǎng)絡(luò)的信息。事實(shí)上,在獲得用戶個(gè)人綁定社交網(wǎng)絡(luò)賬號(hào)的基礎(chǔ)上,可以得到用戶的朋友關(guān)系,進(jìn)一步可以獲得用戶好友的聽歌記錄,這些歌曲可以成為初始推薦曲目的備選項(xiàng),將這些備選項(xiàng)通過一定規(guī)則(熱度、好友相似度)排序,可以用于音樂推薦;另外,眾所周知,社交網(wǎng)絡(luò)(如微博)是明星與粉絲互動(dòng)的一個(gè)重要渠道,因此,可以重點(diǎn)提取用戶對(duì)于社交網(wǎng)絡(luò)中歌手以及音樂人的關(guān)注關(guān)系,以獲得對(duì)用戶偏好的推測(cè)。以上這些過程可以用下圖表示。

014

可以看到,在以社交網(wǎng)絡(luò)綁定的音樂社區(qū)中,每個(gè)人并不是孤立的個(gè)體,而是通過好友關(guān)系,以及粉絲與明星的關(guān)注關(guān)系聯(lián)系起來。音樂活動(dòng)的多元化為QQ音樂的推薦場(chǎng)景帶來了新的挑戰(zhàn)。我們認(rèn)為存在以下幾個(gè)需要處理的問題:(1)如何高效利用好友的音樂信息對(duì)用戶進(jìn)行推薦?用戶的好友眾多,每個(gè)好友會(huì)留下很多音樂記錄,這些信息綜合起來的話數(shù)量極其龐大,如何迅速整合朋友及其收聽記錄并按照優(yōu)先程度排序?qū)τ脩暨M(jìn)行推薦是提高用戶體驗(yàn)的前提條件。(2)如何整合多種信息渠道進(jìn)行推薦?隨著時(shí)間的推進(jìn),一個(gè)音樂賬戶留下的信息是多元化的。例如,用戶主動(dòng)搜索的音樂記錄、用戶對(duì)歷史收聽音樂記錄的反饋,用戶選擇的電臺(tái)種類、用戶自己總結(jié)生成的歌單、用戶對(duì)朋友分享音樂的反饋信息等。因此,如何對(duì)這些異質(zhì)的信息來源進(jìn)行有效整合,或者,在資源有限的情況下,如何判斷和篩選出對(duì)于提高推薦精度最有效的指標(biāo)是提高音樂推薦效果的關(guān)鍵法寶。(3)如何整合當(dāng)前音樂潮流趨勢(shì)與用戶個(gè)人興趣基因?音樂是充滿了潮流和娛樂性的產(chǎn)業(yè),因此,用戶的音樂興趣不僅受其自身興趣基因驅(qū)使,也受到當(dāng)前音樂流驅(qū)使的影響。因此,如何結(jié)合用戶個(gè)人興趣以及音樂潮流趨勢(shì)對(duì)用戶進(jìn)行有效推薦,是對(duì)于音樂這一特殊娛樂行業(yè)的特別要求。綜上我們認(rèn)為QQ音樂雖然是利用社交關(guān)系進(jìn)行音樂推薦的先驅(qū)者,但是在利用網(wǎng)絡(luò)數(shù)據(jù)的層面上仍有很大的改進(jìn)和提升空間。

1.2 基于社交網(wǎng)絡(luò)的音樂推薦

在此我們給出如何利用網(wǎng)絡(luò)數(shù)據(jù)對(duì)用戶進(jìn)行推薦的技術(shù)思想。由于音樂推薦場(chǎng)景實(shí)體的多元化,我們將常見的推薦場(chǎng)景列舉如下:推薦歌曲、推薦歌單、推薦電臺(tái)、推薦歌手、推薦用戶。接下來,我們將從音樂分類與結(jié)構(gòu)化、用戶信息整合、網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用三個(gè)步驟詳細(xì)闡述我們的觀點(diǎn)。

音樂結(jié)構(gòu)化與歸一化

1.歌曲標(biāo)簽化

首先,基于音樂的不同風(fēng)格,我們需要對(duì)系統(tǒng)中存在的海量歌曲進(jìn)行分類,通過打標(biāo)簽的方式,使音頻信息通過文本的方式結(jié)構(gòu)化。分類的方法多種多樣,標(biāo)準(zhǔn)各異,從幾個(gè)音樂主流網(wǎng)站的標(biāo)簽組織形式看來,主要從客觀、主觀兩個(gè)角度進(jìn)行分析。從客觀的角度講,音樂可以按照流派、地域、年代、演奏樂器等方式分類,如“流行”、“搖滾”、“鄉(xiāng)村音樂”、“90后”、“鋼琴曲”等等,且大類下面可以設(shè)小類,如“流行”下可以設(shè)置“華語流行”、“歐美流行”等小類;從主觀的角度講,音樂風(fēng)格與聽歌時(shí)的心情、場(chǎng)景高度相關(guān),如分為“甜蜜”、“安靜”、“治愈”、“酒吧”、“咖啡館”等等,這種標(biāo)簽使得用戶在聽音樂時(shí)仿佛有一種身臨其境的感覺,帶來更高的視聽享受。除此之外,標(biāo)簽也可以由用戶自己生成,如用戶的熱搜關(guān)鍵詞記錄、用戶自行備注標(biāo)簽等。這在一定程度上正是利用自媒體的形式擴(kuò)充標(biāo)簽庫,使之更能反應(yīng)用戶興趣。

2.歌手信息提取

除了可以將歌曲標(biāo)簽化,我們還可以進(jìn)一步的對(duì)歌手信息進(jìn)行提取。比如根據(jù)地域我們可以把歌手分為大陸、港臺(tái)、歐美等,根據(jù)年代可以分為60后、70后、80后歌手,根據(jù)他們的曲風(fēng)可以分為搖滾、抒情、朋克等。通過打標(biāo)簽的形式把歌手進(jìn)行分類,從而形成結(jié)構(gòu)化的數(shù)據(jù)格式,方便以后快速清晰的定位用戶喜歡哪一類型的歌手。同樣的我們也可以對(duì)歌單、作詞者、作曲者進(jìn)行標(biāo)簽化處理,例如歌單的標(biāo)簽可以模仿歌曲的形式,因?yàn)楦鑶问怯筛枨M成,所以可以用歌曲的標(biāo)簽來代表歌單的標(biāo)簽。作詞者和作曲者的標(biāo)簽可以參考歌手打標(biāo)簽的方法,另外值得注意的是,由于音樂人之間形成合作、作曲、寫詞等合作關(guān)系,可以認(rèn)為是一個(gè)社交網(wǎng)絡(luò)關(guān)系,常??梢砸姷降默F(xiàn)象是某些歌手與詞作者存在密切的合作關(guān)系,而這部分信息也可用于音樂的個(gè)性化推薦。例如,對(duì)于一些有特定合作的歌手和詞(曲)作者,我們應(yīng)該特別留意,比如周杰倫和方文山這對(duì)組合。

3.歌詞的語義分析

歌曲的重要組成部分就是歌詞,由于歌詞屬于文本,我們不可能直接對(duì)其打標(biāo)簽,所以首先要進(jìn)行的是語義分析,通過語義分析我們可以大概知道歌詞的內(nèi)容,比如我們可以把歌詞切分成短語,然后對(duì)每一個(gè)短語進(jìn)行歸納總結(jié),可以判斷短語的情感極性(如積極還是消極),對(duì)短語進(jìn)行主題分類,由于歌詞數(shù)目龐大,可以利用自然語言處理的方式,如主題模型等預(yù)先提取主題,再通過人工加以校正。這樣就可以對(duì)歌詞進(jìn)行標(biāo)簽化處理了。下面我們以歌曲為例,簡(jiǎn)要的說明具體標(biāo)簽化過程。

通過標(biāo)簽的形式我們可以對(duì)每個(gè)歌曲的主題予以分類和描述。用于描述一支單曲的標(biāo)簽數(shù)目越多,對(duì)于音樂主題的描述就更加清晰、明朗;但同時(shí),冗余和重復(fù)的信息也可能越多,處理的難度就越大。因此,我們要對(duì)標(biāo)簽進(jìn)行排序和篩選,一個(gè)比較簡(jiǎn)單高效的辦法是選擇最熱門的N個(gè)標(biāo)簽作為我們的目標(biāo)詞庫,并且對(duì)該詞庫定期進(jìn)行更新。具體來說,我們將所有標(biāo)簽按照重要程度由高到低進(jìn)行排序,選擇前p個(gè)標(biāo)簽作為我們的標(biāo)簽集合。給定一首歌曲t,我們用一個(gè)超高維向量Xt=(Xt1,,Xtp)?p表示它的標(biāo)簽信息,其中Xtj=1表示該歌曲含有第j個(gè)標(biāo)簽,否則,該歌曲不含有第j個(gè)標(biāo)簽。例如對(duì)于一首鋼琴曲演奏的純音樂,對(duì)其打的標(biāo)簽可能是:鋼琴曲、安靜、咖啡館等。設(shè)鋼琴曲、安靜、咖啡館分別對(duì)應(yīng)于標(biāo)號(hào)為1、3、5的標(biāo)簽,那么向量Xt可以表示為Xt=(1,0,1,0,1,0,0) 。通過以上步驟,我們就可以把看似雜亂的音樂風(fēng)格通過打標(biāo)簽的形式進(jìn)行結(jié)構(gòu)化,用一個(gè)只含0、1元素的超高維向量對(duì)每首歌曲進(jìn)行分類。

對(duì)于歌單、電臺(tái)這些由歌曲集合而成的實(shí)體,我們也可以通過標(biāo)簽的方式對(duì)其進(jìn)行刻畫。例如,對(duì)于給定的一個(gè)歌單m,我們同樣用一個(gè)超高維向量Zm=(Zm1,,Zmp)p表示它的標(biāo)簽信息,假設(shè)歌單m包含第t首和第q首歌曲,那么計(jì)算Zm一個(gè)簡(jiǎn)單的方法就是將XtXq以某種方式進(jìn)行組合(取平均等方式)。通過這種形式,我們將不同的音樂實(shí)體形式都?xì)w一化到標(biāo)簽的形式組織,并結(jié)構(gòu)化成標(biāo)簽向量,用于建模和推薦。為了統(tǒng)一起見,將上述步驟處理過的歌曲、歌單、電臺(tái)等音樂實(shí)體統(tǒng)稱為“音樂”。所以本步驟的核心思想是:建立關(guān)鍵詞詞庫,將音樂標(biāo)簽化,將形式歸一化。

用戶信息整合

在第一步中我們將音樂(歌曲、歌單等)進(jìn)行了標(biāo)簽化設(shè)置,這樣用戶聽到的推薦音樂其實(shí)背后都是有標(biāo)簽的,用戶可以選擇喜歡(或不喜歡)推薦的音樂,有了標(biāo)簽信息,我們就可以進(jìn)一步的分析出對(duì)于一個(gè)特定的用戶,他喜歡聽含有哪些標(biāo)簽信息的音樂?如果回答了這個(gè)問題,就解決了個(gè)性化推薦的問題。具體來說,假設(shè)有i= 1,2,…,n個(gè)用戶,對(duì)第i個(gè)用戶,推薦系統(tǒng)向其推薦過 首音樂。給定第k首音樂, 表示該音樂的標(biāo)簽向量,這里定義1kni 。用Yik代表用戶對(duì)音樂的反饋,其中,Yik=1代表用戶喜歡過該首音樂,否則用戶沒有喜歡過。在掌握這些數(shù)據(jù)的基礎(chǔ)上,我們?cè)噲D通過機(jī)器學(xué)習(xí)算法,建立XikYik 的函數(shù)關(guān)系:

P(Yik=1)=fθi(Xik)

其中Yik=1 表示用戶i喜歡第k首音樂的概率。f()可以是一種合理的函數(shù)形式,而統(tǒng)計(jì)模型的任務(wù)就是根據(jù)已有的歷史數(shù)據(jù)對(duì)f() 進(jìn)行估計(jì),相應(yīng)的參數(shù)估計(jì)(θi)便可理解成關(guān)于這個(gè)用戶的“基因”。例如,一個(gè)用戶的歷史瀏覽數(shù)據(jù)表明,他經(jīng)常收聽流行音樂,我們可以猜測(cè)“流行”這一標(biāo)簽代表的基因?qū)υ撚脩舻臑g覽行為影響較大,那么就應(yīng)該給他更多地推薦流行這一流派下的音樂。這樣我們把一個(gè)用戶的歷史收聽行為( Yik)和收聽的音樂信息( Xik)聯(lián)系起來,通過一部分的訓(xùn)練數(shù)據(jù)集估計(jì)出相應(yīng)的參數(shù),然后再根據(jù)統(tǒng)計(jì)模型來預(yù)測(cè)給定一首音樂(歌曲、歌單等),用戶選擇喜歡的概率有多大。這個(gè)步驟涉及統(tǒng)計(jì)模型的建立,具體需要的數(shù)據(jù)有:推薦音樂的標(biāo)簽信息,用戶的歷史收聽行為。

網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用

除了系統(tǒng)記錄的用戶歷史收聽數(shù)據(jù),我們還能利用哪些數(shù)據(jù)對(duì)用戶偏好進(jìn)行預(yù)測(cè)呢?在以上模型中,對(duì)一個(gè)具體的用戶(例如: =張三)做推薦的時(shí)候,我們只用了張三自己的數(shù)據(jù)(即:Xik),而沒有用到其好友的數(shù)據(jù)。在音樂的社交性趨勢(shì)逐漸明顯的情形下,利用好友收聽數(shù)據(jù)對(duì)用戶偏好做推斷是一種可行措施。在具體實(shí)施過程中,音樂服務(wù)商已經(jīng)允許用戶在社交網(wǎng)絡(luò)上分享歌曲、創(chuàng)建歌單,并且對(duì)朋友的音樂分享予以反饋。這為從社交網(wǎng)絡(luò)數(shù)據(jù)入手分析和預(yù)測(cè)用戶偏好提供了現(xiàn)實(shí)基礎(chǔ)。而事實(shí)上,物以類聚,人以群分。信息傳播的定律告訴我們,一旦流行趨勢(shì)由點(diǎn)出發(fā),通過朋友網(wǎng)絡(luò)將極快的覆蓋整個(gè)用戶群體。這就意味著我們可以根據(jù)用戶好友的偏好來對(duì)用戶的偏好進(jìn)行預(yù)測(cè),同時(shí)更加準(zhǔn)確的把握流行趨勢(shì)的信息融合;不僅如此,在社交網(wǎng)絡(luò)中,用戶與明星的關(guān)注關(guān)系對(duì)于推斷用戶的音樂興趣偏好也起著重要作用,例如用戶張三在微博上上關(guān)注了周杰倫,那么可以推測(cè)他在現(xiàn)實(shí)生活中也是周杰倫的粉絲,在推薦系統(tǒng)中,我們就可以更多的給他推薦周杰倫或者與之風(fēng)格相似歌手的歌曲我們將網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)引入到傳統(tǒng)的推薦算法中,可以幫助我們更準(zhǔn)確的進(jìn)行預(yù)測(cè)。那么如何獲取網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)呢?

具體地,A=(ai1i2)?N×N用 代表網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù),其中,ai1i2=1表示用戶I1I2 是朋友關(guān)系,否則 與 不是朋友關(guān)系。一般來說,朋友的音樂興趣與用戶的音樂興趣存在一定的相關(guān)關(guān)系。那么,我們通過獲取用戶i的朋友的收聽數(shù)據(jù),以及用戶在社交網(wǎng)絡(luò)上關(guān)注的歌手信息。進(jìn)而對(duì)當(dāng)前用戶的歷史收聽數(shù)據(jù)進(jìn)行有效補(bǔ)充。在此基礎(chǔ)上,可以改善上述模型:

p(Yik=1)=fθi(Xik,Yjk,Zqk),ji,qi

其中, i表示用戶的朋友集合,即i={j;aij=1} ,i代表用戶關(guān)注的歌手集以及與這些歌手合作密切的歌手、作曲人、詞作者集合??梢钥吹?,以上模型不僅用到用戶i的信息,并且用到了其好友j的信息,以及其關(guān)注的歌手信息,作為解釋性變量輸入系統(tǒng)。進(jìn)一步,在信息得到增強(qiáng)的情形下,對(duì)于用于表征用戶基因的參數(shù) 的估計(jì)將更加準(zhǔn)確。甚至,在某些情境下,即使系統(tǒng)不能獲得用戶i的歷史收聽記錄 ,推薦系統(tǒng)仍然能夠根據(jù)朋友信息及其關(guān)注的歌手信息進(jìn)行有效推薦。這種推薦模式在用戶剛剛綁定QQ音樂并沒有產(chǎn)生閱讀行為時(shí),起著舉足輕重的作用。這就為解決推薦系統(tǒng)的冷啟動(dòng)問題提供了一種可行的解決方案。所以本步驟的關(guān)鍵是獲取用戶的好友關(guān)系并獲取好友相關(guān)的信息,這可能需要獲得微博、微信這樣的產(chǎn)品授權(quán),由此提供網(wǎng)絡(luò)信息,然后利用這些信息進(jìn)行更精準(zhǔn)的推薦。

個(gè)性化推薦

現(xiàn)有個(gè)性化推薦算法的核心是通過產(chǎn)品以及用戶的歷史數(shù)據(jù)對(duì)消費(fèi)者的偏好給予學(xué)習(xí)以及預(yù)測(cè)。但是,這樣的做法有以下重大缺陷。

第一、處理不了冷啟動(dòng)問題。也就是說,對(duì)于一個(gè)新的用戶,我們沒有歷史數(shù)據(jù),如何推薦?這就可能出現(xiàn)前文中提到的問題,系統(tǒng)會(huì)提示用戶通過收聽歌曲增加歷史記錄。這在一定程度上會(huì)導(dǎo)致用戶體驗(yàn)下降和流失。但是,如果我們擁有該用戶的社交網(wǎng)絡(luò)信息,在他的現(xiàn)有好友中能夠找到歷史數(shù)據(jù)充分的用戶,那么就可以基于上面討論的問題作出合理推薦,極大地解決冷啟動(dòng)問題。

第二、無法適應(yīng)用戶興趣的改變。隨著用戶的年齡、境遇以及經(jīng)歷的改變,用戶對(duì)于音樂的偏好程度是可能隨著時(shí)間變化的。但是如果只根據(jù)歷史記錄對(duì)用戶進(jìn)行推薦,系統(tǒng)學(xué)習(xí)到用戶興趣的改變的速率可能是緩慢的。通過社交網(wǎng)絡(luò)的推薦可以使用戶接觸到的音樂范圍增加,給了用戶更多發(fā)現(xiàn)音樂的機(jī)會(huì)。QQ音樂的歌單、關(guān)注歌手等功能都是強(qiáng)社交性產(chǎn)品的一種表現(xiàn),利用用戶對(duì)朋友分享音樂的反饋,可以使系統(tǒng)敏感的檢測(cè)到用戶興趣的改變。

第三、推薦系統(tǒng)無法自適應(yīng)的學(xué)習(xí)。音樂產(chǎn)業(yè)是一個(gè)充滿了潮流趨勢(shì)與個(gè)性化因素的產(chǎn)業(yè),正因如此,推薦系統(tǒng)除了學(xué)習(xí)用戶個(gè)人興趣之外,還需要不斷適應(yīng)流行趨勢(shì)。比如,在“中國好聲音”和“我是歌手”流行之時(shí),如果只利用歷史數(shù)據(jù),推薦系統(tǒng)在不進(jìn)行人工干預(yù)的情形下很難為用戶主動(dòng)推薦相關(guān)歌曲;但是,這種流行趨勢(shì)卻可以從朋友的主動(dòng)分享和動(dòng)態(tài)中擴(kuò)散開來,因此,利用社交網(wǎng)絡(luò)信息進(jìn)行推薦可以幫助推薦系統(tǒng)自適應(yīng)地結(jié)合用戶個(gè)人興趣以及流行趨勢(shì)。

簡(jiǎn)單總結(jié)一下。我們相信,卓越的產(chǎn)品設(shè)計(jì)理念、高精度個(gè)性化音樂推薦以及優(yōu)秀的用戶體驗(yàn)是息息相關(guān)的。并且,在某種程度上,他們是可以相互增強(qiáng)的。QQ音樂在產(chǎn)品設(shè)計(jì)中融合了多元化的社交網(wǎng)絡(luò)理念,這為社交網(wǎng)絡(luò)信息在數(shù)據(jù)分析中的應(yīng)用提供了堅(jiān)固的基石,反過來,通過高精度的個(gè)性化音樂推薦又不斷增速產(chǎn)品的更新迭代,以及用戶體驗(yàn)的升級(jí)。我們認(rèn)為,在把握好用戶對(duì)音樂基本需求的基礎(chǔ)上,個(gè)性化推薦將是未來音樂市場(chǎng)的一把利器。其中,有效融合社交理念,夯實(shí)數(shù)據(jù)基礎(chǔ),提升推薦精度,將為未來音樂服務(wù)市場(chǎng)帶來巨大商機(jī)。

二、新聞推薦

本報(bào)告所關(guān)注的新聞主要指以文本為主要展現(xiàn)方式的門戶綜合網(wǎng)站(如新浪、騰訊、搜狐等)、專業(yè)新聞報(bào)道網(wǎng)站(如和訊網(wǎng),21世紀(jì)經(jīng)濟(jì)報(bào)道等)以及相關(guān)新聞?lì)怉pp(如今日頭條,無覓閱讀等),具體分析內(nèi)容如下。

2.1 新聞推薦與社交網(wǎng)絡(luò)

根據(jù)App Store新聞?lì)惷赓M(fèi)排行榜顯示,移動(dòng)端排名最靠前的三大新聞?lì)怉pp是騰訊新聞,網(wǎng)易新聞,新浪新聞。

015016017

 

 

 

 

對(duì)于每一個(gè)App而言,為了增加客戶的粘性和用戶的體驗(yàn),除了每個(gè)App自設(shè)的一些新聞?lì)l道外,他們常常會(huì)對(duì)用戶推薦一些新聞信息,常見的推薦展現(xiàn)形式有:

 

018019020

 

 

 

 

騰訊新聞                            網(wǎng)易新聞                        新浪新聞

根據(jù)我們的研究經(jīng)驗(yàn),我們認(rèn)為其推薦的機(jī)制有:(1)大眾熱點(diǎn)推薦;(2)根據(jù)用戶以前看過的內(nèi)容(或點(diǎn)贊、收藏的內(nèi)容)進(jìn)行推薦;(3)根據(jù)看過類似新聞的人還看過什么來對(duì)用戶進(jìn)行推薦。可以感受到的是目前的推薦機(jī)制仍有很大的提升空間,對(duì)于絕大多數(shù)用戶來說,他們并不會(huì)在這些新聞?lì)怉pp上提供自己的社交信息,因此這些推薦都沒有利用到來自好友的信息,假設(shè)我們可以了解到用戶的社交網(wǎng)絡(luò),那么可以有以下重要的好處:當(dāng)用戶使用微博賬號(hào)或QQ賬號(hào)登錄App時(shí),就可以獲取該用戶的好友關(guān)系,通過分析你的好友最近在關(guān)注的內(nèi)容,可以預(yù)測(cè)你感興趣的內(nèi)容,這樣就可以解決個(gè)性化推薦中一個(gè)非常重要的問題:冷啟動(dòng)。在這方面有無可以關(guān)注的重要企業(yè)呢?其中美國的Flipboard和中國的今日頭條可以算得上是這方面的一個(gè)代表。

02110221

 

 

 

 

 

 

 

特別值得關(guān)注的是,這兩個(gè)App目前做的都非常成功,例如,作為一直以將社交網(wǎng)絡(luò)等社會(huì)化媒體整合著稱的Flipboard于2013年底宣告用戶總數(shù)突破1億大關(guān),并獲得5000萬美元的C輪融資,估值約為8億美元;于2012年創(chuàng)立的后起之秀今日頭條目前也擁有1.2億激活用戶,2014年,今日頭條一舉拿下1億美元融資,增勢(shì)迅猛,不可小覷。這兩個(gè)App的一個(gè)共同之處是他們?cè)试S用戶使用他們當(dāng)前的社交網(wǎng)絡(luò)賬號(hào)綁定(如Facebook、微博等),如下圖所示。

023

024

 

 

 

 

 

 

 

以今日頭條為例,我們?cè)敿?xì)分析他們?cè)跀?shù)據(jù)層面的優(yōu)勢(shì),例如,當(dāng)用戶為今日頭條綁定了微博賬號(hào)時(shí),他們就可以輕松獲取用戶在微博上的個(gè)人信息及好友情況,可以知道用戶的好友在微博上都了些什么,由此一來,看似獨(dú)立的今日頭條個(gè)體用戶,通過微博賬號(hào)的綁定,就變成了有網(wǎng)絡(luò)結(jié)構(gòu)的群體,下圖就生動(dòng)形象的展現(xiàn)了這一數(shù)據(jù)層面的轉(zhuǎn)變。

025

可以看到在傳統(tǒng)的登錄方式中,用戶被當(dāng)成了獨(dú)立的個(gè)體,他們每一個(gè)人只是今日頭條的一個(gè)獨(dú)立用戶而已,如果綁定了微博賬號(hào)之后,我們就可以獲得好友關(guān)系(例如上圖右側(cè)小人之間的連線表明二者是好友關(guān)系)和好友的動(dòng)態(tài)(如云狀對(duì)話框里展示了好友最近的關(guān)注動(dòng)態(tài)),中國有句古話叫“物以類聚,人以群分”,我們會(huì)發(fā)現(xiàn)通常情況下越是相似的人,他們關(guān)注的話題也就越相似,如此一來,我們就可以根據(jù)用戶的好友關(guān)注情況為該用戶進(jìn)行新聞推薦,這在一定程度上能夠解決許多此類應(yīng)用的冷啟動(dòng)問題。

2013年,張一鳴在接受采訪時(shí)對(duì)今日頭條的推薦系統(tǒng)構(gòu)建進(jìn)行了簡(jiǎn)述:今日頭條會(huì)在用戶綁定微博后的 5 秒鐘之內(nèi)為用戶建立起一個(gè) DNA 興趣圖譜。同時(shí)他也允許用戶使用多社交網(wǎng)站的賬號(hào)進(jìn)行綁定,在個(gè)人動(dòng)態(tài)中會(huì)滾動(dòng)出現(xiàn)這些好友的一些信息動(dòng)態(tài)。以上這些都是今日頭條的優(yōu)勢(shì)所在,但是我們認(rèn)為能真正的做好這幾點(diǎn)今日頭條仍然面臨著一些挑戰(zhàn):①推薦的時(shí)候能否進(jìn)行快速的線上計(jì)算是決定推薦速度的一個(gè)重要因素;如何進(jìn)行多賬號(hào)之間的數(shù)據(jù)融通和整合對(duì)充分挖掘好友關(guān)系并進(jìn)行精準(zhǔn)推薦具有重要作用;③如何應(yīng)用好友對(duì)我的影響進(jìn)行動(dòng)態(tài)推薦信息中的排序是提高用戶體驗(yàn)的另一個(gè)重要方式??偨Y(jié)以上優(yōu)勢(shì)和挑戰(zhàn),我們認(rèn)為今日頭條雖然是利用社交關(guān)系進(jìn)行新聞推薦的先驅(qū)者,但是在利用網(wǎng)絡(luò)數(shù)據(jù)的層面上仍有很大的改進(jìn)和提升空間。

2.2 基于社交網(wǎng)絡(luò)的新聞推薦

在此我們結(jié)合自己的知識(shí)和研究經(jīng)驗(yàn),給出如何利用網(wǎng)絡(luò)數(shù)據(jù)對(duì)用戶進(jìn)行推薦的技術(shù)思想。接下來,我們將從新聞分類與結(jié)構(gòu)化、用戶信息整合、網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用三個(gè)步驟詳細(xì)闡述我們的觀點(diǎn)。

新聞結(jié)構(gòu)化

首先,我們要對(duì)系統(tǒng)中存在的海量文章進(jìn)行分類,使看似紛繁復(fù)雜的文本信息結(jié)構(gòu)化。為此我們需要對(duì)每篇文章的主題進(jìn)行總結(jié)并分類。分類的方法多種多樣,比如我們可以先將主題分為幾個(gè)大類,大類下面增設(shè)小類,每個(gè)小類包含不同關(guān)鍵詞集合。例如,“體育”是一個(gè)大類,在“體育”大類下可分為“足球”、“籃球”、“游泳”等小類,在標(biāo)為“足球”的小類下又可包括“羅納爾多”、“國安”等這樣的關(guān)鍵詞信息。根據(jù)關(guān)鍵詞信息,我們可以對(duì)每一篇文章打上標(biāo)簽。但是,由于主題和關(guān)鍵詞數(shù)目眾多,我們不可能把所有的關(guān)鍵詞拿來作為目標(biāo)詞庫,一個(gè)比較簡(jiǎn)單高效的辦法是選擇最熱門的N個(gè)關(guān)鍵詞作為我們的目標(biāo)詞庫,并且對(duì)該詞庫定期進(jìn)行更新。具體來說,我們將所有關(guān)鍵詞按照重要程度由高到低進(jìn)行排序,選擇前p個(gè)關(guān)鍵詞作為我們的關(guān)鍵詞集合。給定一篇文章t,我們用一個(gè)超高維向量 Xt=(Xt1,,Xtp)?p表示它的標(biāo)簽信息,其中Xtj=1表示該文章含有第j個(gè)關(guān)鍵詞,否則,該文章不含有第j個(gè)關(guān)鍵詞。例如一篇描述旅游攻略的文章,對(duì)其打的標(biāo)簽可能是:旅游、美食、驢友等。設(shè)旅游、美食、驢友分別對(duì)應(yīng)于標(biāo)號(hào)為1、3、5的關(guān)鍵詞,那么向量 Xt=(1,0,1,0,1,0,,0)可以表示為 。通過以上步驟,我們就可以把看似雜亂無章的文本信息通過打標(biāo)簽的形式進(jìn)行結(jié)構(gòu)化,用一個(gè)只含0、1元素的超高維向量對(duì)每篇文章進(jìn)行分類。所以本步驟的核心思想是:建立關(guān)鍵詞詞庫,將文章標(biāo)簽化。

用戶信息整合

在第一步中我們將每篇文章進(jìn)行了標(biāo)簽化設(shè)置,這樣用戶看到的推薦文章其實(shí)背后都是有標(biāo)簽的,用戶可以選擇閱讀(或不閱讀)推薦的文章,有了標(biāo)簽信息,我們就可以進(jìn)一步的分析出對(duì)于一個(gè)特定的用戶,他喜歡閱讀含有哪些標(biāo)簽信息的文章?如果回答了這個(gè)問題,就解決了個(gè)性化推薦的問題。具體來說,假設(shè)有i= 1,2,…,n個(gè)用戶,對(duì)第i個(gè)用戶,推薦系統(tǒng)向其展示過ni篇文章。給定第k篇文章, Xik表示該文章的標(biāo)簽向量,這里定義1kni 。用Yik代表用戶對(duì)文章的反饋,其中,Yik=1代表用戶閱讀過該篇文章,否則用戶沒有閱讀過。在掌握這些數(shù)據(jù)的基礎(chǔ)上,我們?cè)噲D通過機(jī)器學(xué)習(xí)算法,建立Yik與 Xik的函數(shù)關(guān)系:

p(Yik=1)=fθi(Xik)

其中 P(Yik=1)表示用戶i喜歡第k篇文章的概率。 f()可以是一種合理的函數(shù)形式,而統(tǒng)計(jì)模型的任務(wù)就是根據(jù)已有的歷史數(shù)據(jù)對(duì)f() 進(jìn)行估計(jì),相應(yīng)的參數(shù)估計(jì)(θi)便可理解成關(guān)于這個(gè)讀者的“基因”。例如,一個(gè)用戶的歷史瀏覽數(shù)據(jù)表明,他經(jīng)常瀏覽娛樂新聞,我們可以猜測(cè)“娛樂”這一標(biāo)簽代表的基因?qū)υ撚脩舻臑g覽行為影響較大,那么就應(yīng)該給他更多地推薦娛樂相關(guān)的新聞。這樣我們把一個(gè)用戶的歷史瀏覽行為(Yik)和瀏覽的文章信息(Xik)聯(lián)系起來,通過一部分的訓(xùn)練數(shù)據(jù)集估計(jì)出相應(yīng)的參數(shù),然后再根據(jù)統(tǒng)計(jì)模型來預(yù)測(cè)給定一篇文章,用戶選擇閱讀的概率有多大。這個(gè)步驟涉及統(tǒng)計(jì)模型的建立,具體需要的數(shù)據(jù)有:推薦文章的標(biāo)簽信息,用戶的歷史瀏覽行為。

網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用

除了系統(tǒng)記錄的用戶歷史瀏覽數(shù)據(jù),我們還能利用哪些數(shù)據(jù)對(duì)用戶偏好進(jìn)行預(yù)測(cè)呢?在以上模型中,對(duì)一個(gè)具體的用戶(例如:i =張三)做推薦的時(shí)候,我們只用了張三自己的數(shù)據(jù)(即:Xik ),而沒有用到其好友的數(shù)據(jù)。大量的實(shí)證分析表明,在網(wǎng)絡(luò)中緊密相連的個(gè)體是高度相關(guān)的,具有很多的相似性。這就意味著我們可以根據(jù)用戶好友的偏好來對(duì)用戶的偏好進(jìn)行預(yù)測(cè),我們將網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)引入到傳統(tǒng)的推薦算法中,可以幫助我們更準(zhǔn)確的進(jìn)行預(yù)測(cè)。那么如何獲取網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)呢?

具體地,用 A=(ai1,i2)?N×N代表網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù),其中,ai1,i2=1 表示用戶i1i2 是朋友關(guān)系,否則i1i2 不是朋友關(guān)系。一般來說,朋友的閱讀興趣與用戶的閱讀興趣存在一定的相關(guān)關(guān)系。那么,我們通過獲取用戶i的朋友的閱讀數(shù)據(jù),進(jìn)而對(duì)當(dāng)前用戶的歷史閱讀數(shù)據(jù)進(jìn)行有效補(bǔ)充。在此基礎(chǔ)上,可以改善上述模型:

p(Yik=1)=fθi(Xik,Xjk)ji

其中, Ni表示用戶的朋友集合,即i={j;aij=1} ??梢钥吹?,以上模型不僅用到用戶i的信息,并且用到了其好友j的信息,作為解釋性變量輸入系統(tǒng)。進(jìn)一步,在信息得到增強(qiáng)的情形下,對(duì)于用于表征讀者基因的參數(shù) 的估計(jì)將更加準(zhǔn)確。甚至,在某些情境下,即使系統(tǒng)不能獲得用戶i的歷史閱讀信息Xik ,推薦系統(tǒng)仍然能夠根據(jù)朋友信息進(jìn)行有效推薦。這種推薦模式在用戶剛剛綁定今日頭條并沒有產(chǎn)生閱讀行為時(shí),起著舉足輕重的作用。這就為解決推薦系統(tǒng)的冷啟動(dòng)問題提供了一種可行的解決方案。所以本步驟的關(guān)鍵是獲取用戶的好友關(guān)系并獲取好友相關(guān)的信息,這可能需要今日頭條與微博、微信這樣的產(chǎn)品合作,由合作企業(yè)提供網(wǎng)絡(luò)信息,然后今日頭條利用這些信息進(jìn)行更精準(zhǔn)的推薦。

個(gè)性化推薦

現(xiàn)有個(gè)性化推薦算法的核心是通過產(chǎn)品以及用戶的歷史數(shù)據(jù)對(duì)消費(fèi)者的偏好給予學(xué)習(xí)以及預(yù)測(cè)。但是,這樣的做法有以下重大缺陷。

第一、處理不了冷啟動(dòng)問題。也就是說,對(duì)于一個(gè)新的用戶,我們沒有歷史數(shù)據(jù),如何推薦?但是,如果我們擁有該用戶的社交網(wǎng)絡(luò)信息,在他的現(xiàn)有好友中能夠找到歷史數(shù)據(jù)充分的用戶,那么就可以基于上面討論的問題作出合理推薦,極大地解決冷啟動(dòng)問題。

第二、用戶的興趣是改變的。過去用戶喜歡體育類新聞,可能以后不喜歡。另外,用戶的興趣隨著社會(huì)重大事件也會(huì)改變。一個(gè)對(duì)金融財(cái)經(jīng)沒有任何興趣的用戶,可能在金融風(fēng)暴時(shí)期高度關(guān)注金融財(cái)經(jīng)新聞。而這些改變是很難在該用戶的歷史數(shù)據(jù)中被學(xué)習(xí)到的。但是,如果有社交網(wǎng)絡(luò),那么這些大的趨勢(shì)就有可能首先被表達(dá)在他的朋友中。這就給了我們一個(gè)獨(dú)特的機(jī)會(huì)通過其朋友的變化,預(yù)知該用戶的興趣改變,并作出相應(yīng)的推斷。

簡(jiǎn)單總結(jié)一下。用戶體驗(yàn)是產(chǎn)品設(shè)計(jì)的核心,而高精度推薦與用戶體驗(yàn)息息相關(guān)。而社交網(wǎng)絡(luò)為新聞的高精度個(gè)性化推薦提供了一個(gè)新的信息來源,充滿機(jī)遇。相應(yīng)的對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)分析提出了挑戰(zhàn)。綜合上述三種途徑,我們認(rèn)為,良好的數(shù)據(jù)結(jié)構(gòu)化方案是數(shù)據(jù)建模的基石,用戶信息的有效整合是數(shù)據(jù)建模的必備條件,合理利用網(wǎng)絡(luò)結(jié)構(gòu)是提高推薦精度的重要途徑。三輛馬車并駕齊驅(qū),必將帶來巨大的商業(yè)價(jià)值。

三、 基于社交網(wǎng)絡(luò)的其他應(yīng)用

3.1 基于社交網(wǎng)絡(luò)的個(gè)性化標(biāo)簽?zāi)P?/strong>

近年來,社交網(wǎng)絡(luò)在全球范圍內(nèi)風(fēng)靡,著名的社交網(wǎng)絡(luò)社區(qū)Facebook、Twitter對(duì)人們來說早已耳熟能詳。2014年,中國倍受歡迎的社交網(wǎng)絡(luò)平臺(tái)新浪微博在納斯達(dá)克上市,截至2014年3月,其月活躍用戶1.438億,日活躍用戶6660萬。社交網(wǎng)絡(luò)在帶來更多商業(yè)價(jià)值的同時(shí)也引發(fā)了更多的研究熱點(diǎn),本部分主要探討微博中個(gè)性化標(biāo)簽與社交網(wǎng)絡(luò)的關(guān)系建模。

3.1.1 社交網(wǎng)絡(luò)中的個(gè)性化標(biāo)簽

026

那么,什么是社交網(wǎng)絡(luò)中的個(gè)性化標(biāo)簽?zāi)??個(gè)性化標(biāo)簽是社交網(wǎng)絡(luò)用戶對(duì)于自身興趣、愛好、特征進(jìn)行的短語描述。例如,上圖中的“社會(huì)關(guān)系網(wǎng)絡(luò)”、“教授”、“商務(wù)統(tǒng)計(jì)學(xué)”等短語就是用戶Jack的個(gè)性化標(biāo)簽,從標(biāo)簽中我們可以推測(cè)出用戶的職業(yè)、興趣、生活方式等。

社交網(wǎng)絡(luò)中的個(gè)性化標(biāo)簽不僅可以用于表示用戶特征,另一方面,合理利用個(gè)性化標(biāo)簽信息將在市場(chǎng)營銷等領(lǐng)域帶來巨大的商業(yè)價(jià)值。具體地,例如,帶有“美食”標(biāo)簽的用戶極有可能對(duì)美食信息的促銷及優(yōu)惠活動(dòng)產(chǎn)生興趣以及購買行為,因此,將類似促銷信息投放給這些潛在用戶將為企業(yè)帶來更高的轉(zhuǎn)化率及利潤(rùn)率。

3.1.2 利用社交網(wǎng)絡(luò)信息進(jìn)行標(biāo)簽推斷

但是,盡管個(gè)性化標(biāo)簽存在著巨大的商業(yè)價(jià)值,對(duì)于個(gè)性化標(biāo)簽信息的直接利用仍然存在著一些問題。首先,用戶的個(gè)性化標(biāo)簽可能是缺失的,例如,一個(gè)帶有“旅行”標(biāo)簽的用戶可能同時(shí)也喜歡“美食”,但是“美食”這一標(biāo)簽并沒有出現(xiàn)在用戶自注標(biāo)簽的行列之中;其次,標(biāo)簽信息可能是不準(zhǔn)確的,例如,一個(gè)貼有“炒股專家”標(biāo)簽的用戶并實(shí)際上不一定股市牛人,那么,如何鑒定用戶標(biāo)簽的真實(shí)性呢?

027

社交網(wǎng)絡(luò)的信息可以幫助我們有效的解決這兩點(diǎn)問題。其特有的朋友關(guān)注信息是對(duì)標(biāo)簽信息的有效補(bǔ)充,這一點(diǎn)可以用上圖中在相互關(guān)注的好友之間進(jìn)行標(biāo)簽補(bǔ)充看到。例如,一個(gè)喜歡“美食”的用戶雖然沒有把“美食”標(biāo)簽納入自己的標(biāo)簽集中,但是,從她的關(guān)注關(guān)系我們可以看到她關(guān)注了許多美食營銷賬號(hào),如“下廚房”、“舌尖上的中國”等。通過這一信息我們可以推斷,該用戶對(duì)“美食”也有著濃厚的興趣。同時(shí),利用社交網(wǎng)絡(luò)信息還可以幫助我們有效的鑒別用戶標(biāo)簽信息真?zhèn)巍@?,如果從關(guān)注關(guān)系看到一個(gè)貼有“炒股專家”標(biāo)簽的用戶沒有關(guān)注任何炒股公眾微博號(hào),他的粉絲中也沒有炒股發(fā)燒友,那么,從一定程度上,我們可以推斷該用戶的“炒股專家”的標(biāo)簽可能存在一定的謬誤。

然而,微博中有著上億的用戶,我們不可能用肉眼鑒別和推斷每一個(gè)用戶的標(biāo)簽。有沒有一種高效并且易于計(jì)算的統(tǒng)計(jì)模型表征這一過程呢?在一篇最近研究社交網(wǎng)絡(luò)個(gè)性化標(biāo)簽的文章中,采用了兩種估計(jì)方法(極大似然估計(jì)與條件極大似然估計(jì)),其主要思想是,假設(shè)社交網(wǎng)絡(luò)中的用戶之間的行為是成對(duì)獨(dú)立的,社交網(wǎng)絡(luò)中的對(duì)稱關(guān)系(互相關(guān)注和互不關(guān)注)與這一對(duì)用戶在標(biāo)簽上表現(xiàn)的相似程度有關(guān),例如,一對(duì)用戶都具有“美食”這一標(biāo)簽,那么在此條件下他們有更高的概率成為朋友。具體地,可以把給定標(biāo)簽下對(duì)稱關(guān)系的條件概率用標(biāo)簽回歸的形式表達(dá)出來,通過估計(jì)回歸系數(shù)我們可以得知對(duì)應(yīng)的標(biāo)簽在推斷朋友關(guān)系中的重要程度;另一方面,改進(jìn)上述估計(jì)方法,可以提高模型的計(jì)算復(fù)雜度。利用網(wǎng)絡(luò)稀疏性的特質(zhì),該文章提出了條件極大似然估計(jì)方法。社交網(wǎng)絡(luò)的稀疏性質(zhì)可以用下圖表示,可以看到大部分的用戶之間都是不存在相互關(guān)注關(guān)系的(Null Pair)。在給定網(wǎng)絡(luò)中的一對(duì)存在連接的用戶(也就是說,一對(duì)用戶之間存在雙向關(guān)注或者單向關(guān)注關(guān)系)的條件下,計(jì)算極大似然函數(shù)并估計(jì)參數(shù),可以大大降低了計(jì)算復(fù)雜度。

028

3.1.3 實(shí)際案例

為了闡述上述模型的建模效果,我們用一個(gè)實(shí)際案例加以說明。數(shù)據(jù)集由北大光華MBA的4554的微博賬戶信息組成,同時(shí)記錄了他們的關(guān)注關(guān)系。選擇標(biāo)簽數(shù)目排名前10名的標(biāo)簽作為我們的標(biāo)簽集。 我們關(guān)心的問題是:哪些標(biāo)簽對(duì)于推斷用戶好友關(guān)系的影響最大?

029

通過數(shù)據(jù)分析,得知鄰接矩陣的密度為0.41%,互相關(guān)注的密度約為0.22%??梢钥闯鲞@是一個(gè)高度稀疏的社交網(wǎng)絡(luò)關(guān)系。通過運(yùn)用條件極大似然估計(jì)模型,我們得到如下的估計(jì)結(jié)果。

030

可以看到,其中,回歸系數(shù)(用條件似然方法估計(jì))的估計(jì)值最高的幾個(gè)分別是:管理、MBA、營銷。這表明這幾個(gè)標(biāo)簽在推斷用戶的朋友關(guān)系中起著重要作用。從這幾個(gè)標(biāo)簽的字面意義上我們可以看到,人們通過興趣愛好、職業(yè)發(fā)展的一致性可以形成朋友關(guān)系,反過來說,這種朋友關(guān)系對(duì)于推斷用戶的興趣愛好也至關(guān)重要。數(shù)據(jù)分析結(jié)果從一定程度上也印證了該數(shù)據(jù)集的性質(zhì):MBA學(xué)生群。

綜上所述,我們認(rèn)為,社交網(wǎng)絡(luò)結(jié)構(gòu)在微博個(gè)性化標(biāo)簽建模中起著重要作用;反過來,利用標(biāo)簽信息進(jìn)行社交網(wǎng)絡(luò)結(jié)構(gòu)推斷也具有著潛在的應(yīng)用價(jià)值。

3.2 基于社交網(wǎng)絡(luò)評(píng)估個(gè)體影響力

隨著明星等公眾人物在社交網(wǎng)絡(luò)上的活躍程度的日益增加,微博等社交網(wǎng)絡(luò)的“極化”現(xiàn)象也越來越明顯:一些主要的明星、大號(hào)掌握了主要的話語權(quán)以及控制輿論的能力。這是社交網(wǎng)絡(luò)影響力的表現(xiàn)之一,本部分主要探討如何利用網(wǎng)絡(luò)信息評(píng)估網(wǎng)絡(luò)中個(gè)體的影響力。

3.2.1 網(wǎng)絡(luò)影響力

社交網(wǎng)絡(luò)中的信息紛繁雜亂,網(wǎng)絡(luò)中的個(gè)體也表現(xiàn)出異質(zhì)性的特征。少數(shù)公眾人物的微博動(dòng)態(tài)時(shí)時(shí)都受到關(guān)注,其一舉一動(dòng)甚至可能影響整個(gè)輿論的走向。各大社交網(wǎng)絡(luò)平臺(tái)也紛紛推出熱力榜單等應(yīng)用來對(duì)公眾人物的影響力進(jìn)行排名,下圖是微博“明星勢(shì)力榜”排名結(jié)果:

0311

我們不禁要問,評(píng)估人物影響力,有何價(jià)值呢?正因?yàn)樯贁?shù)用戶具有巨大的影響力,我們才更應(yīng)該合理利用其影響力,而避免其巨大的影響力闡釋負(fù)面影響。例如,可以利用明星影響力推廣公益活動(dòng),那么將會(huì)在公眾中收到更好的宣傳效果;另一方面,又要防止有影響力的明星肆意傳播虛假、負(fù)面信息,造成不良影響。因此,關(guān)注具有影響力個(gè)體對(duì)于提升營銷效果、控制輿論信息等有巨大的作用。

關(guān)注高網(wǎng)絡(luò)影響力的個(gè)體不僅在社交網(wǎng)絡(luò)平臺(tái)中有著巨大應(yīng)用,在其他的網(wǎng)絡(luò)關(guān)系中也有著舉足輕重的地位。例如,在移動(dòng)通訊網(wǎng)絡(luò)中,某些個(gè)體通話量的提升能夠帶動(dòng)整個(gè)通信網(wǎng)絡(luò)中總體電話量的提升,那么這些個(gè)體就應(yīng)被鎖定為具有網(wǎng)絡(luò)影響力的個(gè)體。通訊公司應(yīng)對(duì)其采取特別的營銷策略,以期留住這些核心用戶,從某種程度上說,這正也是利用了這些核心用戶的影響力,來防止更多的客戶流失。如下圖所示,可以看到核心用戶的流失對(duì)于移動(dòng)通信服務(wù)商可能造成巨大損失,因?yàn)榕c核心用戶聯(lián)系緊密的用戶也可能隨之流失轉(zhuǎn)為其他服務(wù)。

0321

核心用戶流失前                                                           核心用戶流失后

3.2.2 評(píng)估網(wǎng)絡(luò)影響力

以通訊網(wǎng)絡(luò)中的個(gè)體影響力評(píng)估為例,計(jì)算在個(gè)體通話量中最有影響力的用戶。從直覺上說,移動(dòng)通訊網(wǎng)絡(luò)中最有影響力的個(gè)體,應(yīng)該與網(wǎng)絡(luò)中的大多數(shù)個(gè)體都有較大的相似性。這個(gè)現(xiàn)象用統(tǒng)計(jì)語言描述,就是最有影響力的個(gè)體與網(wǎng)絡(luò)中其他個(gè)體具有較大的協(xié)方差。假設(shè)網(wǎng)絡(luò)中共有p個(gè)個(gè)體,則協(xié)方差矩陣如下圖所示

034

估計(jì)協(xié)方差的方法多種多樣,最常用的是通過樣本協(xié)方差矩陣進(jìn)行估計(jì)。但是這種經(jīng)驗(yàn)方法在個(gè)體眾多的移動(dòng)通信網(wǎng)絡(luò)中卻不適用,通常來說,移動(dòng)通信網(wǎng)絡(luò)中個(gè)體個(gè)數(shù)都是數(shù)以萬計(jì)的,而對(duì)每個(gè)個(gè)體的觀測(cè)個(gè)數(shù)(如使用月數(shù))卻是有限的,因此經(jīng)典的協(xié)方差估計(jì)方法并不適用。

那么,在觀測(cè)值不足的情形下,是不是我們就束手無策了呢?一個(gè)沒有利用的信息來源就是網(wǎng)絡(luò)中存在的網(wǎng)絡(luò)結(jié)構(gòu)信息。大量研究表明,網(wǎng)絡(luò)中直接相連的個(gè)體(朋友關(guān)系)存在著一定相關(guān)性,回歸到這個(gè)問題,一個(gè)人的通話量可能與其好友的通話量存在著極大地相關(guān)性。設(shè)想一種極端的情形,假如當(dāng)前用戶的朋友全部離開當(dāng)前通訊網(wǎng)絡(luò),那么該用戶極有可能也會(huì)離開當(dāng)前通訊網(wǎng)絡(luò)。因此,利用社交網(wǎng)絡(luò)中的網(wǎng)格信息建模有利于更加準(zhǔn)確的估計(jì)協(xié)方差矩陣。

假設(shè)網(wǎng)絡(luò)中存在i= 1,2,…,p個(gè)用戶。具體地,用A=(ai1,i2)?P\TIMESP 代表網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù),其中,ai1,i2=1表示用戶i1 與i2 存在通話,否則不然。我們稱A為鄰接矩陣。那么可以利用鄰接矩陣A的信息來推斷協(xié)方差矩陣Σ 的信息。在推斷過程中,不僅用到直接相連的朋友關(guān)系,我們可以大膽猜測(cè),甚至于朋友的朋友的通話量對(duì)于估計(jì)協(xié)方差矩陣也起到一定作用。其中,“朋友的朋友”這種二度連接關(guān)系可以用鄰接矩陣的平方 A2表示。以此類推,協(xié)方差矩陣可能與 A,A2,?,Ad相關(guān)。因此,可以將協(xié)方差估計(jì)問題描述成一個(gè)協(xié)方差回歸問題:

Σ(A)=β0Ip+β1A+?+βdAd

因此,估計(jì)協(xié)方差就轉(zhuǎn)變成回歸系數(shù)β0,β1,?,βd 的參數(shù)估計(jì)問題。最近的一篇關(guān)于利用社交網(wǎng)絡(luò)信息估計(jì)協(xié)方差矩陣的學(xué)術(shù)文章對(duì)這個(gè)問題進(jìn)行了探索,其主要思想在于在保證協(xié)方差矩陣正定的前提下,分別采用了最小二乘以及最大似然的方法對(duì)協(xié)方差矩陣進(jìn)行估計(jì)。同時(shí),該文章建議用BIC準(zhǔn)則選擇模型的階數(shù)d。

3.2.3 實(shí)際案例

035

在此,我們結(jié)合實(shí)際案例,說明如何通過網(wǎng)絡(luò)信息尋找最有影響力個(gè)體。數(shù)據(jù)來源是四川大學(xué)大一學(xué)生的校園網(wǎng)絡(luò),共包含6856個(gè)學(xué)生。記錄他們每人在2012年1月份的通話量,并且獲取他們相互之間的通話關(guān)系。

通過BIC的準(zhǔn)則選擇模型的階,結(jié)果顯示模型最優(yōu)階為2,這表明截止到2度的連接關(guān)系都對(duì)協(xié)方差估計(jì)產(chǎn)生顯著影響,根據(jù)極大似然估計(jì)的結(jié)果如下:

Σ(A)=1.17Ip+0.12A+0.07A2

通過上述結(jié)果我們可以看到,隨著階數(shù)的增加,鄰接矩陣的貢獻(xiàn)在此案例中減小,這也表明直接連接具有更大的價(jià)值和實(shí)際意義。定義網(wǎng)絡(luò)影響指數(shù),即個(gè)體j的網(wǎng)絡(luò)影響力是指該個(gè)體與其他個(gè)體的所有協(xié)方差之和。按照上述回歸結(jié)果,對(duì)影響力指數(shù)進(jìn)行排序,結(jié)果顯示前22.8%的個(gè)體占據(jù)了整個(gè)網(wǎng)絡(luò)50%的影響力。這表明,移動(dòng)通信企業(yè)可以有的放矢的針對(duì)不同用戶的影響力進(jìn)行不同的營銷策略,主要留住具有核心影響力的用戶,將對(duì)通信企業(yè)的未來發(fā)展具有戰(zhàn)略性意義。

3.3 基于網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)的客戶關(guān)系管理

客戶關(guān)系管理(Customer Relationship Management)一直都是企業(yè)營銷管理中的一個(gè)重要部分,客戶價(jià)值作為企業(yè)的一種無形資產(chǎn)備受管理者的關(guān)注,企業(yè)越來越意識(shí)到獲取新客戶固然重要,但是如何能最大程度的留住老顧客也是幫助企業(yè)提升客戶價(jià)值的一個(gè)重要途徑。老客戶對(duì)于企業(yè)有一定的忠誠度和粘性,如果企業(yè)能夠及時(shí)察覺到潛在的流失客戶并對(duì)其進(jìn)行一定的挽留,那么花費(fèi)的成本要比獲取新客戶花費(fèi)的成本要少得多,所以建立必要的客戶流失預(yù)警體系對(duì)于保留有價(jià)值的客戶是十分必要的。有關(guān)客戶流失的研究在營銷領(lǐng)域并不是一個(gè)新的議題,以往有關(guān)客戶流失的研究主要是根據(jù)客戶自身的特征信息(如年齡、性別、收入、購買行為等)來預(yù)測(cè)他流失的概率。在沒有網(wǎng)絡(luò)數(shù)據(jù)時(shí),我們認(rèn)為這種預(yù)測(cè)方法已經(jīng)很好了,但是現(xiàn)在有了網(wǎng)絡(luò)數(shù)據(jù),我們認(rèn)為在預(yù)測(cè)一個(gè)客戶流失可能性的時(shí)候要充分考慮他朋友的信息,因?yàn)閭€(gè)體并不是獨(dú)立存在于這個(gè)世界上的,朋友之間的互動(dòng)會(huì)大大影響一個(gè)人在某個(gè)圈子的去留。最近在我們進(jìn)行的一項(xiàng)有關(guān)手機(jī)用戶離網(wǎng)率的研究中發(fā)現(xiàn)了一些有趣的現(xiàn)象。

我們選取了國內(nèi)某大型通訊公司5萬左右的VIP用戶近3個(gè)月的基礎(chǔ)通話信息數(shù)據(jù)并對(duì)其離網(wǎng)率進(jìn)行分析。我們關(guān)心的問題是什么樣的客戶更容易離網(wǎng)?對(duì)此我們有以下發(fā)現(xiàn),首先對(duì)于一些比較傳統(tǒng)的指標(biāo)我們發(fā)現(xiàn):年齡越大的用戶越不容易離網(wǎng),入網(wǎng)時(shí)間越長(zhǎng)的人越不容易離網(wǎng),延遲繳費(fèi)的人越容易離網(wǎng)。在這些指標(biāo)上,我們又引入了網(wǎng)絡(luò)信息的變量,具體的我們定義了測(cè)量一個(gè)用戶網(wǎng)絡(luò)結(jié)構(gòu)的三個(gè)指標(biāo):網(wǎng)絡(luò)中心度、網(wǎng)絡(luò)緊密度和網(wǎng)絡(luò)平衡度。其中網(wǎng)絡(luò)中心度用與該用戶有過通話的人數(shù)進(jìn)行測(cè)量,我們發(fā)現(xiàn)一個(gè)用戶的網(wǎng)絡(luò)中心度越高,越不容易流失,因?yàn)樗暮糜押芏?,如果一旦離網(wǎng),會(huì)給他帶來很高的轉(zhuǎn)換成本。網(wǎng)絡(luò)緊密度我們用人均通話時(shí)長(zhǎng)進(jìn)行測(cè)量,分析結(jié)果表明人均通話時(shí)長(zhǎng)越長(zhǎng),越不容易流失,這說明用戶的網(wǎng)絡(luò)緊密度越高,他在網(wǎng)絡(luò)中的粘性越大,也就越不容易離開。最后的網(wǎng)絡(luò)平衡度測(cè)量的是和一個(gè)人通話的所有人中通話時(shí)長(zhǎng)的分布,簡(jiǎn)單來說我們想看看一個(gè)人所有通話中他的通話時(shí)長(zhǎng)是如何分布,是不是都集中在某幾個(gè)人身上,還是和每個(gè)人的通話時(shí)長(zhǎng)都差不多,如果這個(gè)值越大,說明和他通話的人越集中(也就是說這個(gè)人只和那么有限的幾個(gè)人通話),如果這個(gè)值越小,說明和他通話的人越分散。我們發(fā)現(xiàn)該指標(biāo)越大的人越容易流失,說明和他通話的人越集中,那么他要離網(wǎng)的話,成本并不高,因?yàn)橹恍柰ㄖ獛讉€(gè)人即可。在具體的預(yù)測(cè)中我們也發(fā)現(xiàn)加入了這些網(wǎng)絡(luò)信息變量的模型要比傳統(tǒng)模型的預(yù)測(cè)精度有所提高。

036

在這個(gè)研究中我們比較感興趣的就是網(wǎng)絡(luò)平衡度這個(gè)概念,為此我們看上圖這個(gè)簡(jiǎn)單的例子,假設(shè)左右兩邊的目標(biāo)客戶他們的基本通話數(shù)據(jù)都一致,以往我們很少去關(guān)注一個(gè)人的通話分布,現(xiàn)在我們會(huì)發(fā)現(xiàn)左邊的客戶明顯有一個(gè)經(jīng)常聯(lián)系的對(duì)象(其中連線越粗表示二者聯(lián)系越緊密),而右邊的客戶基本和所有通話好友處于一個(gè)比較平均的狀態(tài).所以我們可以推斷左邊的目標(biāo)客戶比右邊的目標(biāo)客戶更容易離網(wǎng).

從該案例中我們可以看到網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)可以幫助我們做傳統(tǒng)的客戶流失預(yù)測(cè),從而幫助企業(yè)更好的進(jìn)行客戶關(guān)系管理。

3.4 網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)的抽樣與計(jì)算

在大數(shù)據(jù)風(fēng)靡的這個(gè)時(shí)代人們普遍有兩種觀點(diǎn),一是隨著存儲(chǔ)能力的提升我們?cè)谶M(jìn)行數(shù)據(jù)分析時(shí)可以不需要抽樣,二是隨著計(jì)算能力的提升,我們可以不依賴筆記本電腦,而在大型服務(wù)器上進(jìn)行我們想要的計(jì)算。但是最為一個(gè)普通的科研工作者或是一家小型企業(yè)來說,購買大量的服務(wù)器進(jìn)行存儲(chǔ)和計(jì)算顯然不是一件劃算的事情,即便是騰訊、百度這樣的大型互聯(lián)網(wǎng)企業(yè)也不可能每次都耗時(shí)耗力的把所有數(shù)據(jù)拿來算一遍。網(wǎng)絡(luò)數(shù)據(jù)更是非常龐大復(fù)雜,如何對(duì)其進(jìn)行有效的抽樣和巧妙的計(jì)算是十分值得關(guān)注和研究的問題。我們?cè)诰W(wǎng)絡(luò)數(shù)據(jù)的抽樣與計(jì)算上做了一點(diǎn)小小的嘗試,得出了自己的一些見解,在我們最近的一篇有關(guān)“基于抽樣網(wǎng)絡(luò)數(shù)據(jù)的空間自回歸系數(shù)的估計(jì)”的研究中,我們的研究發(fā)現(xiàn)通過滾雪球抽樣的方法可以提高對(duì)參數(shù)估計(jì)的精度,并且通過一些巧妙的計(jì)算方法可以使得看似繁雜的計(jì)算變得簡(jiǎn)單易行。

網(wǎng)絡(luò)結(jié)構(gòu)信息可以幫助我們對(duì)用戶的行為進(jìn)行推斷,推斷的基礎(chǔ)來源于我們認(rèn)為“物以類聚、人以群分”,相似的個(gè)體之間會(huì)受到影響,例如,如果你的周圍都是信用記錄良好的人,那么你的信用應(yīng)該也不會(huì)差,相反,如果你的周圍都是一些經(jīng)常欠賬不還的人,那么你有很大的可能信用也不會(huì)好。正如下圖所示,如果有了網(wǎng)絡(luò)結(jié)構(gòu)信息,那么我們就可以基于好友的行為對(duì)圖中兩個(gè)問號(hào)的個(gè)體的一些偏好進(jìn)行推斷.

037

在此之前我們需要對(duì)一個(gè)群體中人與人之間的相互影響程度做一個(gè)判斷,將其定義為人與人之間的相互依賴度,這是我們關(guān)心的參數(shù),記為 。根據(jù)我們所獲得網(wǎng)絡(luò)結(jié)構(gòu)信息,利用空間自回歸模型對(duì) 進(jìn)行估計(jì),這里我們用一個(gè)網(wǎng)絡(luò)模型來簡(jiǎn)單描述個(gè)體的偏好是如何形成的,如下圖,左側(cè)是一個(gè)高度簡(jiǎn)化的網(wǎng)絡(luò)結(jié)構(gòu),其中紅線代表互相關(guān)注,藍(lán)線代表單向關(guān)注,如果有關(guān)注關(guān)系則在右側(cè)的的單元格里記為“1”,否則記為“0”。其中Y代表個(gè)體的偏好,我們認(rèn)為好友的影響是有限的,所以如果我有四個(gè)好友,那么我受到的影響將是他們的平均影響, 則是我們關(guān)心的參數(shù):人與人之間的依賴程度。

038

我們將以上的描述用數(shù)學(xué)模型的形式展現(xiàn)出來,這就應(yīng)用到了空間自回歸模型,如下圖所示,其中

打賞
0相關(guān)評(píng)論
Processed in 2.659 second(s), 1074 queries, Memory 11.32 M