徐小良:
接下來我們請(qǐng)出的是北京大學(xué)計(jì)算機(jī)研究院的萬小軍教授,萬教授是北京大學(xué)語言計(jì)算和互聯(lián)網(wǎng)挖掘研究室的負(fù)責(zé)人,目前主要從事語義計(jì)算、文本生成與社交媒體挖掘方面的研究工作,他給我們介紹的是《面向社交媒體的情感分析技術(shù)和應(yīng)用》,同時(shí)他會(huì)介紹他們?cè)谶@些方面取得的研究成果,掌聲有請(qǐng)萬教授!
萬小軍:
大家上午好!
我是學(xué)計(jì)算機(jī)的,是技術(shù)宅男,剛才聽到市場(chǎng)行業(yè)各種大咖的演講,我覺得他們的PPT做的很漂亮,宣傳片做的很漂亮。因?yàn)槭羌夹g(shù)宅男,所以更加側(cè)重技術(shù),在PPT的設(shè)計(jì)方面可能沒有太多的美化,我們還是具體來探討一下背后的技術(shù),我要講的是情感分析的關(guān)鍵技術(shù)。
互聯(lián)網(wǎng)讓我們知道大數(shù)據(jù),數(shù)據(jù)主要有兩種類型,一種是事實(shí)型的,比如說維基百科和新聞,因?yàn)樗磉_(dá)的是客觀的事實(shí)。另一種是社交媒體網(wǎng)站上的數(shù)據(jù),這些文本都是用戶生成文本,在用戶生成文本中,這里面的用戶,在文本中會(huì)表達(dá)針對(duì)各種各樣的觀點(diǎn)。為什么社交媒體上有很大的商業(yè)價(jià)值,主要是社交媒體上有海量的觀點(diǎn)文本。通過觀點(diǎn)文本的挖掘和分析,我們可以獲得海量用戶針對(duì)某一個(gè)特定對(duì)象,比如說針對(duì)一個(gè)產(chǎn)品的喜好和業(yè)務(wù),我們不需要再做一些調(diào)查、提一些問卷、打電話、詢問,當(dāng)然你的樣本量很小。所以我們認(rèn)為海量的關(guān)鍵信息是社交媒體信息的核心價(jià)值之一,關(guān)鍵數(shù)據(jù)是社交媒體最重要的特色。
我們?cè)趺礃荧@取關(guān)鍵信息,從產(chǎn)品評(píng)論中或者從貼吧的貼子中,都可以看到這個(gè)人的分析,知道這個(gè)作者他對(duì)某個(gè)對(duì)象表達(dá)了特定的態(tài)度。我們不能全部用人工分析,因?yàn)楣ぷ髁刻蟆N覀冊(cè)趺礃佑糜?jì)算機(jī)自動(dòng)獲取這樣的關(guān)鍵信息,因?yàn)橛?jì)算機(jī)的計(jì)算能力很強(qiáng),它可以一天24小時(shí)不停的工作,它可以替代人來做這件事情。這里面的核心技術(shù),就是我們的情感分析和觀點(diǎn)挖掘技術(shù),這也是我們從2004年之后逐步發(fā)展起來的一門技術(shù),在自然語言里面處理很火的技術(shù)。
傳統(tǒng)的自然語言處理主要是研究句法和語義分析,對(duì)一個(gè)句子和文本了解它的主語和謂語是什么,我們需要用情感分析和觀點(diǎn)挖掘技術(shù),才能獲得這樣的信息。情感分析和觀點(diǎn)挖掘,它有幾種不同的子類技術(shù),最直接是褒貶的傾向分析,比如說文本、貼吧的貼子或者是博客,可以分為整體的傾向是褒義的、貶義的還是中性的。比如說把一個(gè)微博的帖子分為這樣七類,他可能表現(xiàn)其他的情緒,或者是厭惡的情緒或者是憤怒的情緒等等。
還有就是觀點(diǎn)抽取技術(shù),不光要判斷一個(gè)文本整體的傾向性。比如說這是有人對(duì)《港囧》發(fā)表的一篇微博,整體的傾向是貶義的。但是在這個(gè)文本中對(duì)不同的對(duì)象進(jìn)行了評(píng)價(jià),我用一個(gè)紅色的圓圈標(biāo)識(shí)出來,對(duì)片子有評(píng)價(jià),對(duì)徐崢和趙薇、包貝爾都有評(píng)價(jià),這是非常細(xì)膩的情感分析技術(shù)。
主要的方法,當(dāng)然這里面有很多不同的方法,計(jì)算機(jī)領(lǐng)域的人有很多在研究這樣的方法。主要有技術(shù)規(guī)則的方法,可以人工寫一些模板,寫一些規(guī)則,然后來判斷我們這樣的文本情緒,褒貶傾向。另外一個(gè)是機(jī)器學(xué)習(xí)的方法,人工標(biāo)注大量的數(shù)據(jù),較給機(jī)器學(xué)習(xí)的模型,讓他學(xué)習(xí)到分類器或者是觀點(diǎn)抽取的模型,用這樣的模型對(duì)海量的位置數(shù)據(jù)可以快速的做我們的情感分析和觀點(diǎn)的抽取。
這幾年發(fā)展的比較快的技術(shù),事實(shí)上技術(shù)深度的學(xué)習(xí)方法,也是我們基于機(jī)器學(xué)習(xí)方法的特例。深度學(xué)習(xí)這幾年特別火,這也是有很多人研究的。整體的情感分析技術(shù)水平,這個(gè)技術(shù)要根據(jù)不同的領(lǐng)域和不同的數(shù)據(jù)來決定。
比如說針對(duì)淘寶上的產(chǎn)品評(píng)論做的效果好一些,針對(duì)微博上的評(píng)論做的效果差一些。整體來講效果是70%到90%之間,針對(duì)不同的數(shù)據(jù)會(huì)有不同的結(jié)果。所以說不能籠統(tǒng)的說情感分析達(dá)到了90%或者說達(dá)到了70%,這是不對(duì)的,我們要給出特定的領(lǐng)域和特定的數(shù)據(jù),才能說出我們情感分析整體的效果。
情感分析的應(yīng)用其實(shí)有很多,大家有做市場(chǎng)研究的知道的比我多。我搜集了一些,也拍腦袋想了一些,有用戶畫像與精準(zhǔn)營(yíng)銷、產(chǎn)品比較與推薦、個(gè)人與機(jī)構(gòu)聲譽(yù)分析、電視節(jié)目滿意度分析、用戶反饋分析、互聯(lián)網(wǎng)輿情分析語危機(jī)公關(guān)、未來的預(yù)測(cè),你要預(yù)測(cè)一個(gè)電影票房,預(yù)測(cè)奧斯卡獎(jiǎng)都是可以預(yù)測(cè)的。預(yù)測(cè)里面有一個(gè)重要的指標(biāo),就是情感分析的結(jié)果,把情感分析的數(shù)據(jù),結(jié)合其他的線索,我們可以準(zhǔn)確的預(yù)測(cè)到很多方面的情況。
舉例來說,這是關(guān)于IBM軟件的帖子,IBM研究院認(rèn)為現(xiàn)在我們?cè)谧鲈诰€營(yíng)銷效果不太好,主要還是做一些簡(jiǎn)單的消費(fèi)者年齡、性別,按這樣簡(jiǎn)單的分類來做。實(shí)際上真正重要的是影響人們購(gòu)買需求,我們要找到用戶深層的特寫,包括他們的人格特質(zhì)、價(jià)值觀和需求,我們需要利用情感分析的技術(shù),才能很好的找到他們的語音習(xí)慣和情感色彩,這樣可以刻劃他們的性格,這樣我們做精準(zhǔn)營(yíng)銷就可以更加精準(zhǔn)了。
這個(gè)圖顯示對(duì)奧巴馬帖子分析的結(jié)果,越往上紅色部分代表的是越正面,越往下代表越負(fù)面,這是隨著時(shí)間演化的圖。我們可以看到不同的時(shí)間點(diǎn),網(wǎng)民對(duì)于奧巴馬的評(píng)價(jià)可能是不一樣的,有的時(shí)候比較正面一點(diǎn),有的時(shí)候比較負(fù)面一點(diǎn),這個(gè)可以分析奧巴馬的支持率,通過這樣的技術(shù)手段可以分析。
在產(chǎn)品的比較和推薦中,我們也可以做出這樣的系統(tǒng),我們可以對(duì)汽車的產(chǎn)品評(píng)論抓下來做一個(gè)分析,分析我們?cè)u(píng)論中針對(duì)汽車是哪個(gè)方面,首先是評(píng)價(jià),是滿意,還是不滿意。最左側(cè)是對(duì)于汽車的油耗、安全性、空間、動(dòng)力各個(gè)方面做了統(tǒng)計(jì)分析,滿意的有多少條,不滿意的有多少條,這樣對(duì)購(gòu)車來講很方便。如果你關(guān)注的是油耗,你看一下大家對(duì)油耗是不是滿意,這個(gè)可以很方便幫助大家購(gòu)物,因?yàn)樗鼘iT針對(duì)汽車評(píng)論來做,這個(gè)領(lǐng)域比較窄,所以它做的效果比較好。
雅虎早期推出人物搜索,也可以對(duì)網(wǎng)上某一個(gè)人物的評(píng)論進(jìn)行分析,分析出針對(duì)這個(gè)人物的好評(píng)或者是差評(píng),這是針對(duì)周杰倫一些評(píng)論的帖子,它可以分析出帖子中對(duì)周杰倫好評(píng)的有多少條,差評(píng)的有多少條。比如說周杰倫是一個(gè)自戀的男生,這一條分析的結(jié)果是差評(píng),因?yàn)檫@里面有自戀,可能是一個(gè)貶義詞,總體來說會(huì)基于情感分析的結(jié)果會(huì)得出關(guān)于某個(gè)人物的結(jié)果。
這是電視節(jié)目滿意度的調(diào)查,也通過了情感分析的技術(shù),當(dāng)然還有其他的因素來做這樣的事情,我們也參與到其中一屆滿意度的調(diào)查。高校微實(shí)力排行榜結(jié)果的分析,也會(huì)利用情感分析的結(jié)果,對(duì)高校在微信或者是微博上的互動(dòng),以及對(duì)它的評(píng)價(jià)來做一些分析。
我們需要有微博爬蟲或者是微信爬蟲,我們需要有觀點(diǎn)挖掘工具。微博用戶的情緒檢測(cè),比如說我們從這個(gè)圖中,這是李開復(fù)的微博,分析他每一條微博的情緒,他是憤怒,還是高興,還是悲傷,還是憂愁,最后可以知道李開復(fù)整體的情緒,哪種情緒最多,哪種情緒占的比較少一點(diǎn)。我們可以知道李開復(fù)在什么時(shí)候它的情緒有些波動(dòng),它遇到的事情會(huì)導(dǎo)致它的情緒有波動(dòng)。
微博評(píng)論的褒貶分析,然后分析每一條評(píng)論的褒獎(jiǎng),也做出這樣的環(huán)狀圖來,得到一個(gè)比例的結(jié)果。當(dāng)然我們可以把最重要的褒義、貶義的評(píng)論列出來作為代表性的評(píng)論。
在微博的觀點(diǎn)抽取上,我們也做了一個(gè)工具,我們把微博評(píng)論都抓下來,把主要的評(píng)價(jià)對(duì)象抓下來,然后再分析我們用戶這些帖子,針對(duì)每一個(gè)評(píng)價(jià)對(duì)象的評(píng)價(jià)結(jié)果。比如說這是畢福劍的一條微博,很多人會(huì)發(fā)表評(píng)論,這里面我們抽到很多相關(guān)的評(píng)價(jià)對(duì)象,比如說畢福劍,類似這樣的評(píng)價(jià)對(duì)象,我們最終對(duì)每一個(gè)對(duì)象有評(píng)價(jià)的結(jié)果進(jìn)行分析。
用戶立場(chǎng)分析,我們要分析針對(duì)給定的對(duì)象,我們要分析一個(gè)微博的用戶,針對(duì)這個(gè)它的立場(chǎng)是什么,是支持,還是反對(duì)。這個(gè)跟前面的情感分析有點(diǎn)不一樣,比如說有一個(gè)人,用戶發(fā)表了一個(gè)帖子崔永元我支持你,我們分析這個(gè)帖子對(duì)轉(zhuǎn)基因的態(tài)度,他是支持轉(zhuǎn)基因,還是反對(duì)轉(zhuǎn)基因,他的立場(chǎng)是什么。我們需要分析崔永元屬于哪個(gè)派別,農(nóng)業(yè)部方舟子又是哪個(gè)派別,我們可以得到這個(gè)用戶的立場(chǎng),這個(gè)也是挺有用的技術(shù)。
最后一個(gè)技術(shù)是用戶行動(dòng)檢測(cè),它不同于情感分析,有的時(shí)候我們需要判斷,微博是不是包含行動(dòng)信息。比如說光盤行動(dòng)號(hào)召,我們要判斷一個(gè)微博中,是不是包含跟光盤行動(dòng)號(hào)召直接相關(guān)的行動(dòng),這里有兩個(gè)例子,藍(lán)色代表的是有行動(dòng)的,它中午吃光了一大盤炒飯,這是光盤行動(dòng),我們把行動(dòng)信息和關(guān)聯(lián)信息區(qū)別開來。
最終結(jié)合我們的技術(shù)也做了微博可視化分析平臺(tái),把各種情感分析、用戶的各種屬性分析,以及關(guān)鍵詞的分析都做在同一個(gè)界面上,可以很方便的看到各個(gè)方面的情況,這個(gè)是放大之后。這是微博轉(zhuǎn)發(fā)的圖,這是針對(duì)透明計(jì)算帖子的轉(zhuǎn)發(fā),當(dāng)時(shí)轉(zhuǎn)發(fā)特別火,有一些比較重要的轉(zhuǎn)發(fā)節(jié)點(diǎn),從圖上可以看的比較清楚,謝謝大家。
提問:
我想問一下,你最大的處理量和最小的處理量,告訴我一個(gè)區(qū)間范圍,曾經(jīng)用語義文本分析的模型。
萬小軍:
應(yīng)該有幾十萬都可以處理,你讓計(jì)算機(jī)跑,如果數(shù)據(jù)量大用多臺(tái)計(jì)算機(jī)都是可以的,它跟算法是沒有關(guān)系的,我們用多臺(tái)服務(wù)器都是可以的。但是有的技術(shù)不能實(shí)時(shí)的反饋結(jié)果,要等一段時(shí)間才能反饋結(jié)果。
提問:
因?yàn)槲矣X得語義分析是最難的一件事,你做明星的微博分析,最小數(shù)據(jù)量處理的是多少?
萬小軍:
一條都可以處理。
提問:
一條就沒有意義了。
萬小軍:
我們從算法的角度考慮,它需要處理一條,還是需要處理十萬條、一千萬條,只要用戶把數(shù)據(jù)拿過來都可以處理,對(duì)于算法來講沒有任何的差別,一條也好,幾十萬條也好都是一個(gè)算法,只不過放在不同的服務(wù)器上,讓服務(wù)器多跑一點(diǎn)時(shí)間。
提問:
如果這樣的話,你最多處理的是幾十萬條,你處理的時(shí)間需要多長(zhǎng)時(shí)間,從原數(shù)據(jù)到出來的時(shí)候,需要大概的時(shí)長(zhǎng)是多少?
萬小軍:
一臺(tái)機(jī)器跑的話可能得一天,如果想快用多臺(tái)機(jī)器,把數(shù)據(jù)分塊就可以了。
提問:
萬教授你好,我是貝恩公司的施雷,你剛才講到有開發(fā)微博和微信的爬蟲。我想問一下,除了微博和微信以外,其他哪些平臺(tái)你們也有檢測(cè),包括國(guó)外和國(guó)內(nèi)。
萬小軍:
比如說貼吧和每個(gè)網(wǎng)站的評(píng)論,其實(shí)最難的是微博和微信,我們自己從外圍想辦法爬,這兩個(gè)是最難的,因?yàn)槲⑿艣]有開放的接口,把這兩個(gè)解決了,其他的很簡(jiǎn)單。因?yàn)锳PI有很多限制,所以我們沒有用API,比如說每天限制你爬多少條,不能滿足這樣的需求,所以我們會(huì)模擬手機(jī)瀏覽的過程,從外圍去爬這樣的技術(shù),沒有采用它的API,因?yàn)橛泻芏嘞拗啤?br style="margin: 0px; padding: 0px;" />
徐小良:
謝謝萬教授。在市場(chǎng)研究行業(yè)近三十年的歷程里面,其實(shí)有不少的前輩曾經(jīng)做過我們自身擁有的市場(chǎng)研究專業(yè)技術(shù)和商業(yè)生意結(jié)合的實(shí)踐,有一些失敗的案例,也有一些成功的案例。