
6月27日,由財(cái)視傳媒、傳播達(dá)人匯主辦的2017全球大數(shù)據(jù)傳播大會(huì)在京舉行。
中國(guó)傳媒大學(xué)新聞學(xué)院教授、大數(shù)據(jù)挖掘與社會(huì)計(jì)算實(shí)驗(yàn)室主任沈浩博士出席大會(huì),并發(fā)表以“大數(shù)據(jù)時(shí)代的可視化傳播”為主題的演講。
甫一開場(chǎng),沈浩跟現(xiàn)場(chǎng)觀眾分享了一個(gè)他非常喜歡的視頻,一個(gè)人形機(jī)器人在跟著名主播聊天,主播問它,你有靈魂嗎?它說(shuō),我思故我在。他以此來(lái)解釋大數(shù)據(jù)通過語(yǔ)音識(shí)別對(duì)語(yǔ)義進(jìn)行理解,形成豐富的知識(shí)庫(kù)。
提到大數(shù)據(jù)領(lǐng)域最熱的人工智能,沈浩舉例,兩個(gè)阿爾法狗下圍棋,輸贏不重要,重要的是它們要把所有的棋譜路徑都走完,互相訓(xùn)練生成的對(duì)抗神經(jīng)網(wǎng)絡(luò)。
沈浩表示,深度學(xué)習(xí)技術(shù)會(huì)是一種新的算法革命,這種算法革命實(shí)際上得益于大數(shù)據(jù)的基礎(chǔ)發(fā)展。
作為中國(guó)傳媒大學(xué)新聞學(xué)院教授,沈浩還提到大數(shù)據(jù)在新聞業(yè)的應(yīng)用。他透露,中國(guó)傳媒大學(xué)最早創(chuàng)建數(shù)據(jù)新聞專業(yè),今年第二次招生有4000多人報(bào)名。數(shù)據(jù)新聞是基于數(shù)據(jù)去發(fā)現(xiàn)新聞的一種模式,新聞后面的那些受眾并非都是博士、碩士,要讓人們瞬間理解大數(shù)據(jù)所呈現(xiàn)的東西,也是大數(shù)據(jù)的應(yīng)用情景,很多人不做大數(shù)據(jù),但是能理解大數(shù)據(jù)。
他應(yīng)用自己為新書《爆發(fā)》所寫的推薦語(yǔ):這是一個(gè)令人興奮的時(shí)代,也是一個(gè)大數(shù)據(jù)的時(shí)代,數(shù)據(jù)科學(xué)讓我們?cè)絹?lái)越多地從數(shù)據(jù)中觀察到人類社會(huì)的復(fù)雜行為模式。以數(shù)據(jù)為基礎(chǔ)的技術(shù)決定著人類的未來(lái),但并非是數(shù)據(jù)本身改變了我們的世界,起決定作用的是我們對(duì)可用知識(shí)的增加。
沈浩提到,人類行為的93%是可預(yù)知的。微博等社交媒體重塑了用戶的社會(huì)關(guān)系,基于社交媒體的社會(huì)關(guān)系重構(gòu),讓每個(gè)人的行為特征得以被追蹤。
沈浩還提醒用戶,微博轉(zhuǎn)發(fā)不要太隨意,理論上能夠知道任何一個(gè)人轉(zhuǎn)發(fā)和傳播過程中的角色、位置和作用。利用大數(shù)據(jù)建模技術(shù),他曾分析過雅安地震時(shí)在中國(guó)紅十字會(huì)微博下面大量讓它“滾”的用戶,因?yàn)橄胫朗裁慈嗽谡f(shuō)“滾”,有沒有什么團(tuán)伙。
他把大數(shù)據(jù)分成四個(gè)領(lǐng)域,一是數(shù)據(jù)科學(xué),其中有人們關(guān)注的文本挖掘技術(shù)、情感挖掘技術(shù)、語(yǔ)義挖掘技術(shù);二是網(wǎng)絡(luò)科學(xué),特別是人與人鏈接在一起的社會(huì)網(wǎng)絡(luò)或者是復(fù)雜網(wǎng)絡(luò);三是空間地理科學(xué)的發(fā)展,特別是在GIS和智慧交通、智慧城市的發(fā)展上;四是可視化技術(shù),數(shù)據(jù)、信息、交互等方面的可視化。
最后,沈浩總結(jié)道,大數(shù)據(jù)領(lǐng)域有一種說(shuō)法叫軟件定義一切、數(shù)據(jù)驅(qū)動(dòng)未來(lái)、算法統(tǒng)治世界。而媒體現(xiàn)在會(huì)說(shuō),軟件定義媒體、數(shù)據(jù)驅(qū)動(dòng)新聞,算法重構(gòu)人們挖掘新聞事件的渠道。如何從海量的數(shù)據(jù)中尋找隱藏在數(shù)據(jù)中的模式、知識(shí)和相關(guān)性,都需要更好的數(shù)據(jù)洞察能力。
附沈浩演講全文(經(jīng)財(cái)視media 編輯整理):
大家上午好!我的演講題目是“大數(shù)據(jù)時(shí)代的可視化傳播”,前段時(shí)間有一個(gè)大數(shù)據(jù)的報(bào)告,正好是一個(gè)十大最有影響力的大數(shù)據(jù)學(xué)者,我為什么想表達(dá)這樣一個(gè)概念呢——因?yàn)槲以趥髅酱髮W(xué)新聞學(xué)院,人家總說(shuō)做新聞的、做傳播的老師怎么會(huì)懂大數(shù)據(jù)呢?
我想給大家分享一個(gè)我非常喜歡的視頻,一個(gè)人形機(jī)器人在跟著名主播聊天,主播問它,你有靈魂嗎?它說(shuō),我思故我在。
像這樣一個(gè)人形機(jī)器人它是怎么實(shí)現(xiàn)的呢?首先,今天在大數(shù)據(jù)支撐下,視頻已經(jīng)可以識(shí)別我在跟人聊天,在這個(gè)視頻上,這個(gè)機(jī)器人的臉、肌肉已經(jīng)有表情了。
當(dāng)視頻,也就是圖像可以識(shí)別的時(shí)候,語(yǔ)音也可以識(shí)別。當(dāng)語(yǔ)音能識(shí)別的時(shí)候,文本也就可以識(shí)別了,就能夠?qū)φZ(yǔ)義進(jìn)行理解,形成豐富的知識(shí)庫(kù)。
今天大數(shù)據(jù)最熱的是AI人工智能,人工智能如何產(chǎn)生數(shù)據(jù)呢?對(duì)于文本,可以給它幾百萬(wàn)的語(yǔ)料進(jìn)行訓(xùn)練。實(shí)際上現(xiàn)在有一種叫生成對(duì)抗的神經(jīng)網(wǎng)絡(luò),讓兩個(gè)機(jī)器人互相聊天、互相訓(xùn)練,這時(shí)候所有的數(shù)據(jù)是機(jī)器自己生成的。
大家想一想,如果一個(gè)阿爾法狗A跟阿爾法狗B一起下圍棋,這時(shí)候誰(shuí)贏不重要,重要的是它們倆把所有棋譜的路徑都走完。所以這種生成的對(duì)抗神經(jīng)網(wǎng)絡(luò),通過一個(gè)解碼,一個(gè)判別分析,可以生成更多的人工智能的改變。
所以我一直感覺深度學(xué)習(xí)技術(shù)是一種新的算法革命,而這種新的算法革命,實(shí)際上得益于我們大數(shù)據(jù)的基礎(chǔ)。
但是到底什么是大數(shù)據(jù)?媒體更熱的實(shí)際上像數(shù)據(jù)新聞、AR、VR,特別是現(xiàn)在能實(shí)現(xiàn)新聞或者叫機(jī)器人新聞寫作。因?yàn)闄C(jī)器表達(dá)對(duì)某一個(gè)專業(yè)知識(shí)領(lǐng)域的知識(shí)圖譜的建構(gòu),以及寫詩(shī),特別是新聞的東西,也許這件事情馬上就會(huì)成功,特別是對(duì)中文。
這張圖上,全球每個(gè)地方只要有人發(fā)Twitter就有一個(gè)亮點(diǎn),我們立刻可以感知到這個(gè)社會(huì)。我用了一個(gè)“感知”,你會(huì)發(fā)現(xiàn)很多人不做大數(shù)據(jù),但是會(huì)理解大數(shù)據(jù)。
大數(shù)據(jù)最能夠讓傳媒大學(xué)最早創(chuàng)建數(shù)據(jù)新聞專業(yè),今年第二次自主招生4000多人來(lái)報(bào)名。數(shù)據(jù)新聞是基于數(shù)據(jù)發(fā)現(xiàn)新聞的一種模式,新聞后面的那些受眾不都是博士、碩士,人們需要瞬間能夠理解大數(shù)據(jù)所呈現(xiàn)的東西,這個(gè)也是大數(shù)據(jù)的情景。
其實(shí)今天不光是我們?nèi)祟愃傻臄?shù)據(jù),現(xiàn)在還有各種傳感器在生成數(shù)據(jù),一個(gè)街區(qū)每一個(gè)點(diǎn)的傳感器。
前段時(shí)間有一本書叫《爆發(fā)》,當(dāng)時(shí)他們請(qǐng)我寫推薦語(yǔ):這是一個(gè)令人信服的時(shí)代,也是大數(shù)據(jù)時(shí)代,數(shù)據(jù)科學(xué)讓我們?cè)絹?lái)越多觀察到人類行為的復(fù)雜模式。以數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)決定著我們的未來(lái),但不是數(shù)據(jù)本身,而是我們?cè)跀?shù)據(jù)的基礎(chǔ)上擁有更多可用數(shù)據(jù)的增加。
人類行為的93%是可預(yù)知的,大家相信這句話嗎?所以微博出現(xiàn)的時(shí)候,我對(duì)我的學(xué)生說(shuō),你可要好好寫微博,將來(lái)你的雇主在雇傭你之前都會(huì)仔細(xì)看你的微博,由此了解你的性格、消費(fèi)習(xí)慣、品牌愛好、生活方式、甚至是你的價(jià)值觀。
其實(shí)微博等社交媒體重塑了我們的社會(huì)關(guān)系,對(duì)于這樣一個(gè)基于社交媒體的社會(huì)關(guān)系的重構(gòu),使得我們可以更好地去感知到一個(gè)人的行為特征。
在這個(gè)過程中,我們需要大數(shù)據(jù)的各種建模技術(shù),比如雅安地震時(shí)中國(guó)紅十字會(huì)發(fā)表的一條微博,下面大量的人讓它滾,我做了這張分析圖,主要是想知道什么人在這里說(shuō)滾,有沒有什么團(tuán)伙。其實(shí)我經(jīng)常說(shuō)在微博上你不要隨便轉(zhuǎn),理論上我們知道任何一個(gè)人這次轉(zhuǎn)發(fā)和傳播過程中的角色、位置和作用。
左邊這個(gè)圖是2012年我制作的一張經(jīng)典的傳播路徑圖,這是杜蕾斯的一條營(yíng)銷廣告叫“女性勵(lì)志”,它傳播以后我把它抓下來(lái),可以看到這條信息傳播非常值得解讀,包含像物理學(xué)的分形理論、小世界理論、強(qiáng)關(guān)系、弱關(guān)系、橋連接等等概念。
我把大數(shù)據(jù)分成四個(gè)領(lǐng)域,一個(gè)是我們看到的數(shù)據(jù)科學(xué),當(dāng)然今天我們更關(guān)注的是文本的挖掘技術(shù)、情感挖掘的技術(shù)、語(yǔ)義挖掘的技術(shù)。另外兩個(gè)是網(wǎng)絡(luò)科學(xué),特別是人與人鏈接在一起的社會(huì)網(wǎng)絡(luò)或者是復(fù)雜網(wǎng)絡(luò)。今天大數(shù)據(jù)已經(jīng)帶來(lái)了空間地理科學(xué)的發(fā)展,特別是在GIS和智慧交通、智慧城市發(fā)展上。比如說(shuō)我們整個(gè)中國(guó),當(dāng)然包括整個(gè)全球,每一條公路,每一條自行車道,我們?cè)撊绾潍@得這些數(shù)據(jù)呢?當(dāng)然大數(shù)據(jù)有一個(gè)很重要的特征,就是要看得見。
這里第一張海報(bào)是在圖像識(shí)別技術(shù)中可以立刻搜出所有跟這個(gè)海報(bào)形式差不多的圖像,這時(shí)候個(gè)性化推薦完全不再需要用戶的信息,完全基于海報(bào)的形式。右邊是我根據(jù)拿到上萬(wàn)個(gè)煙草盒的圖片,敲定一個(gè)圖片的種子,它可以找到和這張圖片一樣模式的,這是深度學(xué)習(xí),基于網(wǎng)絡(luò)圖像識(shí)別技術(shù),給人一種非常興奮的感覺。
前段時(shí)間我把特朗普的性格分析了一下,基于他的需求、價(jià)值觀、社會(huì)行為和130種消費(fèi)行為特征,我們可以構(gòu)建出特朗普的團(tuán)隊(duì)行為。還有世界各國(guó)政要的性格分析。從這一塊看特朗普在結(jié)構(gòu)上非常穩(wěn)定。其實(shí)我們今天也可以分析任何一個(gè)人在微博上的性格特征,當(dāng)然也包括給消費(fèi)者打標(biāo)簽。
實(shí)際上我們可以不斷的追蹤這種比較大量的比特幣的交易網(wǎng)絡(luò),追蹤它的交易時(shí)間。其實(shí)對(duì)于移動(dòng)電信大量的發(fā)紅包過程,如果我們擁有這個(gè)數(shù)據(jù),我們可以從網(wǎng)絡(luò)科學(xué)的角度追蹤其整個(gè)發(fā)展的脈絡(luò)。
當(dāng)然今天我們也可以對(duì)任何一篇新聞稿,通過自然語(yǔ)言的實(shí)體命名,抓出來(lái)這些人與人之間的關(guān)系。我們可以解決誰(shuí)對(duì)誰(shuí),在什么時(shí)間,什么地點(diǎn),發(fā)生了什么重要的事情,我們正在做一個(gè)全球新聞事件。當(dāng)然我們?cè)敢庾鋈蛐侣勈录?ldquo;一帶一路”,監(jiān)控全球每天發(fā)生的新聞事件,關(guān)注它發(fā)生的地理位置,報(bào)道之間的邏輯關(guān)系,看到這個(gè)社會(huì)的熱點(diǎn),去監(jiān)控這個(gè)世界所發(fā)生的一些事情。
包括通過自然語(yǔ)言的處理,我們也可以給一個(gè)人打上標(biāo)簽,幾個(gè)字你就知道我是做什么的。我們可以用少量的關(guān)鍵詞代表一篇文章、一個(gè)人的語(yǔ)言表征?;谶@些關(guān)鍵詞,我們可以找到同樣的文本,實(shí)現(xiàn)新聞的自動(dòng)分類。當(dāng)然我們也可以對(duì)各種事件進(jìn)行相應(yīng)的自動(dòng)聚類分析。
我們也可以做一些可視化的東西,以更好的方式去呈現(xiàn)形態(tài),我們通過算法可以立刻圈出這些人在什么地方,將來(lái)在重大事件安全中,我們可以監(jiān)控誰(shuí)在二環(huán)內(nèi),誰(shuí)在三環(huán)內(nèi)。
這個(gè)圖是我做的,上海基于這個(gè)點(diǎn)上,可以把城市基于這個(gè)位置上的時(shí)間以及它覆蓋的商圈分析出來(lái)。而這樣一個(gè)過程是蜂窩化的,因此如果城市蜂窩化、網(wǎng)格化,那么管理就可以精細(xì)化,我們可以在這樣的網(wǎng)格上更精細(xì)地去部署多少警力、多少選址或者多少個(gè)麥當(dāng)勞等等。這樣一些實(shí)時(shí)的運(yùn)算,基于地理空間的信息,我們可以獲取各個(gè)小區(qū),甚至建筑樓宇,也可以看到人群在這些環(huán)境中的活動(dòng)范圍。
當(dāng)然,大數(shù)據(jù)中很重要的一點(diǎn)是,我們需要實(shí)時(shí)感知信息的脈絡(luò),所以我們提出大數(shù)據(jù)需要有輿情作戰(zhàn)室、有大數(shù)據(jù)的駕駛艙,這些就對(duì)今天的我們提出了更高的要求。
所以在這里做一個(gè)總結(jié),實(shí)際上在大數(shù)據(jù)領(lǐng)域有一種說(shuō)法叫“軟件定義一切”,數(shù)據(jù)驅(qū)動(dòng)未來(lái),算法統(tǒng)治世界。但是今天用在媒體領(lǐng)域,我們會(huì)說(shuō)“軟件定義媒體”,數(shù)據(jù)驅(qū)動(dòng)新聞,我們基于數(shù)據(jù)可以找到新聞事件,挖掘線索或者新聞本身,當(dāng)然算法重構(gòu)渠道,例如今日頭條等等,這些都可能在未來(lái)帶來(lái)更多的發(fā)展。
這是我給大數(shù)據(jù)時(shí)代這本書寫的推薦語(yǔ):大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,我們?nèi)绾螐暮A康臄?shù)據(jù)中尋找隱藏在數(shù)據(jù)中的模式、知識(shí)和相關(guān)性都需要我們擁有更好的數(shù)據(jù)洞察。謝謝大家。