徐小良:
接下來我們有請張洪忠教授,他是北京師范大學新聞傳播學院的副院長,傳播效果實驗室主任,他給我們演講的題目是《網絡數據挖掘應用和限制》,大家掌聲歡迎!
張洪忠:
非常感謝劉德寰教授的邀請,能夠到這里來跟大家一起交流。前面的專家、學者,他們從信息技術的角度探討問題。今天我想從社會科學角度來看待大數據。
今天我們所說的很多大數據,其實是基于網絡發(fā)展而產生興起的。真正的大數據,比如說人口數據等等,真正的大數據之前都存在,但是在網絡技術之前沒有把它提出來。今天我想講《網絡技術的應用于限制》。
我們所說的網絡數據可以分為五種類型,今天能夠從互聯網上拿到的數據,一種是傳統(tǒng)的調查,我們有三種方式獲得樣本,我們以導流量的方式獲得樣本。我們直接從淘寶和微博里面入口端導流量,這個流量是很大的。但是它有一個很大的問題,我們的量大、速度很快,但是我們不知道總體在哪里,我們沒有推斷性,它是非概念的樣本。剛好這幾周我正在上研究方法的課,講抽樣和概念的問題,我讓同學們把互聯網上的評論找出來,各個公司所發(fā)布的數據90%是非概念的大數據,號稱大數據,其實也不是大數據,是沒有推斷性的。
雖然這個數據很大,我們經常導流量樣本,但是都是非概念的,它沒有任何的推斷性,只能說樣本怎么樣,不能說網民怎么樣,也不能說別人怎么樣。
從樣本庫中獲得數據,樣本庫里面號稱有七百萬的樣本庫,通過郵件來抽樣得到,這些僅僅可以得到總體,但是總體是六百萬或者是七百萬推斷。但是總體本身的質量怎么樣,樣本庫里面,比較好的方法,我們是做追蹤的研究、比較的研究。但是我們對總體的推斷,其實也是有效的。
我們通過滾雪球的方式,我們所謂的互聯網數據,我們從互聯網的調查來獲得樣本。網絡的點擊量,我們通過PV、UV值,通過這些來得到數據。比如說點擊量怎么樣,自媒體的排行榜,其實就是PV、UV的點擊量。但是我們也是基于某一個網站,我們不知道藍海在什么地方。
社交媒體數據的應用,我們通過社交媒體來挖掘社會關系,但是這種社交媒體的挖掘,我們僅僅是挖掘就算了,我們不知道怎么分析它。比如說長安馬自達,我們具體做的時候要畫圈,是哪些樣本,這些樣本會不會購買馬自達,怎么購買,我們一個一個篩出來,這就是社交媒體數據的挖掘。
我們網民語言數據,微博和微信里面、新聞里面、評論、論壇信息,我們一般有兩種方法,我們采用的是傳統(tǒng)的內容分析的編碼方法。第二種是自然語言的處理,我們通過數據,比如說我們做騰訊汽車指數的時候,2012年給我們一個評論數量有一千多萬字,一臺機器是拉不動的。傳統(tǒng)的方法進行概念的抽樣,進行分析和編碼,然后形成整個圖譜進行分析。
第二種是情緒分析,但是自然語言的處理,有一個很重要的問題,自然語言的處理,我始終是懷疑,我們從來不知道我們的情緒是怎么樣的,恐懼怎么樣,憤怒怎么樣,高興怎么樣。我們不知道它的解釋性有多大。所以我們也曾經這樣做過一個測試,我們做自然語言處理以后,我們做人工編碼進行人工的內容分析,我們發(fā)現其實有時候我們做結果比較接近,有時候差異是很大的,自然語言處理的時候我們面臨一個很大的問題,這是搖號的情緒分析。
網頁內容的信息數據,新聞網站、垂直網站發(fā)布的內容,我們把內容進行分析。第一種也是我們采用內容分析傳統(tǒng)的方法進行編碼、處理、抽樣,第二種也是自然語言的處理,我們做關鍵詞情緒的分析等等。
也就是說,到目前我們所說的互聯網數據大概有五種數據的來源,這種來源里面,它各有各的缺陷,每種數據它的解釋都是有邊界的。網絡數據的應用傳播,這些都是常用的案例。我們要解釋一些相關性,我們通過貼標簽找到客戶,我們的需求,做預測等等,通過相關性的檢測進行分析,對時間緯度、空間緯度進行分析。
比如說騰訊汽車頻道,當時我們團隊在2012年3月份,我們把騰訊所有的頻道十多萬條的信息,包括它的PV、UV、網址鏈接全部發(fā)給我們實驗室,我們把它架構成一個模型,我們做一個騰訊汽車指數,我們每個月會發(fā)布,這個指數是總的指數。我們還做了具體的細分市場的分析。比如說我們的排名,每一個品牌,每一款車,每個月可能有幾千張圖表,它發(fā)布的時候只發(fā)布前十名的圖表,這是簡單的應用。
我們面臨這樣的應用,我們說網絡的大數據,我想跟大家分享的是,我們所說的目前所見到的網絡數據,它存在哪些問題,我們在應用的時候要反思。這是我們做網絡數據分析的時候面臨的理論模型問題。我們提出網絡數據的時候美國的連線雜志提出一個概念叫第四范式,我們以前遠古的時候鉆木取火,我們有神農嘗百草,通過親身的體驗來感知這個世界,這是第一范式。
第二范式是我們發(fā)現有規(guī)律性的東西,于是有理論范式,由已知推測未知。后來隨著計算機科學的發(fā)展,我們到了第三范式,就是仿真科學的發(fā)展,我們通過仿真模擬和認識世界。在08年的時候,美國的連線雜志提出數據洪流成為第四范式,也就是說這個時候我們不需要模擬,也不需要去理論它,我們直接從數據里面探索世界的本身,這是第四范式的產生。所有的理論假設已經不需要了,我們直接從總體中得到一種結果。所以這里面提出這么一個問題,這個問題的提出對我們是極大的誤導,為什么是誤導呢?
我們總體的問題,我們總是說抓數據是總體,這其實是誤導,我前面講了有五種來源,其實這些數據都是有缺陷的,網絡上的數據,它不是真正的大數據,它是偽大數據的概念。即使在騰訊,它能夠推總體嗎?今天我們同樣在犯當年的錯誤,我們拿到一個互聯網數據,我們就說大數據,這是對我們極大的誤差,因為我們實驗室也經常做,我們在2014年連續(xù)做了三個月,我們把互聯網的數據,我們做了數據分析,再做同樣的抽樣比較,我們發(fā)現差距有時候是很大的,所以總體性的問題我們要特別注意。
因果關系的問題也是這樣的,我們只需要相關,不需要因果,這是極大的偏差,效率性的問題,我們都知道做數據,數據清理是很大的問題,你清理到什么程度,怎么個清理水平,這里面又是一個問題,在大數據里面這些都沒有交代清楚。以及線上線下的差異問題,我們任何的數據都是有邊界的,包括大數據,數據背后解釋也是需要分析的,我們需要有第二范式和第三范式結合的探討才是有效的。
這是騰訊指數,這是所謂的頻道,每個頻道下面有很多數據,當時我們怎么做,我們眾多的數據來源,一大堆數據堆在實驗室,我們怎么取舍這些數據,我們怎么做架構這些數據,我們用了TPB模型,一個人在互聯網上要產生購物的行為,學術界就開始研究,為什么會產生購物,有哪些緯度、哪些指標,每一種指標的權重有多大。我們把這個模型再變形因為,我們再做出模型 提取指數,這就是我們做的騰指指數。
大數據與模型的關系,磚廠與建筑師的關系,我經常說互聯網產生了很多數據,但是這個數據就像我們生產的磚廠一樣,生產了很多的磚,但是這個磚不是房子,我們要用模型來架構,我們要用磚,我們需要建筑師,我們要把它建成一個教堂,還是建成體育館,還是建成一座酒店,這就是同樣需要模型的架構極其的重要。我們所有的數據分析,在一個很淺顯的層面,我們對社會沒有穿透力,而且數據的解釋力也是極其有限的。肆意我們在網絡快速發(fā)展的時候,其實現在更缺乏的是設計圖紙的建筑師,我們更加缺乏這些,我就跟大家分享這些,謝謝大家。