豐言豐語談數(shù)據(jù)(三):大數(shù)據(jù),信不信我“抽”你
前一陣子中國新歌聲舉行了總決賽,最終,汪峰戰(zhàn)隊的蔣敦豪戰(zhàn)勝周杰倫戰(zhàn)隊的向洋,奪得年度總冠。進入到第5個年頭的《中國好聲音》因版權(quán)糾紛更名為《中國新歌聲》,首播全國網(wǎng)收視率2.24%,和去年相比有所下滑。而且“黑幕說”越演越烈,在鳥巢決賽夜的決賽投票環(huán)節(jié)81位評審竟然投出了92票,實在難以服眾。 天談這題目并不是立豐明年打算進軍歌壇,主要想跟大家聊的是數(shù)據(jù)正確的重要性,一個不正確的數(shù)據(jù)對大家都會造成傷害。從新歌聲的例子來看,首先,節(jié)目受到傷害,收視率下滑;其次,冠軍受到傷害,大家覺得有黑幕;最后,觀眾受到傷害,誰希望被欺騙呢?從這簡單的例子來看,我們數(shù)據(jù)工作者可謂責(zé)任重大,不可不謹慎。 最正確的數(shù)據(jù),我們姑且稱之為完美數(shù)據(jù),我認為必須滿足兩個條件:全量、瞬間取得。全量很容易理解,為什么需要瞬間取得呢?想象一下,假如我需要了解:目前全北京有多少人喜歡吃烤鴨?于是我展開了一個全北京的普查,做了一年完成。這會碰到一個問題就是:這一年當(dāng)中有些人從喜歡變不喜歡,有另一些人從不喜歡變喜歡;還有些人從北京人變成外地人,從外地人變北京人。所以即便你花了一年調(diào)查的全部的“北京人”,所得到的數(shù)據(jù),仍然不能完美的說明:目前全北京有多少人喜歡吃烤鴨?所以,完美數(shù)據(jù)必須瞬間取得。誰有完美數(shù)據(jù),我認為沒有人擁有。我們能做的只是盡可能的接近它。 接下來我想利用兩個維度來分類數(shù)據(jù),并闡述我關(guān)于如何接近完美數(shù)據(jù)的看法。這兩個維度就是:數(shù)據(jù)量與代表性。 大數(shù)據(jù) 數(shù)量大且代表性高,最接近完美數(shù)據(jù)。如果你擁有大數(shù)據(jù),那么恭喜你,你有很好的數(shù)據(jù)來做分析,得出的結(jié)果也會有很高的正確性。至于什么樣的數(shù)據(jù)叫大數(shù)據(jù),坊間有不少書籍介紹,我就不在這里贅述了。 大的數(shù)據(jù) 常與大數(shù)據(jù)混淆,讓數(shù)據(jù)工作者誤以為發(fā)現(xiàn)了珍寶。假設(shè)我要調(diào)查民眾對做家務(wù)的態(tài)度,應(yīng)該女生做還是男生做?如果我有三億個樣本量,聽起來很令人興奮吧,似乎我們就快發(fā)現(xiàn)真理了。但是,我告訴你,這三億的樣本量全是女性,你還會跟之前一樣興奮嗎?當(dāng)然不會,你知道這樣的數(shù)據(jù)沒有代表性。很多號稱有大數(shù)據(jù)的公司,其實他們有的是大的數(shù)據(jù)。當(dāng)我們面對大的數(shù)據(jù)的時候,冷靜的去分析它的樣本組成,清楚的說出它的有效范圍,是我們數(shù)據(jù)工作者的專業(yè)與責(zé)任。 小而美的數(shù)據(jù) 為什么說它小而美呢?主要是這類的數(shù)據(jù)采集會經(jīng)過嚴(yán)謹?shù)某闃舆^程,針對我們研究對象的各個細分群體都有一定數(shù)量的樣本。當(dāng)然由于樣本量小,得出的結(jié)論存在一定的抽樣誤差,沒有辦法有像大數(shù)據(jù)那樣的正確性。但是,小而美數(shù)據(jù)有著時間短、成本低、彈性大的優(yōu)勢。多數(shù)時候也算是不錯的數(shù)據(jù)來源。 無用數(shù)據(jù) 數(shù)量小又沒有代表性,數(shù)據(jù)工作者處理這類數(shù)據(jù)時,必須清楚的說明這樣的數(shù)據(jù)僅供參考,而且不要做過多的分析和解讀,要不然會很容易誤導(dǎo)讀者。 談了這四類的數(shù)據(jù),最后回到我們的標(biāo)題:大數(shù)據(jù),信不信我“抽”你。如果是接近完美數(shù)據(jù)的大數(shù)據(jù),那么當(dāng)然就不“抽”(抽樣)了。小數(shù)據(jù)肯定得狠狠的“抽”,這樣才能成為小而美的數(shù)據(jù)。至于大的數(shù)據(jù),那么就得在需要的地方“抽”一下了。數(shù)據(jù)量和代表性都是評判數(shù)據(jù)質(zhì)量的關(guān)鍵要素,數(shù)據(jù)工作者在數(shù)據(jù)分析之前不可不思考。 打賞 |