什么時候人們會說真話呢?前谷歌數據科學家?Seth Stephens-David- owitz在他的新節(jié)《人人都在說謊,太數據、新數據以及互聯網暴露的真實你我》里提供的答案是:搜索引擎。
誰出賣了你的“性”生活
Seth說,不可與人言的苦悶、憋屈或者疑問都可以毫無保留地寫進搜索框,來尋找答案。人們覺得只需要關機之前,清理一下緩存,就真是“神不知、鬼不覺”了,而事實上,搜索引擎記住了這一切。
比如在一項關于美國成年人性生活的社會學調研中,社會學家根據問卷發(fā)現,女性提供的性生活次數和使用的避孕套數量,是一年要用掉11億個避孕套;而男性提供的數字,則要用掉16億個避孕套。那么究竟哪個數字比較準確呢?根據尼爾森的調查顯示,美國一年出售的避孕套數量在6億個,遠遠少于男性和女性提供的數字。
Seth通過谷歌的搜索數據不僅佐證了尼爾森的數據,而且進一步發(fā)現了社會學家通過調研根本沒有發(fā)現的問題:美國人的婚姻中存在的最大問題是無性婚姻。根據谷歌的數據,捜索“無性婚姻”的人數比搜索“不幸;橐龅娜藬刀嗔3倍半,是“無愛婚姻”的8倍!一個小小的社會學調研,得出的結論和實際情況都能謬之千里,更何況是那些更重要的數據。
可以打敗高盛的大數據公司
每個月特定的一個周五,都是包括高盛在內的華爾街各大金融機構最為忙碌的時間點。大部分人早上7點就會到公司,忐忑地等待著一個數字在彭博終端上蹦出來,他們好第一時間進行市場操作。這個數字就是每個月的失業(yè)率。所有的國家財政政策、金融政策等都會根據這頓字進行調整。
但是因為失業(yè)率的收集方法很古老,而且還有時延,所以往往是就算這個月情況有所好轉,但是得到的數字顯示失業(yè)率很難看,那么政策就要調整。這個滯后性有時是災難性的。
現在,谷歌的科學家們已經可以早于高盛和白宮,拿到經濟數據了。谷歌的科學家們發(fā)現,失業(yè)率有上升的跡象,那么有幾個關鍵詞的搜索頻率就會增長。例如,搜索最多的居然是色情網站!因為失業(yè)者正好有大把的空閑時間〔而且經濟還沒有完全衰退的跡象,所以他們覺得借失業(yè)給自己放,過幾天再去找工作也好。
還有一個例子是葡萄酒。普林斯頓大學的經濟學教授Orley Ashenfelter 非常愛喝葡萄酒。但是他很困惑的是,為什么都是一個莊園的葡萄酒,有些好喝、有些很難喝呢?關鍵價錢都是一樣的啊,怎么樣才能只買好喝的葡萄酒呢?
后來,教授得知,酒的好壞跟當年的天氣有關系。這就是為什么82年的拉菲最好,因為那一年波爾多的天氣非常適合釀造葡萄酒。這激起了教授做學術的好奇心,經過一系列量化分析,他居然得出了一個數學公式:葡萄酒的價格=12.145+0.00117×當年冬季降雨量+0.0614×成長季節(jié)的平均溫度-0.00386×收獲時的降雨量。Ashenfclter教授說從此他買的葡萄酒都味道不錯。
Seth還舉了一個例子:Premise公司。這家大數據公司,如今的客戶是包括世界銀行及很多不發(fā)達國家的政府機構。Premise向這些客戶提供反應全球經濟和該國家經濟的實際情況的實時數據,給予他們制定政策所需的關鍵數據分析。PiremiseS怎么做的呢?
Premise在目標國雇傭了很多當地的工人。這些工人的工作就是用智能手機拍照片,在加油站也拍、在超市也拍、出門逛街也拍,總之沒有任何要求地拍攝照片,然后傳回到Premise總部。之后,Premise公司的科學家們迅速把照片變成數據,然后對其中的信息進行解讀:加油站排隊人數多,說明經濟可能存在潛在問題;超市里的新鮮水果庫存不足,也說明經濟存在問題等等。通過這些數據,Premise公司成功地預測了中國在2011年因食品漲價引發(fā)的通脹和2012年的通縮,他們的報告遠遠早于中國政府的官方數據。