世界是個數據礦
和谷歌整合全球信息的目標相比,對于消費者記錄、航班價格和庫存的太字節挖掘顯得不值一提。據說,谷歌有5拍字節的存儲容量。這相當于5,000太字節(1000萬億字節)。乍一看,搜索引擎與數據挖掘似乎沒有太大關系。谷歌為互聯網上的所有詞語制作了索引。如果你搜索“金橘”,谷歌會直接向你發送使用這個詞語次數最多的所有網頁列表。不過,為了幫助你找到你真正想要的金橘頁面,谷歌會使用各種超級數據分析方法。
谷歌開發了個性化搜索功能,用你過去的搜索歷史更加精確地猜測你的想法。如果比爾·蓋茨(Bill Gates)和瑪莎·斯圖爾特②(Martha Stewart)分別搜索“黑莓”,那么蓋茨很可能會在結果列表最前面看到關于電子郵件設備的網頁,而斯圖爾特很可能會看到關于水果的網頁。谷歌正在將這種個性化數據挖掘應用到它的幾乎每一項功能中。新的谷歌網絡加速器可以極大地提高互聯網訪問速度,這不是源于硬件或軟件技術的某種突破,而是通過預測你接下來希望閱讀的內容實現的。谷歌網絡加速器不斷從網絡上預先提取網頁。所以,當你閱讀某篇文章的第一頁時,谷歌已經在下載第二頁和第三頁了。在你明天早上啟動瀏覽器之前,谷歌就可以通過簡單的數據挖掘預測出你希望瀏覽的網站(提示:它們很可能是你在大多數日子里瀏覽過的網站)。
雅虎和微軟正在這場分析競爭中拼命追趕谷歌的腳步。谷歌已經當之無愧地成了一個動詞。坦率地說,谷歌極大地改善了我的生活,對此我很吃驚。不過,我們這些互聯網用戶并不是某個品牌的死忠。最能猜測我們心理的搜索引擎可能會贏得我們的大部分流量。如果微軟和雅虎能夠想辦法在數據分析方面超越谷歌,它們就會很快取代它的位置。超級數據分析的勝利者將會獲得網絡流量帶來的利益。