淘新聞

繼佩奇和布林的開山論文之後,穀歌團隊又有哪篇經典入了WWW大會的法眼?

2017 年的The Seoul Test-of-Time Award 頒給了《Graph Structure in the Web》,這可謂是實至名歸。

雷鋒網瞭解到, Seoul Test-of-Time Award 是國際萬維網大會上特設的一個獎項,主要是為了表彰多年來對科學,技術或社會產生了重大影響的論文。

根據維琪百科的介紹,在韓國首爾舉行的 WWW 2014 時,組委會決定在下一年的 WWW 大會上評選這一獎項,因而得名“The Seoul Test-of-Time Award ”。

《Graph Structure in the Web》這篇論文最初發表於 2000 年的第九屆 WWW 上,論文指出了「萬維網的圖表結構」,堪稱開創性研究。論文作者包括谷歌的 Andrei Broder, IBM 的 Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan 和 Andrew Tomkins,以及合作成員 Farzin Maghoul, Raymie Stata 和 Janet Wiener。

彼時,它已經在 WWW 大會上獲得了最佳論文獎,並在接下來的 17 年裡呈現它非凡的影響力,在 ACM Digital Library 上的累計引用次數超過 3500 次。

那麼這篇論文到底有何經典之處呢?雷鋒網瞭解到,本文對互聯網結構的研究做出了兩個重要的貢獻。

首先,它進行的大規模實驗,顯示 Web 節點是根據冪律分佈的。也就是說,Web 的節點具有 i 個傳入連結的概率大致與 1/i2.1 成正比。

其次,與以前幾乎全連接的 Web 研究不同的是,論文描述的是一種更加複雜的網路結構,也就是如今非常標誌性的「弓箭」(bowtie)狀(如圖所示):

作者提出了一個精簡的 Web 圖形模型,並描述了 Web 頁面的幾個特徵:

強連接的核心元件:每個頁面都可以從任意其它頁面訪問;

IN/OUT 簇:也就是說,它只具有到核心或來自核心的單向路徑;

兩簇之間以卷鬚(tendrils)連接,還有其它繞過核心與簇連接的通道,還有與其它部分完全隔絕的元件。

核心元件是全連接的,每個節點都能從任何節點到達。

作者 Broder 等人發現,比起以往的研究,實際上 Web 的結構更加鬆散,而任何兩個給定頁面的互連概率少於 1/4。

有意思的是,這個 1999 年完成的研究是通過兩個 Altavista 爬蟲爬行了 2 億個頁面與 15 億個連結而得到的。而今天,穀歌僅僅在 App 裡就需要索引超過 1000 億條連接,爬蟲需要處理超過 130 億個網址。

而 Broder 等人提出的 Web 宏觀結構為大量的爬蟲及搜索網路研究提供了堅實的數學基礎,也對現代搜尋引擎架構產生了深遠影響。

值得一提的是,

首屆「Seoul Test-of-Time Award」於 2015 年頒給了谷歌的創始人 Larry Page 和 Sergey Brin

,以紀念他們在 1998 年第七屆 WWW 大會上發表的論文《The Anatomy of a Large-Scale Hypertextual Web Search Engine》。

這篇論文正是 Google 的孕育之地,兩人在論文中提及:

「我們選擇 Google 作為系統的名字,它是數學大數『googol』的常見的一個錯誤拼寫,即 10100,我們也希望能夠構建一個覆蓋海量資訊的搜索系統」也就是說,WWW 大會實際上也是穀歌首度正式亮相的舞臺。

Google 是一個大範圍搜尋引擎原型,通駝有效地抓取及索引 Web 頁面,產生比現有系統更加令人滿意的搜索結果。設計一個搜尋引擎在當時具有其必要性:

網路頁面的大量增長讓使用者通常採用 Yahoo!這樣的上網導航網站,但存在的缺點在於網站的選擇具有主觀性,構建與維護網站需要大量成本,而且更新時效慢,也無法覆蓋「蘿蔔青菜,各有所愛」的大眾口味。

而當時依賴關鍵字的搜尋引擎則有著良莠不齊的搜索結果,這也催生了 Larry Page 和 Sergey Brin 兩人想做一個更完善的搜尋引擎的想法。

這篇論文提出了兩個重要的觀點:

首先是在廉價的硬體上搭建一個分散式系統,以處理大規模指數;

其次,他們使用了 Web 的超連結結構作為一種有效的關聯信號。

到如今,這兩個想法已經非常普及,而谷歌也成為了世界上最被廣泛使用的搜尋引擎之一,而這篇論文所產生的學術影響卻依然存在:截至 2015 年,它的引用次數超過了 13000 次,而兩年之後的今天,雷鋒網瞭解到,這個數字達到了 15916 次。

想必所有人都不會想到,當年斯坦福大學的兩個學生,只是抱著構建「一個更令人滿意的搜索結果」系統的想法而開始研究,卻在這個過程中造就了一家世界巨頭公司。而如今雷鋒網所報導和覆蓋的每一篇論文,是否在未來也會成為力能扛鼎的學術經典?只有時間能給我們答案。