福布斯:Facebook的4種重要的人工智慧方法
OFweek機器人網訊:Facebook通過瞭解使用者資訊來為廣告商提供資料來構建其業務。然後再用從廣告商賺到的錢為用戶提供有用的新功能,例如視頻和購物。接著,它還會利用這些功能來進一步瞭解使用者資訊。
Facebook構建了一種新的人與人之間溝通和交流的方式,我們越來越離不開它。它掌握著大量關於我們的資料,資料涉及我們是誰,我們把時間花在哪兒,我們喜歡什麼。對於Facebook的資料科學家來說,最大的問題是,大部分數據都是混亂的非結構化資料。
雖然Facebook上每分鐘有12億人上傳13.6萬張照片,更新狀態達293000次,但是直到最近,Facebook還只能從這些非結構化資料的一小部分獲取價值。這些資料很難被量化成為電腦易於分析的矩陣。
深度學習正在改變這種狀況。深度學習技術使機器能夠自己學習如何對資料進行分類。深度學習圖像分析工具就是一個簡單的例子,它可以在不被具體地告知貓是什麼樣子的情況下,學習識別包含貓的圖像。通過分析大量的圖像,它可以從圖像的上下文中學習貓的圖像中可能存在什麼特徵?什麼樣的文本或中繼資料可能表明圖像包含貓?
智能手機和筆記型電腦的上Facebook標誌(圖片來源:JUSTIN TALLIS / AFP)
通過對資料的量化,並將資料表示為分析工具能理解的形式,可以為非結構化資料提供結構。它們試圖回答這樣的問題,例如,公司的產品是否經常出現在包含貓的照片中?我們應該專注于向喜歡貓的人展示我們的廣告嗎?
這是深度學習(DL)應用於Facebook的基本原理,隨著DL演算法變得越來越複雜,它們可以越來越多地應用于文本、圖片和視頻等資料。
下面是幾個DL的具體用例,用於説明Facebook實現其目標,為使用者提供更大的便利,並使他們能夠更深入的瞭解我們。
1.文本分析
在Facebook上分享的大部分數據仍然是文本。視頻可能涉及以百萬位元組為單位的更大的資料量,但就表達內容而言,文本也可以表達同樣豐富的內容。一張圖片的大小等同於1000個詞,但如果你只想回答一個簡單的問題,你通常不需要1000個詞。每一位元與你問題無關的資料都是噪音,它們是對資源的一種浪費。
Facebook擁有一個他們自己開發的工具,叫做DeepText,這個工具通過學習和分析詞的上下文來提取它們的含義。神經網路會分析詞之間的關係,以瞭解它們的含義是如何根據周圍的其他詞而變化。因為這是半監督學習,所以演算法並不需要具有像字典一樣的能解釋每個單詞含義的參考資料。相反,它是基於單詞如何使用來進行自我學習。
Facebook構建了一種新的人與人之間溝通和交流的方式,我們越來越離不開它。它掌握著大量關於我們的資料,資料涉及我們是誰,我們把時間花在哪兒,我們喜歡什麼。對於Facebook的資料科學家來說,最大的問題是,大部分數據都是混亂的非結構化資料。
雖然Facebook上每分鐘有12億人上傳13.6萬張照片,更新狀態達293000次,但是直到最近,Facebook還只能從這些非結構化資料的一小部分獲取價值。這些資料很難被量化成為電腦易於分析的矩陣。
深度學習正在改變這種狀況。深度學習技術使機器能夠自己學習如何對資料進行分類。深度學習圖像分析工具就是一個簡單的例子,它可以在不被具體地告知貓是什麼樣子的情況下,學習識別包含貓的圖像。通過分析大量的圖像,它可以從圖像的上下文中學習貓的圖像中可能存在什麼特徵?什麼樣的文本或中繼資料可能表明圖像包含貓?
智能手機和筆記型電腦的上Facebook標誌(圖片來源:JUSTIN TALLIS / AFP)
通過對資料的量化,並將資料表示為分析工具能理解的形式,可以為非結構化資料提供結構。它們試圖回答這樣的問題,例如,公司的產品是否經常出現在包含貓的照片中?我們應該專注于向喜歡貓的人展示我們的廣告嗎?
這是深度學習(DL)應用於Facebook的基本原理,隨著DL演算法變得越來越複雜,它們可以越來越多地應用于文本、圖片和視頻等資料。
下面是幾個DL的具體用例,用於説明Facebook實現其目標,為使用者提供更大的便利,並使他們能夠更深入的瞭解我們。
1.文本分析
在Facebook上分享的大部分數據仍然是文本。視頻可能涉及以百萬位元組為單位的更大的資料量,但就表達內容而言,文本也可以表達同樣豐富的內容。一張圖片的大小等同於1000個詞,但如果你只想回答一個簡單的問題,你通常不需要1000個詞。每一位元與你問題無關的資料都是噪音,它們是對資源的一種浪費。
Facebook擁有一個他們自己開發的工具,叫做DeepText,這個工具通過學習和分析詞的上下文來提取它們的含義。神經網路會分析詞之間的關係,以瞭解它們的含義是如何根據周圍的其他詞而變化。因為這是半監督學習,所以演算法並不需要具有像字典一樣的能解釋每個單詞含義的參考資料。相反,它是基於單詞如何使用來進行自我學習。