淘新聞

體驗至上 華為應用市場搜索技術揭秘

【IT168 資訊】2016年最火的互聯網概念當屬VR 和人工智慧,科技巨頭們紛紛亮出自家在智慧領域的技術探索,而華為作為一直標榜科技驅動型的公司,內部的黑科技一定數不勝數,筆者今天給大家深剖一個用技術死磕體驗的華為應用市場。

據統計,首次從應用市場下載一個應用,超過60%用戶會選擇搜索。搜索已經成為用戶從應用市場下載應用的首要方式。因此搜索結果的好壞,會直接決定了應用市場的用戶體驗。華為應用市場採用先進的大資料技術,為每一個訪問華為應用市場的用戶提供精准的搜索服務,説明使用者從百萬級的App庫中快速找到感興趣的應用。黑科技“伏羲搜尋引擎”是華為應用市場研發團隊同華為諾亞方舟實驗室共同研發的一款搜尋引擎。伏羲搜尋引擎通過搜索、自然語言處理、機器學習、資料採擷等多項綜合技術,為用戶提供精准、貼心的搜索內容,滿足使用者尋找App的需求。

眾裡尋他千百度,伏羲一點輕鬆指路。

伏羲搜尋引擎的關鍵技術可以簡單概括為以下關鍵的四招,凝聚了伏羲的核心技術:

1. 用戶意圖的理解 為了滿足用戶的搜索需求,搜尋引擎需要準確的理解使用者的查詢意圖。用戶的意圖主要體現在查詢詞中。為此,伏羲搜尋引擎自研了一系列自然語言處理技術,包括分詞、查詢詞糾錯、查詢詞同義改寫等,來分析、理解和擴展用戶的查詢詞。通過對查詢詞的深入理解,華為應用市場能夠精准的把握用戶的意圖,給用戶找到滿意的結果。此外,伏羲搜尋引擎還考慮了用戶的機型、位置等情景特徵,來適配最合適的App給用戶。

2. 排序學習技術 排序是搜尋引擎的核心技術,排序效果的好壞與用戶的搜索體驗直接相關。伏羲搜尋引擎使用自研的排序學習(Learning to Rank)技術,通過機器學習演算法訓練排序模型,以達到排序效果的最優化。排序學習模型能夠綜合各種搜索排序的特徵,包括使用者查詢詞與App資訊的匹配、查詢詞下App的點擊率、App的下載量、App的品質評級等,並借助大量專家標注資料,訓練得到最優的排序函數。這樣的排序函數能夠使得與使用者意圖高度匹配、高品質、受歡迎的App排在搜索結果的前面,從而使用戶更容易的找到所需的App。

3. 基於使用者行為的點擊模型 華為應用市場每天都有數千萬的用戶訪問量。在完全保證用戶隱私的前提下,伏羲搜尋引擎通過對海量的使用者行為資料進行分析和挖掘,建立了使用者行為模型,簡稱之為點擊模型。通過點擊模型,伏羲搜尋引擎能夠更加瞭解用戶的行為和偏好,並將這種知識運用到搜索的排序和效果評估當中。具體的,在搜索排序中,使用者行為資料會被作為排序的特徵,從而使得更為使用者喜歡的結果排在前面;在評估搜索的效果時,使用者行為資料被用來衡量不同的排序模型的效果差異,從而為搜尋引擎選擇最好的排序模型。

4. 泛搜索技術 傳統的搜尋引擎是基於關鍵字匹配技術,這種技術在用戶的查詢詞與App的相關資訊(例如名字、內容簡介)時字面匹配時,較為有效且穩定。但是,在華為應用市場的搜索中,有一部分查詢詞則相對寬泛,且並不能很好的匹配到某個App的資訊,我們稱之為“泛搜索”。泛搜索查詢詞是多種多樣的。例如,用戶有時並不確切知道App的名字,往往會用對該App的主觀印象描述作為查詢詞。例如搜索“切東西”,用戶想找的App很可能是“切水果”類似的遊戲。還有些用戶,想搜索是具有某種功能或屬性的App,比如搜索“找大夫”,用戶想找的很可能是醫療相關、能夠聯繫醫生的App,例如“好大夫線上”。

為了滿足用戶泛搜索的需求,伏羲搜尋引擎自研了針對泛搜索的識別和匹配技術。首先,對於用戶的查詢詞,伏羲搜尋引擎通過自然語言分析以及使用者日誌挖掘的技術,識別該查詢詞是否為泛搜索詞;對於泛搜索詞,伏羲搜尋引擎使用了基於語義和標籤的匹配技術,來實現泛搜索意義上的語義匹配。

其中,App的標籤是泛搜索準確匹配所依賴的基礎資料。伏羲搜尋引擎通過結合互聯網資料採擷、人工標注和機器學習模型,實現了App的自動化標籤機制,能夠為華為應用市場中的海量App自動打上標籤。

伏羲搜尋引擎能夠無縫的融合基於關鍵字的搜索結果和泛搜索結果,從而為用戶提供多樣化的搜索體驗。不管是通過機器學習的關鍵字精准搜索,還是觸類旁通的泛搜索技術,華為為伏羲都做到了內外兼修。日下載量過億的華為應用市場,達到了專家級的安全之後,在高效、精准的體驗上,也比各應用分發廠商做到了絕對領先。

本文版權歸原作者和IT168所有,未經許可不得轉載。