淘新聞

穀歌研發能處理多域多工的機器學習模型——MultiModel

我們知道,人工智慧領域雖然發展迅速,但大部分機器學習的系統都是針對特定的學習任務存在的,例如會下棋的AlphaGo,識別人臉的圖像識別模型,識別語音語義的智慧語音助手等等。這些機器學習的系統都只面向特定的任務,目前很少有模型能真正突破狹義機器學習的限制,有能力學習多種不同領域任務。

近日雷鋒網瞭解到,穀歌在博客上發表了文章,提出了自己研發的新機器學習系統MultiModel,一個有能力處理多個任務的機器學習模型。這一模型由多倫多大學電腦科學機器學習小組研究員ÅukaszKaiser,Google Brain Team高級研究科學家Aidan N. Gomez 聯合發佈,以下是雷鋒網對MultiModel文章的翻譯:

在過去十年裡,深度學習的應用和表現都是以驚人的速度高速發展著。然而,目前這一領域的神經網路架構對於特定的應用領域都是高度集中化的,一直有一個重要的問題仍然沒有被解決:領域之間的融合,能否有助於統一模型在多個領域都表現良好? 

今天,穀歌研究院提出了MultiModel,這是一個在視覺,語言和音訊網路任務中都表現良好的的神經網路架構,它能夠同時解決跨越多個領域的多個問題,包括圖像識別,翻譯和語音辨識。儘管在Google翻譯也曾經使用過Google多語種神經機器翻譯系統,在解決多工領域有所進步,但MultiModel是首先將視覺,音訊和語言理解融入單一網路的機器學習模型。

MultiModel處理多領域的靈感來自於人類大腦,人類大腦是如何將不同模式(如聲音,視覺或味覺)的感官輸入轉化為單一的表達形式,並以語言或動作的形式給予回饋的呢?通過類比大腦對這些模式和對它們所進行的轉換,MultiModel有很多的子網路,用於音訊,圖像或文本等特定形態的任務,MultiModel由編碼器,輸入/輸出混合器和解碼器組成共用模型,如下圖所示。

MultiModel結構:小型特定子網路與共用編碼器,I / O混合器和解碼器一起工作。每個小花瓣代表一種形態,轉化為內在的表徵(source:googleblog)

MultiModel能夠同時學習八種不同的任務:它可以檢測圖像中的物體,提供字幕,識別語音,翻譯四種語言,同時進行語法解析。給定的輸入和一個非常簡單的信號一起,該信號決定了我們要求的輸出形式。

在設計MultiModel時,很明顯有一些研究領域(視覺,語言和音訊)的某些元素,對於模型在相關任務中取得成功是及其重要的。穀歌研究院證明,這些計算原語(如卷積,注意力或專家混合層)可以顯著提高模型在原本應用領域的性能,同時不會影響MultiModel在其他任務中的性能。MultiModel不僅可以在多個任務聯合訓練上取得良好的表現,而且在數量有限的任務上,也可能實際提高性能。令我們感到驚訝的是,即使這些任務來自完全不同的領域,這種現象(性能提高)仍然存在。例如,圖像識別任務可以提高語言任務的性能。 

重要的是,雖然MultiModel沒有刷新最優性能記錄,但它確實提供了一種新的思維,增加了團隊對神經網路中多域多工學習的瞭解,以及通過引入輔助任務(auxiliary task)來解決在資料有限時訓練模型的問題。在機器學習中有一種說法:“最好的正則化方法就是引入更多的資料”;而在MultiModel中,這些資料可以通過多領域獲取,因此比以前獲取資料要更加容易。 MultiModel表明,與其他任務相結合的訓練可以獲得良好的效果,並能夠在資料有限的情況下提供模型的性能。

關於多域機器學習的許多疑問尚待研究,穀歌研究院將繼續致力於優化Multimodel,提高它的性能。為了使這項研究能夠更快發展,MultiModel將在Tensor2Tensor庫中開發。穀歌研究院認為,對來自多個領域的資料進行聯合訓練的協同模式將成為深度學習的下一個研究方向,並將最終突破狹義訓練網路的限制。

via

research.googleblog

, 雷鋒網編譯