麻省理工科技評論:2017年人工智慧五大趨勢預測
OFweek機器人網訊:去年人工智慧和機器學習有了極大的進步。我們相信2017年進步會有更多。下面是《麻省理工科技評論》對於2017年人工智慧做出的五大預測。
深度強化學習應用前景廣闊
去年,穀歌AlphaGo以4:1的絕對優勢打敗了世界最頂尖的圍棋高手之一李世石,這是人工智慧發展史上重要的里程碑,代表人工智慧已經能在諸如圍棋等高度複雜的項目中發揮出超過人類的作用,對於深度強化學習技術的發展更是有著重大的意義。
強化學習是人工智慧中策略學習的一種,是一種重要的機器學習方法,在智慧控制機器人及分析預測等領域有許多應用。
強化學習原理是動物學習了某種行為得到獎勵導致出現該行為的趨勢加強。
使用這種學習方法,電腦可以算出如何通過實驗和錯誤的迷宮,然後嘗試做出積極的行為——比如退出這個迷宮,並對行為進行回饋。由這個回饋來調整之前的行為,通過不斷的調整演算法能夠學習到在什麼樣的情況下選擇什麼樣的行為可以得到最好的結果。
強化學習與監督學習是有區別的,監督學習是有一個label(標記)的,這個label告訴演算法什麼樣的輸入對應著什麼樣的輸出。而強化學習沒有label告訴它在某種情況下應該做出什麼樣的行為,只有一個做出一系列行為後最終回饋回來的reward signal,這個signal能判斷當前選擇的行為是好是壞。
強化學習已經存在了幾十年,但是這個方法在實踐中沒有取得很大成功,主要是由於表徵和縮放的問題。然而深度學習的出現為強化學習提供了「一貼強心劑」。
深度強化學習應用前景廣闊
去年,穀歌AlphaGo以4:1的絕對優勢打敗了世界最頂尖的圍棋高手之一李世石,這是人工智慧發展史上重要的里程碑,代表人工智慧已經能在諸如圍棋等高度複雜的項目中發揮出超過人類的作用,對於深度強化學習技術的發展更是有著重大的意義。
強化學習是人工智慧中策略學習的一種,是一種重要的機器學習方法,在智慧控制機器人及分析預測等領域有許多應用。
強化學習原理是動物學習了某種行為得到獎勵導致出現該行為的趨勢加強。
使用這種學習方法,電腦可以算出如何通過實驗和錯誤的迷宮,然後嘗試做出積極的行為——比如退出這個迷宮,並對行為進行回饋。由這個回饋來調整之前的行為,通過不斷的調整演算法能夠學習到在什麼樣的情況下選擇什麼樣的行為可以得到最好的結果。
強化學習與監督學習是有區別的,監督學習是有一個label(標記)的,這個label告訴演算法什麼樣的輸入對應著什麼樣的輸出。而強化學習沒有label告訴它在某種情況下應該做出什麼樣的行為,只有一個做出一系列行為後最終回饋回來的reward signal,這個signal能判斷當前選擇的行為是好是壞。
強化學習已經存在了幾十年,但是這個方法在實踐中沒有取得很大成功,主要是由於表徵和縮放的問題。然而深度學習的出現為強化學習提供了「一貼強心劑」。