Captcha(全自動區分電腦和人類的圖靈測試,俗稱驗證碼)是目前用於區分人和機器主要辦法,其工作原理是通過提供模糊或是有歧義的圖片,並要求使用者進行回答,以此來區分人和機器。而 Captcha 能有效地區分出人和機器主要是依靠以下兩個方面,一是人在面對問題難度增加時,可以隨機應變;二是機器不能很好地文本識別。但是隨著電腦的逐漸發展,機器回答 Captcha 問題的能力逐漸超過了人類,因此,加強版 Rip Captcha 也應運而生。
在字母識別任務 circa 2005 中,電腦的識別能力已經超過了人類,並且也征服了 Gmail 的驗證碼。儘管目前大部分的 Captchas 還是可以區分多數的機器,但是隨機電腦不斷地進化,能區分出的機器會逐漸減少。所以目前最緊急的問題是如何建立一個更好的 Captcha 系統,以應對逐漸進化的電腦視覺。
來自韓國大學的兩位教授,Shinil Kwon 和 Sungdeok Cha 基於圖像基礎研發了新的 Captcha 系統。這一系統中的圖片會具有時效性,問題的答案會隨著時間的不同有所變化。所以,機器不能通過隨機猜測得出答案。這個系統的能區分人和機器的關鍵在於:在沒有試驗或是相關經驗的情況下,機器的智慧性會大打折扣。
經典的文本識別 Captcha 系統不是討論的重點。我們僅僅是在假設 Captcha 的答案是固定的基礎上,進行進一步研究。Cha 和 Kwon 的研究重點就是關注 Captcha 系統的下一級反覆運算,即從圖像中提取資訊。
via
Cha et al
Cha 和 Kwon 在 IEEE Software 上發表的論文表示:“儘管電腦視覺十分地強大,但在在語義識別方面好有所欠缺。”舉個例子,在大量的圖片中,選擇比爾蓋茨出現過的圖片。儘管這一問題對於機器來說不是很難,但是我們要想一下機器每天會識別多少圖片——大概是 100 萬張。每一次試驗就代表著機器對任務有新的認識,因此在下一次識別成功的幾率就會更大。
“如果機器能僥倖通過任務測試,它們就可以記錄下所有相關資訊,在未來任何的挑戰中都可以用得到。”Cha 和 Kwon在論文中寫道,“或者進一步說,機器可以使用商業搜尋引擎,搜索相關的圖片標籤或是相似的圖片,加深對圖片的理解。”
Cha 和 Kwon 的解決方法是在 Captcha 系統中輸入一系列的圖片,其中包括正確答案,錯誤答案,並且有些正確的答案是在舊版的 Captcha 系統中就有涉及。一般來說,我們都會認為 Captcha 的圖片都是標注為正確或是錯誤,但是這一新的 Captcha 系統還有第三種結果,中立可能性。人和機器選擇或是不選中立的答案,對於結果都不會有影響。並且,這些中立的答案會隨時改變,所以表面看儘管看起來是一樣的,但是實際上卻有所不同。
機器通過隨機猜測獲取正確答案,但是卻並不是真正意義上的學習,因為它不知道為什麼錯或是為什麼對。在引入新的系統之後,機器的隨機猜測就會變得毫無意義,因為機器在試驗時並未意識到有些答案是中立的,並且在通過測試之後,機器會直接將這一中立答案認定為正確答案加入自己的資料庫中。
此外,通過引入“陷阱”資料,這一系統還能進行進一步優化。“陷阱”資料的實現是通過將中立答案與特定 IP 地址聯繫起來。因為機器一般都是基於特定的 IP 位址進行識別,在之前的測試中,機器人錯將中立答案當做正確答案,並將其加入到自己的資料庫之中。所以機器在面對同一問題時,會錯將中立答案當做是正確答案進行回答。此外,有時錯誤的答案也會標記成中立答案。
在測試新的 Captcha 系統時, Cha 和 Kwon 發現機器在 2,250,000 次測試中,機器的成功的幾率僅僅只有 2.3%,幾乎是接近於零。“由於隨機和即時的中立圖片,機器的資料庫就不能保證所有通過測試的答案都是正確的,另外機器也不會進行錯誤更正。” Cha 和 Kwon 在文中寫到,“我們發現在機器的資料庫中有2,465 張圖片中(大約有19.9%)都進行了錯誤的標記。”人在在沒有陷阱資料的情況下,成功率為 79.3%;在有陷阱資料的情況下成功率為 64.5%。人與機器的成功的幾率相差很大,所以在引入新的 Captcha 系統可以更有效地區分機器和人。
Via
motherboard
專家解析:“小米短信雲同步安全缺陷導致被盜10萬”,這背後究竟是誰的責任?
與惱人的驗證碼說拜拜,Google用一次點擊區分人與機器