9月10日消息,從人機交互中獲取數(shù)據(jù)使得我們學習更有效,能夠構(gòu)建起更加智能的系統(tǒng)。目前,人工智能最有力的實現(xiàn)手段還是要基于數(shù)據(jù),通過機器學習的方法得我們的機器更加智能化。
9月8日,華為諾亞方舟實驗室首席科學家李航在中國軟件開發(fā)者大會上針對如何通過人機交互的方式獲取數(shù)據(jù)做了主題演講。李航目前研究的方向是自然源處理信息檢索信息挖掘。
李航表示,機器學習最重要的一個環(huán)節(jié)就是收集采集數(shù)據(jù),高質(zhì)量的大規(guī)模的數(shù)據(jù)能夠幫助我們構(gòu)建出一個非常智能化的系統(tǒng)。
李航稱,一般來說,我們學習的時候假設要學習的模型有K個參數(shù),參數(shù)個數(shù)一般表示模型復雜度,經(jīng)驗上至少模型參數(shù)數(shù)百倍訓練樣本才能夠大概把模型學得比較好。所以現(xiàn)實當中,我們需要非常多的高質(zhì)量的數(shù)據(jù)來幫助我們?nèi)?gòu)建智能化的系統(tǒng)。
有三種方式幫助我們采集數(shù)據(jù),一種數(shù)據(jù)挖掘、一種眾包、一種人機協(xié)同計算。
很多數(shù)據(jù)機器識別的難度很大,而對人來說卻不過是幾秒鐘的事情。比如圖片識別,如果大量工人幫助標注大量圖片數(shù)據(jù)可以幫助我們很快地構(gòu)建一個智能系統(tǒng),往往以很小的代價就能達到我們的目的。
Luis VON Ahn提出了Human Computation的概念,即把人當成一個個計算機,人和機器計算機兩者做各自擅長的東西,然后兩者協(xié)同計算,互相取長補短,使得我們能夠更好地完成很多任務,這是所謂人機協(xié)同計算的主要想法。
互聯(lián)網(wǎng)的存在給人機交互帶來了更多的可能。有些公司在網(wǎng)絡上發(fā)起活動任務,邀請世界各地的網(wǎng)民來幫他們做一些數(shù)據(jù)識別的工作,還有一些公司把這種工作策劃成游戲,提高網(wǎng)民的參與度。在演講中,李航表示目前這種眾包的方式采集數(shù)據(jù)在圖片識別和搜索方面有很多的實踐案例。
李航說,“如果我們很好地設計我們數(shù)據(jù)采集的方法,很好地設計我們機器學習的方法,我們能夠很好地把這兩者結(jié)合起來很好地構(gòu)建我們的智能系統(tǒng)”。
如何保證數(shù)據(jù)質(zhì)量非常高同時對我們又有用,需要有一個非常巧妙的設計滿足這樣的條件,李航表示,如何找到很多的用戶能夠幫助我們?nèi)プ鲞@種高質(zhì)量的數(shù)據(jù)描述工作是目前正在探討的話題。