科普信息網(wǎng)

我們其實(shí)還不能理解機(jī)器學(xué)習(xí)

發(fā)布時(shí)間:2019-02-18 13:32:12 來(lái)源:鈦媒體 責(zé)任編輯:caobo

爆炸式地發(fā)展了四五年后,機(jī)器學(xué)習(xí)而今已逐漸成為人們耳熟能詳?shù)母拍睢?/p>

機(jī)器學(xué)習(xí)的發(fā)展,不僅僅體現(xiàn)在相關(guān)創(chuàng)業(yè)公司不斷涌現(xiàn),以及科技公司的自身重建(許多大公司都在推進(jìn)相關(guān)的項(xiàng)目);更為顯著的意義在于,它可能是下一波工業(yè)革命的核心。

機(jī)器學(xué)習(xí)中的一個(gè)重要組成部分是神經(jīng)網(wǎng)絡(luò),也就是有規(guī)律的模式和數(shù)據(jù)。借助機(jī)器學(xué)習(xí),我們可以在數(shù)據(jù)中找到非直接的、隱含的數(shù)據(jù)結(jié)構(gòu)。

機(jī)器學(xué)習(xí)解決了以前“人類(lèi)能辦到但計(jì)算機(jī)辦不到”的一類(lèi)問(wèn)題——或者更準(zhǔn)確地說(shuō):“人們難以向計(jì)算機(jī)描述的問(wèn)題”。

雖然,一些很酷的機(jī)器學(xué)習(xí)語(yǔ)音和視頻應(yīng)用樣本已經(jīng)逐步浮出水面;

但是,我們似乎還沒(méi)有徹底理解機(jī)器學(xué)習(xí)。比如:它對(duì)科技公司以及傳統(tǒng)行業(yè)意味著什么,人們?cè)撊绾嗡伎妓軌驇?lái)的創(chuàng)新,以及它可以解決哪些重要問(wèn)題?

“人工智能”一詞其實(shí)不太能幫助我們理解機(jī)器學(xué)習(xí)的內(nèi)涵,而且多數(shù)人一聽(tīng)到這個(gè)詞就懵了。

一旦我們說(shuō)“AI”,就好像人類(lèi)進(jìn)化的轉(zhuǎn)折點(diǎn)出現(xiàn)了,我們也瞬間變成了猿猴,沖著我們不能理解的未來(lái)尖叫,揮舞著我們的拳頭。

我們其實(shí)還不能理解機(jī)器學(xué)習(xí)

實(shí)際上,目前市面上關(guān)于機(jī)器學(xué)習(xí)的討論并不能幫助我們真正理解機(jī)器學(xué)習(xí)。例如:

數(shù)據(jù)是新石油谷歌和中國(guó)(或Facebook,或亞馬遜,或BAT)擁有所有數(shù)據(jù)AI將掠奪走人類(lèi)的工作人工智能而更有用的討論方向可能是:

自動(dòng)化賦能技術(shù)層關(guān)系數(shù)據(jù)庫(kù)(SQL)為何談到關(guān)系數(shù)據(jù)庫(kù)?因?yàn)樗且粋€(gè)新的基礎(chǔ)支持層,改變了計(jì)算機(jī)可以做的事情。

在關(guān)系數(shù)據(jù)庫(kù)出現(xiàn)之前——也就是20世紀(jì)70年代末之前,如果希望數(shù)據(jù)庫(kù)算出特定主題的內(nèi)容,例如“購(gòu)買(mǎi)此產(chǎn)品并居住在這個(gè)城市的所有客戶”,通常需要一個(gè)自定義的項(xiàng)目。

而由于數(shù)據(jù)庫(kù)的結(jié)構(gòu)并不適用于任意交叉的查詢,如果想問(wèn)一個(gè)問(wèn)題,就需要建立一個(gè)專(zhuān)門(mén)的數(shù)據(jù)庫(kù)。

可見(jiàn),數(shù)據(jù)庫(kù)是一種記錄保存系統(tǒng)。而關(guān)系數(shù)據(jù)庫(kù),則將它們轉(zhuǎn)變?yōu)樯虡I(yè)智能系統(tǒng)。

關(guān)系數(shù)據(jù)庫(kù)在很大程度上改變了數(shù)據(jù)庫(kù)的使用方式,從而創(chuàng)建了新的范例和上億美元市值公司。

關(guān)系數(shù)據(jù)庫(kù)為我們帶來(lái)了甲骨文(NYSE:ORCL),也給了我們SAP(NYSE:SAP;全球最大的企業(yè)管理和協(xié)同化電子商務(wù)解決方案供應(yīng)商)。

SAP及其同行,為我們提供了全球即時(shí)供應(yīng)鏈,從而使得蘋(píng)果(NASDAQ:AAPL)和星巴克(NASDAQ:SBUX)的誕生成為了可能。

到了20世紀(jì)90年代,幾乎所有的企業(yè)軟件都是關(guān)系數(shù)據(jù)庫(kù),比如PeopleSoft(甲骨文旗下一款協(xié)同合作企業(yè)軟件)、Salesforce(一款客戶關(guān)系管理軟件)以及SuccessFactors(一款人力資源管理軟件)等幾十種軟件都運(yùn)行在關(guān)系型數(shù)據(jù)庫(kù)上。

顯然,事實(shí)已經(jīng)證明,人們?cè)诳吹絊alesforce或SuccessFactors時(shí),不會(huì)再說(shuō)“因?yàn)榧坠俏膿碛兴械臄?shù)據(jù)庫(kù),所以其他模式永遠(yuǎn)不會(huì)奏效”。

相反,關(guān)系數(shù)據(jù)庫(kù)已經(jīng)成為了全球企業(yè)管理領(lǐng)域創(chuàng)造更多可能的中堅(jiān)力量。而這,正是如今理解機(jī)器學(xué)習(xí)的一個(gè)很好的方式。

機(jī)器學(xué)習(xí)讓我們改變了使用計(jì)算機(jī)做事情的方式,而這將為企業(yè)創(chuàng)造出更多不同的產(chǎn)品。最終,多數(shù)的產(chǎn)品將來(lái)都將會(huì)應(yīng)用到機(jī)器學(xué)習(xí)。

這里一個(gè)重要的點(diǎn)是,雖然關(guān)系數(shù)據(jù)庫(kù)具有規(guī)模效應(yīng),卻也有贏家通吃的問(wèn)題。

即便兩家公司共用一個(gè)數(shù)據(jù)庫(kù),卻不能協(xié)同使得一個(gè)數(shù)據(jù)庫(kù)變得更好,如果卡特彼勒(NYSE:CAT)購(gòu)買(mǎi)和Safeway(北美最大的食品和藥品零售商之一)相同的數(shù)據(jù)庫(kù),后者的數(shù)據(jù)庫(kù)也不會(huì)變得更好。

機(jī)器學(xué)習(xí)就是這樣的:關(guān)鍵在于數(shù)據(jù),但數(shù)據(jù)對(duì)特定應(yīng)用程序具有高度特異性。

更多的手寫(xiě)數(shù)據(jù)將使手寫(xiě)識(shí)別器變得更好,更多的燃?xì)廨啓C(jī)數(shù)據(jù)將使一個(gè)系統(tǒng)更好地預(yù)測(cè)燃?xì)廨啓C(jī)故障,但這二者并不能互相提升——數(shù)據(jù)具有不可替代性。

這就是在理解機(jī)器學(xué)習(xí)時(shí)最常見(jiàn)的誤解:人們錯(cuò)誤地認(rèn)為機(jī)器學(xué)習(xí)是一種單一的、通用的東西,認(rèn)為谷歌(NASDAQ:GOOG)或微軟(NASDAQ:MSFT)各自建立了一套機(jī)器學(xué)習(xí)系統(tǒng),或者IBM(NYSE:IBM)有一個(gè)名為“Watson”的機(jī)器學(xué)習(xí)機(jī)器。

而這也一直是在理解自動(dòng)化上的誤區(qū):隨著每一波自動(dòng)化,我們想象我們正在創(chuàng)造的是擬人化的機(jī)器或是具有廣義智能的機(jī)器。

比如:在二十世紀(jì)二十年代和三十年代,我們想象鋼鐵工人拿著錘子在工廠里走來(lái)走去的樣子,在20世紀(jì)50年代,我們想象著人形機(jī)器人在廚房里走動(dòng)做家務(wù)。然而最后,我們沒(méi)有得到機(jī)器人仆人,我們創(chuàng)造出了洗衣機(jī)。

我們其實(shí)還不能理解機(jī)器學(xué)習(xí)

洗衣機(jī)是機(jī)器人,但它們并不“智能”。它們不知道什么是水或衣服。此外,即使僅僅在洗滌方面,它們也不是通用的——你不能把餐具放在洗衣機(jī)里,也不能把衣服放在洗碗機(jī)里。

洗衣機(jī)只是另一種自動(dòng)化,在概念上與傳送帶或取放機(jī)器沒(méi)有什么不同。

同樣,盡管機(jī)器學(xué)習(xí)能夠解決計(jì)算機(jī)之前無(wú)法解決的問(wèn)題,但這其中的問(wèn)題并不是一概而論的,而是每個(gè)問(wèn)題都需要不同的方案、不同的數(shù)據(jù)以及不同的公司來(lái)解決。它們中的每一個(gè)都是自動(dòng)化的一部分,都是一臺(tái)洗衣機(jī)。

因此,理解機(jī)器學(xué)習(xí)的一個(gè)挑戰(zhàn)是:我們不但要理解其中的數(shù)學(xué)方程,也要擁有對(duì)AI的幻想。

機(jī)器學(xué)習(xí)不會(huì)成為一種先知型的機(jī)器人,但將其僅僅視為數(shù)據(jù)統(tǒng)計(jì)工具也不妥。大家都說(shuō)說(shuō)“機(jī)器學(xué)習(xí)可以讓你提出這些新問(wèn)題”,但到底是什么問(wèn)題卻不明確。

我們可以做出很棒的語(yǔ)音識(shí)別和圖像識(shí)別系統(tǒng),但問(wèn)題是,普通公司會(huì)拿這些系統(tǒng)做些什么呢?

正如美國(guó)一家大型媒體公司的團(tuán)隊(duì)不久前對(duì)我說(shuō)的那樣:我知道我們可以使用機(jī)器學(xué)習(xí)來(lái)編排十年間采訪運(yùn)動(dòng)員的視頻,但為什么要這樣做?

那么,對(duì)于企業(yè)而言,機(jī)器學(xué)習(xí)對(duì)于它們的真正意義是什么?我認(rèn)為有兩套思考方法可以采用。首先是根據(jù)數(shù)據(jù)類(lèi)型和問(wèn)題類(lèi)型的方式進(jìn)行思考:

1.機(jī)器學(xué)習(xí)可以作為一種分析或優(yōu)化技術(shù),對(duì)于已有的數(shù)據(jù)及問(wèn)題提供更好的結(jié)果。例如,Instacart (美國(guó)一家在線雜貨配送服務(wù)商)建立了一個(gè)系統(tǒng),通過(guò)雜貨店優(yōu)化個(gè)人購(gòu)物者的路線選取,并實(shí)現(xiàn)了提高50%的優(yōu)化(這是由三位工程師使用Google的開(kāi)源工具Keras和Tensorflow構(gòu)建的)。

2.機(jī)器學(xué)習(xí)可以讓我們對(duì)已有數(shù)據(jù)提出新的問(wèn)題。例如,正在尋找案件線索的律師,可能會(huì)搜索帶有“憤怒”“焦慮”等情感類(lèi)關(guān)鍵詞的電子郵件,或異常的發(fā)信規(guī)律或文檔集群,以及進(jìn)行更多的關(guān)鍵字搜索,

3.機(jī)器學(xué)習(xí)開(kāi)辟了新的數(shù)據(jù)類(lèi)型進(jìn)行分析。從前計(jì)算機(jī)無(wú)法真正讀取音頻,圖像或視頻,但是現(xiàn)在,這都將變?yōu)榭赡堋?/p>

在這一點(diǎn)上,我發(fā)現(xiàn)成像是最令人興奮的:雖然只要我們有計(jì)算機(jī),計(jì)算機(jī)就可以處理文本和數(shù)字,但在以前,圖像(和視頻)大部分是不能被處理的;現(xiàn)在有了機(jī)器學(xué)習(xí),計(jì)算機(jī)將不但能夠“看到”圖像,并且能夠理解其中含義。

這意味著圖像傳感器(和麥克風(fēng))將成為一種全新的輸入機(jī)制,像一種功能強(qiáng)大且靈活的傳感器,可以生成機(jī)器可讀的數(shù)據(jù)流。這些都可以歸結(jié)為的計(jì)算機(jī)視覺(jué)問(wèn)題。

我最近遇到了一家為汽車(chē)行業(yè)供應(yīng)座椅的公司,該公司已將神經(jīng)網(wǎng)絡(luò)放在廉價(jià)的DSP(數(shù)字信號(hào)處理)芯片上,配備便宜的智能手機(jī)圖像傳感器,以檢測(cè)織物是否有皺紋。

我們更應(yīng)該期待各種類(lèi)似的用途,也就是機(jī)器學(xué)習(xí)在非常細(xì)微領(lǐng)域,例如微型小部件以及單一件事件上的應(yīng)用。

而將機(jī)器學(xué)習(xí)描述為“人工智能”是沒(méi)有用的,它更多的是把以前無(wú)法實(shí)現(xiàn)自動(dòng)化的任務(wù)自動(dòng)化。

這種自動(dòng)化能力就是思考機(jī)器學(xué)習(xí)的第二條思路。發(fā)現(xiàn)紡織物是否有皺紋不需要20年的經(jīng)驗(yàn)——它真的只需要哺乳動(dòng)物的大腦。

事實(shí)上,我的一位同事建議,機(jī)器學(xué)習(xí)將能夠做任何你可以訓(xùn)練狗做的事情——這也是一種思考AI的不錯(cuò)的方法:狗究竟學(xué)到了什么?訓(xùn)練數(shù)據(jù)中有什么?你怎么問(wèn)?但這也不是全部,因?yàn)楣反_實(shí)有智商和常識(shí),不像神經(jīng)網(wǎng)絡(luò)。

五年前,如果你給計(jì)算機(jī)一堆照片,它除了按尺寸排序外,還做不了別的。一個(gè)十歲的孩子可以把它們分成幾個(gè)男人和一個(gè)女人,一個(gè)十五歲的孩子把它們分成酷和不酷的,一個(gè)實(shí)習(xí)生可以指出最有意思的那張。

今天,借助機(jī)器學(xué)習(xí),計(jì)算機(jī)將匹配十歲孩子的能力,也許是十五歲的。它可能永遠(yuǎn)不會(huì)達(dá)到實(shí)習(xí)生的水平。但是,如果你有一百萬(wàn)個(gè)十五歲的孩子來(lái)查看你的數(shù)據(jù),你會(huì)怎么做?會(huì)發(fā)現(xiàn)什么,會(huì)看到什么圖像,會(huì)檢查哪些文件傳輸或信用卡付款?

也就是說(shuō),機(jī)器學(xué)習(xí)不需要匹配專(zhuān)家或數(shù)十年的經(jīng)驗(yàn)判斷。我們需要“聽(tīng)取所有電話并找到帶有憤怒情緒的電話”。“閱讀所有電子郵件,找到帶有焦慮情緒的電子郵件”。“看看十萬(wàn)張照片,找到那些很酷(或至少很奇怪)的人。”

從某種意義上說(shuō),這就是自動(dòng)化。

Excel沒(méi)有給我們?nèi)斯?huì)計(jì)師,Photoshop和Indesign沒(méi)有給我們?nèi)斯D形設(shè)計(jì)師,而且蒸汽機(jī)確實(shí)沒(méi)有給我們?nèi)嗽祚R。相反,我們是在成規(guī)模地逐一攻克每一個(gè)小問(wèn)題。

上面這個(gè)比方的意思是,機(jī)器學(xué)習(xí)不僅可以找到我們已經(jīng)認(rèn)識(shí)到的東西,而且可以找到人類(lèi)還沒(méi)有識(shí)別的東西,或找到那些十歲的孩子辨別不出的模式或推論。

這就好像是AlphaGo。

AlphaGo不像電腦一樣下國(guó)際象棋,也就是按順序分析每一個(gè)可能的決策步驟;與之相反,AlphaGo被編入了規(guī)則,需要自己制定戰(zhàn)略,AlphaGo通過(guò)和自己下棋來(lái)學(xué)習(xí),而這數(shù)量是人類(lèi)在好幾生中下棋的數(shù)量。

也就是說(shuō),這不是一千名速度非??斓膶?shí)習(xí)生,而是機(jī)器學(xué)習(xí)在看到第三百萬(wàn)張圖像時(shí),可以識(shí)別出一種沒(méi)有被發(fā)現(xiàn)的模式。

那么,哪些領(lǐng)域足夠細(xì)化,讓我們可以告訴機(jī)器學(xué)習(xí)一套系統(tǒng)規(guī)則,而且足夠深入,以至于能夠看到人類(lèi)所看不到的數(shù)據(jù),而這會(huì)帶來(lái)意想不到的結(jié)果?

我花了很多時(shí)間與大公司見(jiàn)面并討論他們的技術(shù)需求,它們確實(shí)有一些需求通過(guò)機(jī)器學(xué)習(xí)就能解決。比如它們有很多明顯的分析和優(yōu)化問(wèn)題,以及很多圖像識(shí)別問(wèn)題或音頻分析問(wèn)題。

同樣,我們談?wù)撟詣?dòng)駕駛汽車(chē)和混合現(xiàn)實(shí)的唯一原因,是因?yàn)闄C(jī)器學(xué)習(xí)能夠讓它們變?yōu)閷?shí)現(xiàn)。

機(jī)器學(xué)習(xí)為汽車(chē)提供了一種途徑,讓它們了解周?chē)氖挛镆约叭祟?lèi)駕駛員可能會(huì)做采取的行動(dòng),并提供混合現(xiàn)實(shí)一種解決方案,明確我應(yīng)該看到的事物,就像一副可以顯示任何東西的眼鏡。

但在我們談到面料皺紋或情緒分析之后,這些公司往往會(huì)坐下來(lái)問(wèn)“好吧,還有什么?”這會(huì)帶來(lái)什么其他的東西,以及它會(huì)發(fā)現(xiàn)什么未知的東西?

得到這些問(wèn)題的答案,我們可能至少還需要十到十五年時(shí)間,直到那時(shí)我們或能真正透徹理解了機(jī)器學(xué)習(xí)。

標(biāo)簽: 機(jī)器學(xué)習(xí)

上一篇:空客A380停產(chǎn):巨無(wú)霸飛機(jī)沉浮錄
下一篇:日本消費(fèi)降級(jí):成熟,還是絕望?

新聞排行