洽談電話
400-6060-805
其實(shí)不然。眾所周知,搞研究是最為燒錢(qián)的;因此,DeepMind每年都投入大量的資金,金額甚至比之前任何相關(guān)項(xiàng)目的金額都要大。話雖如此,但DeepMind虧損的上升幅度仍值得考慮:2016年為1.54億美元,2017年為3.41億美元,2018年為5.72億美元。
這涉及到三個(gè)核心問(wèn)題:DeepMind是否在科學(xué)上走上正軌?從Alphabet的角度來(lái)看,這種規(guī)模的投資是否合理?這種損失將會(huì)從整體上影響人工智能嗎?
關(guān)于第一個(gè)問(wèn)題,人們有理由持懷疑態(tài)度。DeepMind一心撲在深度強(qiáng)化學(xué)習(xí)上,該技術(shù)將主要用于識(shí)別模式的深度學(xué)習(xí)與基于獎(jiǎng)勵(lì)信號(hào)的強(qiáng)化學(xué)習(xí)相結(jié)合。
2013年,DeepMind在一篇激動(dòng)人心的論文中將這項(xiàng)技術(shù)命名為 深度強(qiáng)化學(xué)習(xí) ,該論文展示了如何訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)系統(tǒng)來(lái)玩各種Atari游戲,比如Breakout和Space Invaders;不得不承認(rèn),有時(shí)候它們比人類玩得都要好。這篇論文是一篇工程杰作,大概也是促使Alphabet在2014年1月收購(gòu)DeepMind的主要原因之一。隨后,該技術(shù)進(jìn)一步發(fā)展,推動(dòng)了DeepMind在圍棋和游戲StarCraft(星際爭(zhēng)霸)中取得勝利。
問(wèn)題就在于,該技術(shù)對(duì)環(huán)境的依賴非常大:在玩Breakout時(shí),就連將游戲中的球拍向上移動(dòng)幾個(gè)像素這樣微小的變化,都會(huì)導(dǎo)致游戲性能急劇下降。DeepMind在星際爭(zhēng)霸游戲里的勝利也有著同樣的局限 使用特定地圖和特定 種族 角色時(shí),其結(jié)果優(yōu)于人類;使用不同地圖和不同角色結(jié)果較差。如果要更換角色,則要從頭開(kāi)始重新訓(xùn)練系統(tǒng)。
在某種程度上,深度強(qiáng)化學(xué)習(xí)是一種渦輪增壓式的記憶,使用它的系統(tǒng)能夠?qū)崿F(xiàn)一些人們覺(jué)得不可思議的目標(biāo),但它們本身對(duì)自己在做的事情只有膚淺的理解。因此,當(dāng)前的系統(tǒng)缺乏靈活性,也無(wú)法在環(huán)境發(fā)生變化時(shí)進(jìn)行調(diào)整。
深度強(qiáng)化學(xué)習(xí)還需要大量的數(shù)據(jù)。比如,AlphaGo在訓(xùn)練過(guò)程中參加了數(shù)百萬(wàn)次圍棋游戲,這遠(yuǎn)遠(yuǎn)超過(guò)了一個(gè)人想要成為世界級(jí)棋手所需要的數(shù)量;而且實(shí)現(xiàn)這個(gè)目標(biāo)需要巨大規(guī)模的計(jì)算資源,價(jià)格也不菲 據(jù)估計(jì),訓(xùn)練AlphaGo的成本為3500萬(wàn)美元。
不過(guò),這些都是出于經(jīng)濟(jì)學(xué)的考慮。正如Rebooting AI(重啟人工智能)這本書(shū)中所說(shuō),真正的問(wèn)題在于信任。目前,深度強(qiáng)化學(xué)習(xí)只能在受到嚴(yán)格控制、很少出現(xiàn)意外的環(huán)境中進(jìn)行;將其運(yùn)行在幾千年里都沒(méi)有出現(xiàn)變化的環(huán)境里或許可行,但在現(xiàn)實(shí)生活中,人們可能不會(huì)想依賴它。
鄂ICP備12009549號(hào) 版權(quán)所有:湖北新美廣告有限責(zé)任公司 地址:武昌丁字橋
聯(lián)系電話:13807210624 15871688830 400-6060-805 技術(shù)支持:湖北新美廣告有限責(zé)任公司 [管理]