南京2022年11月7日 /美通社/ -- 11月3日南棲仙策通用智能決策2022發(fā)布會上,介紹了強(qiáng)化學(xué)習(xí)工業(yè)軟件REVIVE的新版本,更為驚艷的是,還發(fā)布了首個(gè)工業(yè)控制預(yù)訓(xùn)練模型?梢灶A(yù)見到強(qiáng)化學(xué)習(xí),這一曾經(jīng)在圍棋上戰(zhàn)勝人類的AI技術(shù),將為工業(yè)場景將帶來巨大變革。
智能決策平臺REVIVE(Reinforcement learning with Virtualized Environment),能夠?qū)⑸倭繗v史數(shù)據(jù)轉(zhuǎn)化為強(qiáng)大的決策引擎。
"我們在多年的落地經(jīng)驗(yàn)中,吸取了非常多的教訓(xùn),我們相信這個(gè)版本,能夠帶來更加智能,準(zhǔn)確,靈活,可信的智能決策結(jié)果。" 南棲仙策聯(lián)合創(chuàng)始人秦熔均這樣介紹。新發(fā)布的REVIVE更智能、更準(zhǔn)確、更靈活、更可信:
更加智能:新版本的REVIVE SDK引入變量因果分析工具,將用戶從稠密的數(shù)據(jù)和復(fù)雜交錯(cuò)的流程當(dāng)中解脫出來,自動進(jìn)行結(jié)構(gòu)優(yōu)化和推薦,幫助用戶輕松構(gòu)建模型和進(jìn)行虛擬環(huán)境的訓(xùn)練。
更加準(zhǔn)確:正如人類在做決策時(shí)可以很快認(rèn)知他所面臨的環(huán)境,REVIVE通過生成、自動識別并自動匹配不同環(huán)境和最佳元策略模型,對最終的策略進(jìn)行調(diào)優(yōu)。針對實(shí)際環(huán)境,選擇出最適宜準(zhǔn)確的決策。
更加靈活:在現(xiàn)實(shí)應(yīng)用中往往會有一些隱藏變量,新版REVIVE可以輕松添加隱變量模塊,將缺失值也納入考量。同時(shí),新版本也更容易拆分出子模塊進(jìn)行修改和復(fù)用。
更加可信:REVIVE提供了決策的樹狀可視化狀態(tài),用戶可以主動和模型進(jìn)行交互,看看做了不同改變會獲得怎樣不同的結(jié)果,嘗試不同決策,預(yù)見不同未來。
除了面向通用決策場景的REVIVE SDK,本場發(fā)布會上最驚艷的內(nèi)容,是面向工業(yè)反饋控制任務(wù)的決策預(yù)訓(xùn)練模型。
通用反饋控制預(yù)訓(xùn)練模型
反饋控制任務(wù)廣泛存在于大量的工業(yè)場景中。這類任務(wù)需要對實(shí)施過程中的每一步所引起的客觀效果進(jìn)行感知和反饋,并據(jù)此做出控制反應(yīng),調(diào)整下一步的計(jì)劃決策和實(shí)施方案,在往復(fù)動態(tài)中達(dá)到控制目標(biāo)。
不同的場景之下,工程師們需要根據(jù)不同的場景和環(huán)境去調(diào)整每一個(gè)控制參數(shù),達(dá)到控制效果。如果能夠?qū)崿F(xiàn)通用的反饋控制系統(tǒng),將為工業(yè)應(yīng)用帶來巨大變革。
要實(shí)現(xiàn)這項(xiàng)技術(shù)的關(guān)鍵核心在于,對不同任務(wù)的自動識別。只有當(dāng)它識別了當(dāng)前的任務(wù)是什么,才能根據(jù)任務(wù)調(diào)整控制策略,以做到對不同的任務(wù)都做出最優(yōu)的決策。
針對這個(gè)問題,南棲仙策推出了通用反饋控制系統(tǒng)識別器:GFSEncoder。它能夠輸出3維的編碼,來識別和表達(dá)不同反饋控制系統(tǒng)的特征和變化。
作為神經(jīng)網(wǎng)絡(luò)對系統(tǒng)的理解,GFSEncoder編碼的每一維不會直接對應(yīng)到系統(tǒng)的物理參數(shù),但是二者依然會存在一定聯(lián)系。
南棲仙策還額外發(fā)布了GFSEncoder Pro,將參數(shù)量提升50%以上。輸出的任務(wù)編碼維度從3維提升至8維,具有更強(qiáng)大的任務(wù)識別和編碼能力。
在發(fā)布會上,南棲仙策以滑塊的控制為例,展示了特征編碼是如何隨著物理參數(shù)的變化而變化的。B站搜索南棲仙策 https://www.bilibili.com/video/BV1Bd4y1c7n7/?spm_id_from=333.999.0.0&vd_source=81e9203bcfc1f33b834d254f33b023c7 可以看到完整的演示過程。
最后還需要強(qiáng)調(diào)的是,GFSEncoder并不需要額外測量系統(tǒng)的各種參數(shù)。
GFSEncoder下游應(yīng)用
(一)系統(tǒng)變動預(yù)警
很多系統(tǒng)在長時(shí)間的運(yùn)行后會發(fā)生老化或者損壞。通過比對GFSEncoder輸出的編碼可實(shí)時(shí)監(jiān)控系統(tǒng)是否出現(xiàn)變化,預(yù)警系統(tǒng)失效。
(二)系統(tǒng)標(biāo)定
GFSEncoder還可以根據(jù)當(dāng)前系統(tǒng)編碼與標(biāo)準(zhǔn)系統(tǒng)編碼的差異來調(diào)整系統(tǒng)的參數(shù),使用戶不需要精密測量,就可以將系統(tǒng)向標(biāo)準(zhǔn)系統(tǒng)校準(zhǔn)。
(三)PID參數(shù)預(yù)測
在這個(gè)應(yīng)用中,南棲仙策介紹了將要推出的第二個(gè)模型,PIDPredictor。
PIDPredictor也是一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,能夠基于GFSEncoder編碼對相應(yīng)的最優(yōu)PID參數(shù)進(jìn)行預(yù)測。GFSEncoder與PIDPredictor相結(jié)合,可以通過系統(tǒng)中的歷史軌跡信息得到最優(yōu)PID參數(shù)。
在展示當(dāng)中,可以看出PIDPredictor所預(yù)測的PID參數(shù)的控制效果(右側(cè))會比待整定的PID控制器好很多。B站搜索南棲仙策可以看到完整的演示過程。
(四)通用反饋任務(wù)控制
南棲仙策還將PID控制器用神經(jīng)網(wǎng)絡(luò)控制器替代,推出了通用反饋控制器,GFSController。GFSController是使用強(qiáng)化學(xué)習(xí)訓(xùn)練得到的通用控制器,它由GFSEncoder與一個(gè)神經(jīng)網(wǎng)絡(luò)控制器組合而成。
結(jié)合GFSEncoder對系統(tǒng)的快速編碼能力,GFSController可以做到部署即運(yùn)行。
發(fā)布會以平衡車任務(wù)為例,進(jìn)行了展示。在部署了GFSEncoder之后,無需進(jìn)行任何針對性的調(diào)節(jié),GFSController就能夠直接將平衡車控制在穩(wěn)定的狀態(tài)。
作為驗(yàn)證,南棲仙策將GFSController部署至無人機(jī)高度控制任務(wù)中。作為對比,南棲仙策還引入了一個(gè)調(diào)好的二階PID完成同樣的任務(wù),可以看出,GFSController與一個(gè)調(diào)好的PID控制器表現(xiàn)出了相當(dāng)?shù)乃健?/p>
為了測試GFSController通用性,發(fā)布會上,南棲仙策對更多的衍生場景進(jìn)行了假設(shè)和模擬:如果有一天人類登陸火星或是在高空飛行,這個(gè)無人機(jī)能否適應(yīng)新的環(huán)境變化?
GFSController很快就完成了對新系統(tǒng)的識別,其超調(diào)已經(jīng)明顯降低,然而PID控制器的超調(diào)依然很嚴(yán)重,以致于最后無人機(jī)撞擊到地面并損毀。B站搜索南棲仙策可以看到完整的演示過程。
需要注意的是,這里的PID控制器是一個(gè)二階級聯(lián)的PID控制器。而GFSController則是一階控制的。事實(shí)上,GFSController也能夠通過級聯(lián)來提升控制效果。這意味著GFSController除了通用性之外,還具有強(qiáng)大的拓展性。
南棲仙策已經(jīng)將GFSEncoder的相關(guān)的模型發(fā)布到了REVIVE官網(wǎng)。https://revive.cn 歡迎大家下載體驗(yàn)。