專家視點(diǎn)
機(jī)器學(xué)習(xí)在超快光子學(xué)領(lǐng)域的應(yīng)用越來(lái)越廣泛。針對(duì)基于飽和吸收體的超快光纖激光器的自動(dòng)鎖模問(wèn)題,Yan等人提出并實(shí)現(xiàn)了一種 基于深度 確定性策略梯度的低延遲深度強(qiáng)化學(xué)習(xí)算法。該算法包括兩個(gè)提供腔內(nèi)激光偏振態(tài)修正策略的actor神經(jīng)網(wǎng)絡(luò)和兩個(gè)評(píng)估actor網(wǎng)絡(luò)效果的critic神經(jīng)網(wǎng)絡(luò)。 actor神經(jīng)網(wǎng)絡(luò)的作用是根據(jù)狀態(tài)選擇適當(dāng)?shù)膭?dòng)作。 critic神經(jīng)網(wǎng)絡(luò)的目的是評(píng)估執(zhí)行的動(dòng)作對(duì)系統(tǒng)的影響。 將深度強(qiáng)化學(xué)習(xí)算法和低延遲算法與基于可飽和吸收體的超快光纖激光器相結(jié)合,構(gòu)成自動(dòng)鎖??刂葡到y(tǒng)。 在算法與環(huán)境的交互過(guò)程中,為了保證環(huán)境狀態(tài)的穩(wěn)定,需要經(jīng)歷一個(gè)必要的時(shí)延, 原因是在更新電偏振控制器的偏振狀態(tài)后,超快光纖激光器的狀態(tài)需要一段時(shí)間才能變得穩(wěn)定。進(jìn)一步地,為了保證其有效性和魯棒性,研究人員提出了兩個(gè)實(shí)驗(yàn)。在有效性方面,一個(gè)實(shí)驗(yàn)驗(yàn)證了訓(xùn)練后網(wǎng)絡(luò)模型的性能,將其應(yīng)用于在環(huán)境振動(dòng)下恢復(fù)鎖模狀態(tài),模擬了超快光纖激光器快速失去鎖模狀態(tài)的情況。至于魯棒性,另一個(gè)實(shí)驗(yàn)首先用不同溫度下的超快光纖激光器建立數(shù)據(jù)庫(kù)。然后,研究人員對(duì)模型進(jìn)行訓(xùn)練并測(cè)試其性能。 實(shí)驗(yàn)發(fā)現(xiàn),該算法在振動(dòng)后最快的基本鎖?;謴?fù)時(shí)間為0.472 s,平均恢復(fù)時(shí)間為1.948 s。 與以往提出的偏振控制算法相比,該算法可以一步實(shí)現(xiàn)大規(guī)模的偏振態(tài)調(diào)整,從而優(yōu)化初始偏振態(tài)遠(yuǎn)離理想偏振態(tài)的解。 在不同溫度下,訓(xùn)練后的網(wǎng)絡(luò)模型也能在短時(shí)間內(nèi)恢復(fù)超快光纖激光器的鎖模狀態(tài)。 這是具有低延遲算法的深度強(qiáng)化學(xué)習(xí)算法在平均鎖?;謴?fù)時(shí)間上比類人算法快的主要原因。此外,在計(jì)算機(jī)上部署了具有低延遲算法的深度強(qiáng)化學(xué)習(xí)算法,這意味著系統(tǒng)可以實(shí)現(xiàn)遠(yuǎn)程自動(dòng)鎖模控制,表明該系統(tǒng)能夠?qū)崿F(xiàn)遠(yuǎn)程維護(hù)和監(jiān)控。最后,一臺(tái)計(jì)算機(jī)可以同時(shí)控制多個(gè)激光系統(tǒng),對(duì)串級(jí)系統(tǒng)的調(diào)試和控制具有重要意義。 因此,這項(xiàng)研究實(shí)現(xiàn)了遠(yuǎn)程算法訓(xùn)練和自動(dòng)鎖模控制,為超快光纖激光器的遠(yuǎn)程維護(hù)和集中控制奠定了基礎(chǔ)。該工作發(fā)表在 Photonics Research 上。
Qiu-Quan Yan, Qing-Hui Deng, Jun Zhang, Ying Zhu, Ke Yin, Teng Li, Dan Wu and Tian Jiang, Low-latency deep-reinforcement learning algorithm for ultrafast fiber lasers, Photonics Research 9(8): 1493-1501 (2021).
計(jì)算機(jī)領(lǐng)域研究的人工智能算法在醫(yī)學(xué)、金融和光學(xué)等許多其他領(lǐng)域發(fā)揮了巨大作用。人工智能的應(yīng)用主要包括反饋控制、模式識(shí)別、大數(shù)據(jù)分析、特征提取和降噪。作為人工智能領(lǐng)域的一個(gè)重要分支,深度強(qiáng)化學(xué)習(xí)以其感知和決策能力為復(fù)雜系統(tǒng)的反饋控制問(wèn)題提供了一種解決方案。因此,它被廣泛應(yīng)用于自動(dòng)駕駛和工業(yè)自動(dòng)化等領(lǐng)域的反饋控制。當(dāng)深度強(qiáng)化學(xué)習(xí)在不同的環(huán)境中應(yīng)用時(shí),策略是不同的。因此,出現(xiàn)了大量的基于強(qiáng)化學(xué)習(xí)的算法,如馬爾可夫決策過(guò)程、動(dòng)態(tài)規(guī)劃、蒙特卡羅方法、時(shí)態(tài)差分、SARSA、深度
轉(zhuǎn)載請(qǐng)注明出處。