隨著超高速移動網絡和互聯網連接設備的激增,以及人工智能(AI) 的興(xing) 起,我們(men) 的世界正在生成大量需要以快速有效方式處理的數據。因此,高度並行化、快速和可擴展的硬件變得越來越重要。在這裏,作者展示了一個(ge) 計算特定的集成光子硬件加速器(張量核),它能夠以每秒數萬(wan) 億(yi) 次乘法累加運算(乘法累加運算是矩陣矢量乘法(matrix-vector multiplication,MVM)運算所需的基本數學元素,目前執行此任務的矽基計算硬件有FPGA、ASICs、GPUs)的速度運行。張量核心可以被視為(wei) 專(zhuan) 用集成電路(ASIC) 的光學模擬。它使用相變材料(phase-change material,PCM)存儲(chu) 陣列和基於(yu) 光子芯片的光頻梳(光孤子微梳)實現並行光子內(nei) 存計算。計算被簡化為(wei) 測量可重構和非諧振無源元件的光傳(chuan) 輸,並且可以在超過14 GHz 的帶寬下運行,僅(jin) 受調製器和光電探測器速度的限製。鑒於(yu) 微波線速光孤子微梳、超低損耗氮化矽波導以及高速片上探測器和調製器的混合集成的最新進展,此文的方法為(wei) 光子張量核心的完全互補金屬氧化物半導體(ti) (CMOS) 晶圓級集成提供了可行途徑。 盡管此文專(zhuan) 注於(yu) 卷積運算,但更一般地說,文章的結果表明集成光子學在數據密集型AI 国产成人在线观看免费网站程序(如自動駕駛、實時視頻處理和下一代雲(yun) 計算服務)中具有並行、快速和高效計算的硬件潛力。
博覽:2021 Nature 使用集成光子張量核的並行卷積運算
摘要:
隨著超高速移動網絡和互聯網連接設備的激增,以及人工智能(AI) 的興(xing) 起,我們(men) 的世界正在生成大量需要以快速有效方式處理的數據。因此,高度並行化、快速和可擴展的硬件變得越來越重要。在這裏,作者展示了一個(ge) 計算特定的集成光子硬件加速器(張量核),它能夠以每秒數萬(wan) 億(yi) 次乘法累加運算(乘法累加運算是矩陣矢量乘法(matrix-vector multiplication,MVM)運算所需的基本數學元素,目前執行此任務的矽基計算硬件有FPGA、ASICs、GPUs)的速度運行。張量核心可以被視為(wei) 專(zhuan) 用集成電路(ASIC) 的光學模擬。它使用相變材料(phase-change material,PCM)存儲(chu) 陣列和基於(yu) 光子芯片的光頻梳(光孤子微梳)實現並行光子內(nei) 存計算。計算被簡化為(wei) 測量可重構和非諧振無源元件的光傳(chuan) 輸,並且可以在超過14 GHz 的帶寬下運行,僅(jin) 受調製器和光電探測器速度的限製。鑒於(yu) 微波線速光孤子微梳、超低損耗氮化矽波導以及高速片上探測器和調製器的混合集成的最新進展,此文的方法為(wei) 光子張量核心的完全互補金屬氧化物半導體(ti) (cmos) 晶圓級集成提供了可行途徑。 盡管此文專(zhuan) 注於(yu) 卷積運算,但更一般地說,文章的結果表明集成光子學在數據密集型AI 国产成人在线观看免费网站程序(如自動駕駛、實時視頻處理和下一代雲(yun) 計算服務)中具有並行、快速和高效計算的硬件潛力。
潛在用途:
(1)替代電子計算,国产成人在线观看免费网站於(yu) 需要並行、快速、高效計算的場景。
關(guan) 鍵圖示:
(1)片上矩陣乘法引擎,使用基於(yu) 光子芯片的光頻梳生成多個(ge) 波長執行並行乘法累加(MAC)運算,在利用相變材料的波導網絡中進行非相幹相加(此處的光頻梳利用了工作在耗散克爾孤子態(dissipative Kerr soliton states, DKS)的芯片級微梳,因為(wei) 其可以生成寬帶、低噪、完全集成的光頻梳)。a,數字和模擬電子架構與(yu) 我們(men) 的光子張量核心架構的比較。數字電子(左)需要分布在多個(ge) 內(nei) 核上的許多連續處理步驟來計算圖像的卷積運算,而整個(ge) MVM 可以使用模擬電子內(nei) 存計算(中)一步執行。光子內(nei) 存計算(右)將波長複用作為(wei) 額外的自由度,在單個(ge) 時間步長內(nei) 實現多個(ge) MVM 操作。b,用於(yu) 計算卷積運算的完全集成光子架構的概念圖。片上激光器(此處未使用)泵浦集成的 Si3N4 微諧振器以生成寬帶孤子頻率梳。形成輸入向量的單個(ge) 梳齒被高速調製,與(yu) 非易失性相變存儲(chu) 單元矩陣相乘,並沿光電探測器上的每一列求和。c,通過將卷積操作映射到一係列 MVM運算,將具有 din 通道的輸入圖像(左)與(yu) 大小為(wei) k × k 的 dout 核進行卷積。輸入圖像被映射到一係列大小為(wei) (din × k2) × 1(中)的 (n − k + 1)2 個(ge) 輸入向量,並乘以維度為(wei) (din × k2) × dout(右)的濾波器矩陣。每條梳狀線對應輸入向量的一個(ge) 元素(entry),並根據輸入矩陣的像素值進行調製。
(2)輸入矢量使用具有不同振幅強度的不同波長編碼後,送入不同的矩陣輸入口。(PCM處於(yu) 晶體(ti) 態時,吸收絕大部分光,表示“0”;處於(yu) 無定形態時,大部分光被傳(chuan) 輸,表示“1”;中間的傳(chuan) 輸態通過可控切換 PCM 單元中無定形部分和結晶部分的比例,獲得正和負的矩陣元素。)多波長的国产成人在线观看免费网站允許同時執行多個(ge) 計算。a, 基本 MVM:矢量在具有波長(X1到Xm)的氮化矽 (Si3N4) 光子集成孤子頻率梳(微梳)的單個(ge) 梳齒的振幅中編碼,並發送到相應的矩陣輸入波導。矩陣元素由PCM的狀態決(jue) 定,PCM貼在波導上。選擇定向耦合器的分光比,使得每個(ge) 輸入的相同比例的光到達輸出口。b,用於(yu) 頻率梳生成的基於(yu) 高Q Si3N4 光子芯片的微諧振器的光學顯微照片。c,製造的 16 × 16 的光學顯微照片。插圖顯示了一個(ge) 4 × 4 矩陣,帶有 3D 打印的輸入和輸出耦合器,以實現寬帶操作。右側(ce) 的特寫(xie) SEM 圖像更詳細地顯示了 3D 打印的耦合器(底部)和波導與(yu) PCM(頂部)的交叉。d,多路複用全光MVM 的示意圖。輸入向量是由連續波 (CW) 激光器驅動的光子芯片級 DKS 頻率梳的行產(chan) 生的,使用波分複用器 (MUX) 和可變光衰減器 (VOA)。不同輸入向量的條目再次使用波長複用組合在一起,並發送到執行計算的片上MAC 單元。將正確的波長與(yu) 光波分解複用器 (DEMUX) 結合後,乘法結果從(cong) 光電探測器 (PD) 獲得,然後進行數字信號處理 (DSP)。請注意,在給定的示例中,一次操作四個(ge) 內(nei) 核和四個(ge) 輸入向量,導致每個(ge) 時間步長 64 個(ge) MAC 操作。e,單孤子頻率梳的測量頻譜。
參考文獻:Feldmann, J., Youngblood, N., Karpov, M. et al. Parallel convolutional processing using an integrated photonic tensor core. Nature 589, 52–58 (2021).
DOI:
關(guan) 於(yu) 昊量光電:
上海昊量光電設備有限国产黄色在线观看是國內(nei) 知名光電国产欧美在线專(zhuan) 業(ye) 代理商,代理品牌均處於(yu) 相關(guan) 領域的發展前沿;国产欧美在线包括各類激光器、光電調製器、光學測量設備、精密光學元件等,涉及国产成人在线观看免费网站領域涵蓋了材料加工、光通訊、生物醫療、科學研究、國防及更細分的前沿市場如量子光學、生物顯微、物聯傳(chuan) 感、精密加工、先進激光製造等;可為(wei) 客戶提供完整的設備安裝,培訓,硬件開發,軟件開發,係統集成等優(you) 質服務。
您可以通過昊量光電的官方網站www.weilancj.com了解更多的国产欧美在线信息,或直接來電谘詢4006-888-532。
本文章經光學前沿授權轉載,商業(ye) 轉載請聯係獲得授權。
展示全部