美商賽靈思(Xilinx)執行長Victor Peng於17日發表全新Versal,為業界首創的ACAP(Adaptive Compute Acceleration Platform,自行調適運算加速平台),為所有開發者的任何應用開啟快速創新的新時代。
Versal ACAP結合了純量處理引擎(Scalar Processing Engine)、自行調適硬體引擎(Adaptable Hardware Engine)、以及具有先進記憶體和介面技術的智慧引擎,可為所有應用提供強大的異質加速能力。不過,Versal ACAP 最大的特點是,不管是軟體開發者、資料科學家或是硬體開發者,只須利用符合業界標準設計流程的工具、軟體、函式庫、IP、中介軟體以及框架,就能針對其硬體與軟體進行編程與最佳化。
採用台積電7奈米FinFET製程技術打造的Versal系列,是第一個結合軟體可編程能力、特定領域硬體加速及必要之調適性的平台,以跟上現今飛快的創新步調。此平台共有6個系列,透過特別架構的元件,針對從雲端、網路、無線通訊、邊緣運算、一路涵蓋到端點等不同市場內的各種應用,提供可擴展性以及AI推論能力。
賽靈思總裁暨執行長Victor Peng表示,人工智慧(AI)與巨量資料的爆炸成長,加上摩爾定律的進展放緩,業界已走到關鍵的轉捩點,矽晶片的設計週期已跟不上創新的腳步。因此,歷經4年研發的業界第一個ACAP Versal,讓所有類型的開發者都能透過最佳化的硬體與軟體加速整個應用,日後還能即時調適軟/硬體,來因應快速演化的技術。它正是業界所需要的,且能在適當的時機滿足各項需求。
新系列包含Versal Prime、Premium、以及HBM 系列,皆設計針對要求嚴苛的應用提供領先業界的效能、連結、頻寬、以及整合度。此外還包含採用突破性AI 引擎的AI 核心、AI 邊緣、以及AI RF系列。AI引擎是一種新型硬體模塊,用以解決各種應用對於低延遲AI推論所衍生出的新需求,以及針對例如無線通訊與雷達等應用提供先進的DSP功能支援,它與Versal自行調適硬體引擎的緊密耦合,能支援整個應用的加速,意謂硬體與軟體都能進行調校,以發揮最高的效能與效率。
率先推出的Versal Prime系列針對許多市場提供廣泛的適用性,以及Versal AI核心系列更帶來比業界領先的GPU高出約8倍的AI推論效能。
Versal AI核心系列提供此平台最高的運算力及最低的延遲,帶來突破性的AI推論傳輸率與效能。該系列針對雲端、網路、以及自主技術(Autonomous Technology)進行最佳化,提供業界最高的AI與作業負載加速能力範圍。
Versal AI 核心系列配有5個元件,並提供128至400個AI引擎。此系列包含雙核Arm Cortex-A72應用處理器、雙核Arm Cortex-R5即時處理器、支援ECC的256KB晶片內建記憶體,以及超過1,900個針對高精度浮點與低延遲進行最佳化的DSP引擎。此外,它還結合超過190萬個系統邏輯單元、結合超過130Mb的UltraRAM、高達34Mb的模塊RAM、28Mb的分散式RAM、以及32Mb的新型加速器RAM 模塊,此新型模塊可從任一引擎直接存取,同時也專為Versal AI系列特別設計,用於支援客製化記憶體階層(Memory hierarchy)。此系列還內含PCIe Gen4 8-lane 與16-lane、CCIX主機介面、功耗最佳化的32G SerDes、高達4個整合的DDR4記憶體控制器、高達4個多重速率乙太網路媒體存取控制器(MAC)、650個MIPI D-PHY專屬的高效能I/O、NAND記憶體、儲存等級的記憶體介面與LVDS、78個連至外部元件的多工I/O、以及超過40個支援3.3伏特介面的HD I/O。上述所有元件都透過最先進且具有高達28個主控端(master)/ 從屬端(slave)連結埠的網路單晶片(NoC)進行互連,不僅提供每秒數兆位元(multi-terabit)的頻寬,還兼具低延遲、低高耗、以及原生軟體的可編程能力。完整的產品規格表現已釋出。
Versal Prime系列除了針對多種市場的廣泛適用性進行設計,還特別針對眾多作業負載的連結與線上(in-line)加速進行最佳化。此款中階系列配有9個元件,每款元件都包含雙核Arm Cortex-A72應用處理器、雙核Arm Cortex-R5 即時處理器、支援ECC的256KB晶片內建記憶體、超過4,000個針對高精度浮點與低延遲進行最佳化的DSP引擎。
此外,它還結合超過200萬個系統邏輯單元、超過200Mb 的UltraRAM、超過90Mb 的模塊RAM,以及30Mb的分散式RAM,來支援各種客製化記憶體階層(Memory hierarchy)。此系列還內含PCIe Gen4 8-lane 與16-lane、CCIX 主機介面、每秒32 gigabits的功耗最佳化SerDes與主流級每秒58 gigabits的PAM4 SerDes、高達6個整合式DDR4記憶體控制器、高達4個多重速率乙太網路媒體存取控制器、700 個高效能MIPI D-PHY 專屬I/O、NAND記憶體、儲存等級的記憶體介面與LVDS、78個連至外部元件的多工I/O,以及超過40個支援3.3伏特介面的HD I/O。上述所有元件都透過最先進且具有高達28個主控端(master)/ 從屬端(slave)連結埠的網路單晶片(NoC)進行互連,不僅提供每秒數兆位元(multi-terabit)的頻寬,還兼具低延遲、低高耗、以及原生軟體的可編程能力。完整的產品規格表現已釋出。