隨著AI任務從云端廣泛下沉至設備邊緣,端側AI正經歷從單一感知到復雜多模態交互的深刻變革。這一進化對底層算力提出了前所未有的要求:它不再是簡單的算力堆砌,而是對計算效率、能效和整體系統優化的終極考驗。在此背景下,異構計算成為必然選擇,而NPU作為專為AI定制的計算單元,其核心地位日益凸顯。
近日,安謀科技Arm China正式發布其最新一代NPU IP“周易”X3。該產品并非一次簡單的迭代升級,而是從底層架構上為端側大模型量身定制的革新之作。它旨在與Arm CPU、GPU協同,構建一個真正高效、靈活的異構算力底座,直指當前端側AI在部署大模型時面臨的算力、帶寬、能效等多重痛點。

一、架構革新,DSP+DSA雙劍合璧,決勝大模型算效
“周易”X3的核心突破在于其采用的最新DSP+DSA架構。這一專為大模型設計的架構,實現了從定點計算到浮點計算的關鍵跨越,為復雜模型提供了更高的精度和動態范圍。
“周易”X3其具體性能指標令人矚目,算力方面,單Cluster可提供高達8-80 FP8 TFLOPS的靈活算力配置。帶寬方面,單Core帶寬高達256GB/s,有效緩解了制約大模型運行的“內存墻”瓶頸。此外,“周易”X3支持W4A8/W4A16等端側大模型運行必備的量化加速模式,顯著提升計算效率與密度。
尤為值得一提的是,“周易”X3集成了自研的硬件解壓引擎WDC。該技術能對經過軟件無損壓縮的大模型權重進行硬件解壓,從而額外獲得約15%的等效帶寬提升,這是一項極具巧思的“帶寬擴容”技術。

二、系統優化,超低負載,釋放端側AI多任務潛力
除了強大的計算性能與帶寬優勢,“周易”X3在系統級優化方面實現了重要技術飛躍。其集成的AI專屬硬件引擎AIFF與專用硬化調度器協同工作,構建起一套高效的異構計算架構,能夠將CPU從繁重的AI任務調度中解放出來,把相關負載大幅降低至0.5%的極低水平,同時實現微秒級的超低調度延遲。
這套系統級優化方案帶來的直接優勢在于:當搭載“周易”X3的終端設備需要并行處理語音識別、環境感知和圖像處理等多項AI任務時,各個任務之間能夠實現精準的資源分配與無縫切換。用戶在實際使用中幾乎感受不到任何卡頓或延遲,系統響應始終保持高效流暢。這種“無感”卻強大的多任務AI體驗,正是“周易”X3在系統架構設計上的突破所賦予的獨特價值,也讓端側智能的真正普及向前邁進了一大步。

三、瞄準四大領域,驅動端側AI規模化部署
憑借其在能效比、計算密度與通用性等方面的綜合優勢,“周易”X3作為新一代AI推理芯片,致力于為基礎設施、智能汽車、移動終端、智能物聯網這四大關鍵領域提供強大、可靠的核心AI算力支撐。
在具體應用中,“周易”X3能夠高效處理從復雜的云端推理到實時性要求極高的邊緣場景任務。例如,在智能汽車領域,它能同時流暢地支持多路高清攝像頭進行環境感知和駕駛員狀態監控;在智能物聯網端,它則能讓安防攝像頭具備更精準的人形識別與行為分析能力,或讓智能家居設備實現更自然的語音交互。它的發布,其戰略意 圖十分明確:就是要通過其突破性的硬件架構設計與軟件工具鏈的深度優化,樹立起端側AI在計算效率、功耗控制及成本效益上的全新行業標桿。

作為安謀科技的戰略核心產品,“周易”NPU的研發與支持100%來自中國本土團隊,至今已成功交付五代產品,積累了深厚的技術與市場經驗。在當前中國已成為全球端側AI創新與落地橋頭堡的背景下,“周易”X3的推出,背靠Arm全球生態系統,深度融合自研IP,無疑將為國內如火如荼的AI應用創新注入一股強勁的“芯”動力。 








































