Versal HBM 系列

高速存储器、安全数据和自适应计算的超级集成

产品优势

Versal® HBM ACAP 融合了高速存储器、安全连接和自适应计算,可消除内存受限、计算密集型工作负载(如机器学习、数据库加速、新一代防火墙和高级网络测试器)的处理与内存瓶颈。它是零基础构建,可适应不断发展的算法、协议和数据速率。观看简介视频,了解更多详情。

集成 HBM2e DRAM,因此与 Versal Premium 系列 1 相比,Versal HBM 系列可提供高达 6 倍的带宽,每比特功耗锐降 65%。Versal HBM 系列在经量产验证的 Versal Premium 自适应 SoC 系列的基础上构建,集成了广泛的多太比特( multi-terabit )网络连接、功耗优化型链接内核、112Gb/s PAM4 收发器,以灵活适应不断演进的算法和新兴协议。Versal HBM ACAP 在将收发器速度提高一倍的同时,可使用内建加密引擎为网络基础架构的每一层提供安全保护。有了可编程片上网络 (NoC),高达 2.2 Tbps 的片上连接可缓解所有引擎之间的路由拥塞。此外,Versal HBM ACAP 还可提供比上一代 HBM 解决方案高 1 倍的逻辑密度,从而可为不断演进的算法和协议最大限度提高性能。

Versal HBM 芯片图

主要特性

集成的 HBM

集成的 HBM2e

该系列集成了 HBM2e 技术,可提供 819 GBps 存储器带宽和 32 GB 容量,为计算密集型应用降低功耗、时延、外形尺寸。与商用内存解决方案 (DDR5) 相比,Versal HBM 自适应 SoC 可通过将堆叠内存直接布置在计算架构附近,提供比 Versal Premium 系列 1 高 6 倍的带宽,每比特功耗锐降 65%。集成的 HBM 可通过可编程 NoC,从全球任何地方访问设备。通过集成的内存控制器和增强的硬化交换机功能,可从任何端口访问任何内存位置。

可扩展的串行带宽

可扩展的串行带宽

Versal HBM 自适应 SoC 由 58G/112 Gbps PAM4 和 32 Gbps NRZ 收发器组成,具有高度可扩展的收发器,可提供高达 5.6Tb/s 的串行 I/O 带宽。112G PAM4 收发器有助于行业推出 800G 及单信道 100G 容量的基础架构。 对于 400G 的提升与部署,58G PAM4 收发器可针对最大带宽密度实现最新一代接口。 对于电源优化的主流 100G 接口,32Gb/s NRZ 收发器最为理想。可扩展的串行带宽

Versal 架构灵活性的核心是其灵活应变的引擎,可实现定制计算模块的开发,以满足差异化、永不过时以及适应不断变化的算法和协议的功能需求。

高性能连接是新一代网络及云基础架构的基础。

Versal HBM 系列可提供前所未有的电源优化硬 IP 集成,相当于 14 个 Virtex® UltraScale+™ FPGA 的逻辑密度。Versal HBM 系列提供前所未有的功率优化硬核 IP 集成,相当于 14 个 Virtex™ UltraScale+™ FPGA 的逻辑密度。Versal HBM 自适应 SoC 具有高速以太网、Interlaken,以及内置 DMA 的 PCIe® Gen5,为各种协议和数据速率提供了多太比特( multi-terabit )网络连接。线速高速加密引擎可以完全保护网络流量。

 

自适应引擎

自适应引擎

灵活应变的引擎加载了各种各样的片上内存元件,与可编程 I/O 紧密耦合,可提供海量并行处理和定制化功能,这对于许多具有大型数据集的计算密集型工作负载而言至关重要。作为上一代技术的增强版本,DSP 引擎向后兼容于 UltraScale+ FPGA 和 SoC 设计。

智能引擎

智能引擎

DSP 引擎支持多种操作系统和数据类型,包括单精度和半精度浮点以及复杂的 18x18 运算。因此,用户获得最大的计算性能,既可利用现有的库,也可更新其设计。您可利用现有的库或更新设计以获得最大的计算性能。

标量引擎

标量引擎

三种标量处理器可支持不同的应用需求。应用处理单元非常适合操作系统支持的复杂应用,实时处理单元非常适合时延敏感型应用。单独的平台管理控制器管理系统启动、安全性、功耗管理和调试。


了解更多详情

详细了解 AMD 存储解决方案
  

了解更多有关 Versal HBM 系列的详情
  

加入 Versal 自适应 SoC 通知列表,即可第一时间获取最新的新闻和信息。

 

附注:

  1. 根据 AMD 2023 年 5 月的内部分析,将单个支持封装内 HBM2E 的 Versal HBM VH1542 器件与 4 个 LPDDR4-4266 组件的 Versal Premium VP1502 器件执行方案进行了比较。假设顺序内存访问有 40% 的读取/写入事务处理。使用 AMD 电源设计管理器和第三方系统电源计算器生成的功率计算。配置可能不同,这会带来不同的结果。(VER-013)

应用

人工智能和机器学习 (AI/ML) 发展迅速;复杂的算法需要处理大量的数据,因此需要极高的内存带宽。

机器学习加速

机器学习加速

在传统计算架构中,当多个 CPU 内核同时工作时,由于数据从外部内存移动的速度不足而且最终会达到极限,因此系统会停止运行。在传统计算架构中,当多个 CPU 内核同时工作时,由于数据从外部内存移动的速度不足而且最终会达到极限,因此系统会停止运行。相比之下,Versal® HBM 系列通过灵活应变的引擎和智能引擎提供海量并行处理能力,并通过集成型 HBM 提供极高的存储器带宽。 因此,Versal HBM 系列能够为许多 AI/ML 处理(如余弦相似度和 Louvain 模块化)实现更快速度的精确数据洞察。通过一系列广泛的 Vitis™ 统一软件平台的性能优化库,基于 Versal HBM 自适应 SoC 的解决方案可以为快速发展的数据中心及云计算人工智能提供更高的 AI/ML 性能与效率。


计算预处理与缓冲

预处理数据对于从固定函数计算器件获得最佳结果至关重要。真实 ML 模型的数据集大小很容易超过太字节。因此,目标加速器需要大型数据预处理框架来高效处理这些数据集。使用灵活应变的引擎和 819 GBps 的 HBM 带宽,Versal HBM ACAP 可删除不需要的数据,转换选定的数据,并增强数据,从而可为目标加速器创建强大的预测输入。Versal HBM 系列配备高速 112G PAM4 收发器,能够以低时延最大限度提高吞吐量和系统性能。

计算预处理与缓冲

新一代防火墙

新一代防火墙

网络运营商希望实现不间断的智能管理并提供稳健的网络,以保护数据并避免对企业网络的攻击。
Versal HBM 系列可实现无与伦比的可扩展性,有助于实现从物理层和数据链路层到 VPN,再到传输层安全级别的多层网络安全性,从而可通过定制策略及控制实现数以千万计的同时会话。此外,多个 400G 集成型高速加密 (HSC) 引擎允许系统在不影响性能的情况下,保持行速率吞吐量和低时延。使用 32G HBM,新一代防火墙可以管理多个查找表,无需访问外部内存来缓冲网络流量并对其进行重新排序。112G PAM4 收发器可实现对最新可扩展光学标准和协议的支持,带来新一代防火墙所需的更高吞吐量。灵活应变的引擎有助于 ML 算法针对新兴威胁为安全架构实现现代化。


应用性能测试设备

随着数据中心、云计算和人工智能网络开始为 800G 光网连接做准备,许多数据中心网络和云计算服务提供商需要利用尖端测试设备,才能为计算密集型应用确保互操作性和稳健的网络基础架构。
Versal HBM 器件中的 112G PAM4 收发器是最重要的构建模块之一,可帮助数据中心网络及云计算服务提供商构建能够适应新兴协议和光学互操作性的网络。专用信道化多速率以太网内核提供可单独访问的 HSC、MAC、PCS 和 FEC 模块以及 32G HBM 和可编程 NoC,可为 L4-L7 测试设备的海量流量缓冲、高效数据移动、智能数据流控制、跟踪与报告实现最复杂的测试逻辑。

应用性能测试设备
产品表

Versal™ HBM 系列产品表

内存特性

VH1522 VH1542 VH1582 VH1742 VH1782
HBM DRAM (GB) 8 16 32 16 32
总体模块 RAM (Mb) 89 89 89 132 132
UltraRAM (Mb) 366 366 366 541 541
总 PL 存储 (Mb) 509 509 509 752 752

智能引擎功能

VH1522 VH1542 VH1582 VH1742 VH1782
DSP 引擎 7,392 7,392 7,392 10,848 10,848

灵活应变的引擎功能

VH1522 VH1542 VH1582 VH1742 VH1782
系统逻辑单元 (K) 3,837 3,837 3,837 5,631 5,631
LUT 数 1,753,984 1,753,984 1,753,984 2,574,208 2,574,208

标量引擎功能

VH1522 VH1542 VH1582 VH1742 VH1782
应用处理单元 双核 Arm® Cortex -A72、48KB/32KB L1 高速缓存支持奇偶校验和 ECC,1MB L2 高速缓存支持 ECC
实时处理单元 双核 Arm® Cortex -R5F、32KB/32KB L1 高速缓存以及支持 ECC 的 256KB TCM
存储器 支持 ECC 的 256KB 片上内存
连接功能 Ethernet (x2); UART (x2); CAN-FD (x2); USB 2.0 (x1); SPI (x2); I2C (x2)

平台功能

VH1522 VH1542 VH1582 VH1742 VH1782
GTYP 收发器 (32.75 Gbps) 681 681 681 681 681
GTM 收发器 (56G (112G)) 20 (10) 20 (10) 20 (10) 60 (30) 60 (30)
CCIX & PCIe® w/ DMA (CPM5) 2 x Gen5x8, CCIX 2 x Gen5x8, CCIX 2 x Gen5x8, CCIX 2 x Gen5x8, CCIX 2 x Gen5x8, CCIX
PCI Express (PLPCIE5) 8 x Gen5x4 8 x Gen5x4 8 x Gen5x4 8 x Gen5x4 8 x Gen5x4
400G 高速加密引擎 2 2 2 3 3
100G Multirate Ethernet MAC 4 4 4 6 6
600G Ethernet MAC 1 1 1 3 3
600G Interlaken 0 0 0 1 1

1. 16 GTYP 收发器仅在使用 PCI Express 时用于 CPM5。

技术文档

技术文档


Versal 设计指南和文档

AMD 提供各类文档、资源和设计方法,以协助您使用 Versal 架构进行开发。 如果您未曾使用 Versal 自适应 SoC 进行开发,您可以使用提供交互式指导的设计流程助手来制定您的开发策略。 设计流程中心按设计流程组织和显示所有 Versal 文档,以便您立即获得所需的信息。


Default Default 标题 文件类型 日期
开始设计

早期访问计划

Versal® HBM 系列目前处于早期访问阶段。请联系您当地的 AMD 销售代表申请早期访问计划或访问联系销售页面。欢迎利用以下资源进一步了解 Versal 架构的设计工具和设计方法。


面向所有开发者的集成型软硬件平台

Versal 自适应 SoC 采用固有的软件可编程芯片基础架构,其设计自始至终都是以软件为导向的。增强型 AMD Vivado™ ML 版引入全新系统设计方法和开发环境,如流量分析仪、NoC 编译器和数据流建模等。一个紧密结合的高速、统一调试环境可加速跨灵活应变的标量智能引擎的调试与跟踪。
下载 Vivado ML 版 >

AMD Vitis™ 统一软件平台提供了全面的核开发套件,以及使用硬件加速技术的库。该平台提供从云端到边缘的高效、便捷、统一的软件环境。作为开源社区中引以为傲的一员,Vitis 统一软件平台不仅免费,而且还提供一系列性能优化的广泛开源库,这些库可提供开创性加速,对于现有应用而言,代码修改很少,甚至无需修改。
下载 Vitis 统一软件平台 >

Versal AI Prime 系列

Versal 自适应 SoC 评估套件

欢迎率先体验 Versal 自适应 SoC 架构,从零开始构建,实现原生的软件可编程性。通过一系列工具、软件、库、IP、中间件和固件,自适应 SoC 可通过业界标准设计流程实现各种定制化的加速计算解决方案。Versal HBM 系列 VHK158 评估套件拥有快速启动设计所需的所有组件。

详细了解 Versal HBM 系列 VHK158 评估套件 >


培训课程

AMD 培训和学习资源提供了实用的实践技能和基础知识,可助力开发者在下一个开发项目中充分发挥生产力。

使用 Versal ACAP 进行设计:架构和方法
使用 Versal ACAP 进行设计:片上网络
使用 Versal ACAP 进行设计 - 电源和开发板设计


Versal 设计指南和文档

AMD 提供各类文档、资源和设计方法,以协助您使用 Versal 架构进行开发。 如果您未曾使用 Versal 自适应 SoC 进行开发,您可以使用提供交互式指导的设计流程助手来制定您的开发策略。 设计流程中心按设计流程组织和显示所有 Versal 文档,以便您立即获得所需的信息。

视频

重要视频


所有视频

Default Default 标题 日期