Login / Register
下一代AI存储:Micron®ssd、WEKA™、AMD EPYC™和Supermicro
对于超级计算2022,美光®数据中心工作负载工程团队, WEKA, AMD and Supermicro 携手成为第一个在WEKA AI工作负载分布式存储解决方案中测试第四代AMD EPYC平台的公司.
我们部署了一个解决方案,利用了最先进的硬件和软件,并使用了MLPerf™存储工作组的新基准来衡量其支持苛刻的人工智能工作负载的能力.
When I first posted about this work on LinkedIn, 我了解到,这个团队是第一个大规模测试MLPerf存储的团队,也是第一个在AMD热那亚处理器上测试WEKA的团队. Liran Zvibel (co-founder and CTO at WEKA) commented 他很高兴这个过程进行得如此顺利,“在一个全新的平台(新的PCIe®总线)上第一次运行通常会有一些困难”, new CPU, etc).”
WEKA version 4 扩展其软件定义的存储堆栈,以提高每个节点的可伸缩性和性能, necessary for taking advantage of next-gen systems. According to WEKA, it also:
数据平台是为NVMeTM和现代网络设计的吗.
提高带宽和IOPs的性能,减少延迟和元数据.
支持对本地或云中数据的广泛、多协议访问.
在不需要调优的情况下,对于混合工作负载和小文件是否比本地磁盘更快.
Supermicro provided six of its new AS-1115CS-TNR systems to use for WEKA cluster nodes. 这些平台采用第四代AMD EPYC cpu以及PCIe®Gen5背板. The specifics of the systems under test are:
AMD 4th Gen EPYC 9654P CPU (96-core)
12x Micron DDR5 4800MT/s RDIMMs
2x NVIDIA® Connectx®-6 200Gbe NICs
我们利用美光DDR5 DRAM的优势部署了这个解决方案, 它提供了比上一代DDR4更高的性能和吞吐量以及更快的传输速度.
我们还使用了美光7450 NVMe固态硬盘-采用美光176层CMOS在阵列(CuA)下构建。. 它结合了高性能和优质的服务, 提供卓越的应用程序性能和响应时间.
For networking, 我们使用NVIDIA ConnectX-6 200Gbe网卡,每个存储节点2个网卡,每个客户端1个网卡. 我们建议在有可用的PCIe Gen5 400Gbe NVIDIA ConnectX-7网卡时使用它,以简化网络配置和部署,并具有类似的性能.
Baseline Results
我们在12个负载生成客户机上测试了FIO性能,以测量最大系统吞吐量, 在所有客户机中,每个客户机的队列深度(QD)从1扩展到32.
对于1MB的读和1MB的写,我们分别达到了142 GB/s和103 GB/s. 考虑到WEKA使用的擦除编码4+2方案,写吞吐量是惊人的. 这得益于AMD第四代EPYC CPU的极高计算性能和美光DDR5 DRAM的性能提升.
On random workloads, we measured 6.3 million 4KB read IOPS and 1.7 million 4KB random write IOPS. 这反映了集群出色的小块随机性能, 这是由美光7450 NVMe SSD的性能和延迟以及WEKA对优于本地小块NVMe性能的关注所实现的.
AI/ML Workloads: MLPerf Storage
MLPerf存储基准测试旨在测试多个模型的人工智能训练的实际存储性能. 它使用测量的睡眠时间来模拟GPU请求数据所需的时间, process it, and then ask for the next batch of data. 这些步骤创建了一个非常突发的工作负载,其中存储将在短时间内达到最大吞吐量,然后是睡眠. 这个AI基准有一些主要优势:
- Is focused on storage impact in AI/ML
- Has realistic storage and pre-processing settings
- Requires no GPU accelerators to run
- 可以从种子数据生成每个模型的大数据集吗
We tested with the following settings:
- MLPerf Storage v0.4 (preview)
- Workload: Medical Imaging Segmentation Training
- Model: Unet3D
- Seed Data: KiTS19 set of images
- Generated Dataset size: 2TB (500GB x 4)
- Framework: PyTorch
- Simulated GPU: NVIDIA A100
这个基准测试的一个重要方面是,每个MLPerf Process代表一个运行AI训练过程的单个GPU. Scaling up MLPerf storage processes reaches a maximum throughput of 45 GB/s; however, 每个进程的性能在288个进程左右开始下降. 该数据点代表288个同时运行Unet3D医学图像分割训练过程的NVIDIA A100 gpu, or the equivalent of 36 NVIDIA DGX A100 systems!
Would you like to know more?
Be sure to check out the following resources, too: