推荐-AI工作负载的首选存储平台!

在影视行业它是“守护神”

在医疗行业它是“生命纽带”

在如今AI时代

PowerScale是AI工作负载的

首选存储平台

前段时间,戴尔科技在GTC大会上发布了一系列AI技术和产品组合,其中与AI存储相关的发布包括:

1、戴尔科技数据湖仓(Dell Data Lakehouse)现已全球上市,这是一个开放的现代数据湖,可帮助用户在混合云和多云环境中集中地发现、处理和分析数据。

2、PowerScale是全球首款通过NVIDIA DGX SuperPOD和DGX H100系统验证的以太网存储解决方案,可帮助客户实现更快、更高效的 AI 存储。

此次发布中,戴尔科技再次声明了PowerScale现在已经通过了NVIDIA DGX SuperPOD参考架构认证。在戴尔科技AI解决方案整体架构中,PowerScale存储是最重要组成部分和最重要的基础。

今天的内容,我们就从PowerScale的底层开始,来聊聊为何PowerScale是AI工作负载的首选存储平台。

首屈一指的横向扩展NAS存储

PowerScale是戴尔科技著名的横向扩展架构的NAS存储,作为连续八年成为Gartner魔力象限™的领导者,也是业界最灵活,最安全和高效的横向扩展文件存储平台之一是有原因的:

1、可扩展性:PowerScale提供强大的扩展性和灵活性,可以随数据量和性能增长的要求平滑扩展,这是优化AI数据底座的基础。

2、安全性:PowerScale OneFS操作系统具有非常全面的安全功能。

3、效率:PowerScale自动化集群操作,最大化每瓦特能耗的性能,并保持AI作业在峰值水平上平稳运行。

4、性能:PowerScale能够满足AI特殊性能要求,轻松地支持AI高并发的非结构化数据的工作负载。

如今,由于AI等下一代工作负载正带来的巨大数据引力,用户需要更快、更经济的解决方案。2024年2月,戴尔科技发布了PowerScale下一代全闪存F210和F710,旨在提供更高的性能和效率,能够支持最苛刻的AI工作负载。

较前一代全闪节点,F210和F710能够提供2.2倍的写性能,增强了模型训练和推理阶段的检查点性能。提供2倍的读性能,增强了模型训练数据加载GPU的性能。

F210和F710利用最新的PowerEdge服务器,配备全闪存NVMe SSD驱动器,提供更高的密度,更高的性能,并针对AI数据管道过程的所有阶段进行了性能优化。硬件平台技术更新包括:

●使用第四代Intel至强Sapphire Rapids CPU;

●使用DDR5,具有更高速度和带宽的最新DRAM;

●使用PCIe Gen 5 ,比前一代PCIe Gen 3的提高4倍吞吐量。

其中,对NVIDIA SuperPOD的验证正是使用了F710,非常适合已经采用以太网设计的数据中心。

下表说明了使用PowerScale全闪节点F710对于NVIDIA SuperPOD的性能验证,表中注明了为满足NVIDIA SuperPOD的各类性能指标所需F710的节点数。由于PowerScale的线性可扩展的特性,对于多个SU的算力集群,只需相应增加F710的节点数量即可。

从实际出发

看AI模型训练需要怎样的存储

下面,我们从AI模型训练的实际出发,来介绍为何PowerScale是AI时代的首选存储平台。

当前AI的部署模型大体如下图所示四种部署方式,用户需要认真评估和权衡成本和价值。90%的用户实施的是前三种部署模型。从模型增强开始是一个很好选择,大多数企业都从这个阶段开始走向微调模型。

AI工作负载与存储的交互主要在五个阶段:

1)数据准备和预处理阶段;

2)模型训练/微调阶段的数据加载;

3)模型训练/微调检查点;

4)检查点恢复;

5)推理阶段的数据加载。

人们通常比较关注数据加载和检查点/恢复时存储的性能,因为这些阶段都关系到GPU的使用效率,对训练和推理出结果的时间影响很大,但数据准备和预处理阶段的存储同样非常关键。

不同的AI模型对存储性能的要求差别很大。存储的性能必须保证GPU保持忙碌,而不同的模型所需加载数据的读带宽取决于模型所需算力和加载数据的大小。

例如,先进的基于文本的模型需要大量的GPU算力,但消耗相对较短的文本序列。因此,所需的读带宽不高。相反,3D图像分割模型,如3D Unet则需要较少的GPU算力,但消耗3D图像很大,每个可以达到100MB,训练这些类型的模型需要更大存储读带宽。

了解模型在计算与I/O强度谱中的位置对于确定存储读写性能要求非常重要。

对此,戴尔科技开发了一个PowerScale AI Sizer工具,能通过对常见类型的AI模型进行建模来简化这一过程。

训练大型AI模型也是一项重大的投资,因为它可能需要使用成百上千个GPU运行数周或数月才能取得成果。为了防止长时间训练运行过程中可能出现意外故障,模型的状态会被定期保存到持久存储中,作为可以恢复和继续的检查点。

在保存模型检查点时,训练通常会暂停。减少完成检查点的时间对于最大化GPU利用率至关重要。通常,严格的检查点时间限制被定义为训练时间的百分比。例如,2小时的检查点频率和5%的训练时间限制意味着检查点保存到持久存储必须在360秒内完成。

检查点中的数据量取决于人工智能模型的大小,一个常见的经验法则是每个模型参数14字节。例如,具有1750亿个参数的AI模型的检查点将是2.2TiB。在上述时间限制内完成这个检查点意味着需要在360秒内保存2.2TiB,相当于6.34GBps的存储写带宽。

另外需要特别指出的是,人们常说,AI本质上就是高性能计算HPC。这种观点是可以理解的。它们都使用类似的基础设施——GPU服务器集群、高性能网络和高性能分布式存储,并且工作负载高度并行化,以扩展吞吐量并减少执行时间。然而,AI工作负载表现出比大规模MPI HPC更简单的存储访问模式。

单线程顺序文件访问是常见的。较大的写任务(例如模型检查点)通常被分割成多个单线程顺序写,分别写入不同的文件。这样就避免了具有挑战性的MPI HPC存储访问模式,如同时读取和写入单个文件和多个写入到单个文件。

由于这些原因,大多数AI用例不需要并行文件系统进行存储。横向扩展文件系统(如PowerScale)可以完全满足AI的存储性能需求,同时还能提供先进的、经过验证的可用性、数据保护、安全性和多租户等功能。

总体上说,AI 工作负载的数据大小差异很大,存在大量小文件。I/O 模式读多写少,顺序读写为主,随机混合读写的要求也普遍存在。需要高吞吐和低延迟,要求存储能够对复杂I/O提供的高性能,保证 GPU处于持续繁忙。

下面是PowerScale在AI应用中的几点观察:

●对于基于文本的模型训练或推理PowerScale没有明显的瓶颈。

●检查点恢复是非常繁重的读工作负载,但检查点恢复继续训练只执行一次。

●一般来说,没有证据表明存在颇具挑战的I/O模式,即没有同时对单个文件进行写操作,没有对同一个文件进行读-修改-写的操作,没有随机写操作,主要是顺序访问整个文件。

●在最坏的情况下,图像、视频或多模态模型训练和推理会需要大量读写带宽,此时需要NFSoRDMA和GPUDirect。

●保存大型模型检查点是一个需要重视的问题,这是由于长时间运行会累积大量数据,且必须在限定时间内完成大量的写入操作。现在出现了缓存解决方案以缓解检查点保存的写压力。

●对于同时运行数据准备、训练和推理工作负载的大型环境来说,存储性能可能是一个问题,需要进行更多的调查以了解总体需求,从而进行合理规划。

为何PowerScale是

AI模型训练的首选平台?

 #01 

三层架构

客户端存取层提供对非结构化数据的快速灵活的网络文件访问,以支持各种工作负载和客户端。

●高速以太网连接,多协议客户端访问,整合和标准化文件共享访问;

●高速以太网上的NVIDIA GPUDirect Storage支持,通过NFSoRDMA实现的RDMA,支持AI用例;

●基于IP端口、CPU利用率、网络带宽的智能负载均衡策略,优化客户端访问;

●多租户控制,维持高等级安全和服务。

OneFS 文件展示层为分布式环境下的数据访问提供单一的命名空间和通用的统一文件系统。

●具有单一文件系统、单一名称空间,可以访问分布式环境中多个节点的数据;

●具有统一的文件系统、卷管理器、数据保护软件层,便于管理分布式系统;

●通过any-to-any的故障转移,多级冗余,非中断操作等技术实现高可用性,没有单点故障;

●分层存储,SmartPools可自动跨多个存储层放置文件,以优化成本。

PowerScale 计算和存储集群层提供跨节点的高扩展性和高可用性文件集群。

●灵活的节点和介质选项,可根据宽泛的性能和容量需求优化集群;

●从小规模开始,以满足模型用例 (训练、调优、推理)的容量和性能需求;

●轻松地横向扩展并自动均衡3个节点(<50TB)到252个节点(186PB),而无需额外的管理工作;

●非破坏性业务不中断的升级,迁移,节点添加和技术更新。

 #02 

PowerScale的扩展性

专为AI优化

用于AI Pod部署的经济的入门级集群,小规模起步,提供较小的容量和性能,以启动AI项目。

加快部署基础设施的能力,建立一个 AI基础设施,获得快速、可重复、可验证的结果。缩短实施时间,避免过度规划基础设施,支持未知的性能和容量需求的训练和微调模型。

模块化节点扩展与线性PB级集群增长, 同时运行数据准备、训练和推理工作负载的聚合AI环境。标准化具有操作一致性、企业级安全性和数据治理的AI基础设施。简化和整合管理,如减少支持具有100个节点的大型多PB级集群所需的管理开销。消除数据孤岛和可大规模运行多个人工智能应用程序的公共数据集。

可扩展的GPU带宽和性能,多GPU服务器的线性扩展的数据传输速度,增加并行计算和加速器处理。优化数据带宽要求,使GPU并行化,以支持处理器密集型应用,如高分辨率游戏和纹理重渲染。

 #03 

高级Cache预读

优化预读数据到集群缓存,从而显著提高文件传输性能,支持具有高顺序工作负载的训练和推理模型。集群缓存跨节点聚合,提供一个共享的、全局可访问的系统级缓存内存池。缓存命中允许在毫秒内从缓存中处理数据传输,大大提高了所有模型的性能。

 #04 

GPUDirect存储

▶GPUDirect 存储创建一个直接的从GPU内存到存储的数据路径,绕过CPU,直接从GPU内存访问数据,提供更高的带宽。

▶NFS Over RDMA支持零复制网络,将存储的数据直接传输到客户端,从而消除了在应用程序内存和操作系统中的数据缓冲区之间复制数据。

▶All Flash Direct Data Access:更高的吞吐量和带宽,优化单连接和读密集型工作负载的性能,同时降低集群和客户端CPU使用率。

 #05 

客户端驱动

●允许NFS客户端通过单个NFS挂载点将I/O定向到多个PowerScale节点,从而提高单客户端吞吐量,这是使用标准IP交换机的NFS over RDMA的一种经济有效的替代方案;

●第一个在NVIDIA DGX SuperPOD上验证的以太网存储解决方案中提供了高速单客户端访问。

 #06 

智能QoS实现跨资源的

可预测性能

●提高集群范围的性能,防止大型/失控模型消耗存储带宽并无意中挤压较小的模型的数据带宽;

●限制不同模型的CPU和网络资源的使用,提供可预测的性能服务水平和多租户;

●提供相关模型的CPU、缓存和磁盘统计信息,以及集群、导出、共享和IP地址等信息;

●为不同的模型的特定需要设置过滤等项目。

 #07 

PowerScale灵活性

自动刷新和退役

●将新一代PowerScale节点添加到现有的PowerScale集群中,只需将该节点连接到网络并通电即可,集群将自动识别新节点,并在几秒钟内将其集成到现有的PowerScale系统中;

●在节点添加和删除过程中,数据访问将不中断;

●集群将使用策略驱动的作业将数据移动到新节点,从而优化性能和容量利用率;

●数据从旧节点迁移到新节点,对客户端是无缝、透明的,不会对应用程序和用户造成影响;

●AI训练和微调有数据量长期增长的趋势,PowerScale的这个特性对于保持业务不中断,保持GPU持续繁忙很重要。

结 语

当前,AI正在成为整个经济社会发展变革的基础性力量。戴尔科技正在与专业合作伙伴密切合作,不仅为企业用户提供端到端经验证的完整的基础架构,而且精心地打造各个组件,提供经验证的算力、数据和算法的管理和工具的生态环境。最大程度上让用户从繁杂的系统集成工作中解脱出来,从而可以专注于发展AI的应用和业务。