最新发布的AMD ROCm 6.2将使得新一代AI(人工智能)与HPC(高性能计算)的性能效果得以充分释放
无论您从事前沿人工智能模型的研究、新一代人工智能应用的开发,还是复杂的优化模拟,这个新版本都为您提供了大幅提升的性能、效率和可扩展性。在本博客中,我们将深入了解此版本中的五个核心功能改进。这些改进和功能增强使该版本具有变革性,从而巩固了AMD ROCm 作为人工智能和高性能计算开发平台的地位。领先地位。
1、在ROCm 6.2中扩展了vLLM支持——提升了AMD Instinct?加速器的AI推理能力AMD正在扩大对vLLM的支持,以提高AMD Instinct上AI模型的效率和可扩展性?加速器。 vLLM 专为大型语言模型(LLM) 设计,可解决关键的推理挑战,例如高效的多GPU 并行操作、减少内存使用资源以及最大限度地减少计算瓶颈。客户可以按照ROCm文档中提供的步骤启用vLLM中的各种上游功能,例如多GPU并行计算、FP8 KV缓存(推理)等,以处理开发中的相关问题。为了访问前沿功能,ROCm/vLLM 分支还提供了高级实验功能,例如:FP8 GEMMS(使用8 位浮点数据类型进行矩阵乘法)、“自定义解码分页注意力”机制。要使用这部分功能,请按照此处提供的步骤操作,并在克隆git 存储库时选择rocm/vllm 分支。或者通过专用的Docker文件获取(点击此处获取)。
随着ROCm 6.2 的发布,新的和现有的AMD Instinct?用户可以自信地将vLLM集成到他们的AI管道中,并享受最新功能带来的性能和效率提升。
2、ROCm中的Bitsandbytes量化技术支持——提升AMD Instinct?的AI训练和推理能力,增强内存效率与性能AMD ROCm 支持的Bitsandbytes 量化库为AI 开发带来了革命性的变化,显着提高了AMD Instinct? 上的内存效率和性能? GPU 加速器。使用8位优化器可以减少AI训练期间的内存使用,使开发人员能够用有限的硬件资源处理更复杂的模型。量化技术“LLM.Int8()”优化了人工智能,使得大型语言模型(LLM)可以部署在内存容量较小的系统中。低比特量化技术可以加速AI训练和推理,从而提高整体效率和生产力。
通过降低内存使用和计算需求,Bitsandbytes量化技术使更多用户体验先进的AI功能,降低使用成本,使AI开发民主化,并拓展新的创新机会。其可扩展性允许在现有硬件的限制内有效管理更大的模型,同时保持接近32 位精度版本的精度。
开发人员可以按照此链接中的说明轻松将Bitsandbytes 与ROCm 集成,以便在AMD Instinct GPU 加速器上进行高效的AI 模型训练和推理,同时降低内存和硬件要求。
3、全新的离线程序创建工具——简化ROCm的安装过程ROCm Offline Installer Creator 为无法访问互联网或本地存储库映像的系统提供了完整的解决方案,从而简化了安装过程。它创建一个包含所有必要依赖项的单个安装程序文件,并提供用户友好的图形界面,允许轻松选择ROCm 组件和版本,使部署简单明了。该工具通过将功能集成到统一的界面中,降低了管理多个安装工具的复杂性,并提高了效率和一致性。此外,它还可以自动执行安装后任务,例如用户组管理和驱动程序处理,有助于确保正确且一致的安装。
插图:使用离线安装程序创建器图形界面简化ROCm 安装体验——
ROCm 离线安装程序创建器从AMD 存储库和操作系统包管理器下载并打包所有相关文件,有助于确保正确且一致的安装过程,从而降低错误风险并提高整体系统稳定性。它非常适合无法访问互联网的系统,同时还为IT 管理员提供简化且高效的安装流程,使ROCm 在各种环境中的部署比以往更加容易。
4. 全新的Omnitrace和Omniperf性能分析工具(Beta版)——在AMD ROCm中引领AI(人工智能)与HPC(高性能计算)开发的变革新的Omnitrace 和Omniperf 性能分析工具(Beta)将通过提供全面的性能分析和简化的开发工作流程,引领ROCm 中的AI 和HPC 开发革命。
Omnitrace 提供跨CPU、GPU、网络接口控制器(NIC) 和网络结构的系统性能的整体视图,以帮助开发人员识别和解决瓶颈,而Omniperf 则提供详细的GPU 内核分析以进行微调。这些工具共同优化整体应用程序和计算核心的特定性能,支持实时性能监控,并帮助开发人员在整个开发过程中做出明智的决策和调整。
插图:Omnitrace性能分析工具
插图:Omniperf性能分析工具
通过解决性能瓶颈,它们有助于确保资源得到有效利用,最终实现快速AI 训练、推理和HPC 模拟。
5.更加广泛的FP8(数据处理方式)支持——通过使用ROCm 6.2增强AI推理能力ROCm 范围内广泛的FP8(数据处理模式)支持可以显着改善运行AI 模型的过程,尤其是在推理方面。它有助于解决内存瓶颈和与更高精度格式相关的高分辨率等关键问题。延迟问题使得能够在相同的硬件限制内处理更大的模型或批次,从而实现更高效的训练和推理过程。此外,FP8(数据处理模式)降低精度计算可以减少数据传输和计算的延迟。
ROCm 6.2在其生态系统中扩展了对FP8(数据处理方法)的支持,实现了从框架到库的各个方面的性能和效率提升。
Transformer 引擎:通过HipBLASLt 在PyTorch 和JAX 中添加了FP8 GEMM 支持,与FP16/BF16 相比,最大限度地提高了吞吐量并减少了延迟。 XLA FP8:JAX 和Flax 现在通过XLA 支持FP8 GEMM 以提高性能。 vLLM集成:进一步优化具有FP8能力的vLLM。 FP8 RCCL:RCCL 现在处理FP8 特定的收集操作,扩展了其多功能性。 MIOPEN:支持基于FP8的Fused Flash注意力机制,提高效率。统一FP8 头文件:跨库标准化FP8 头文件,以简化开发和集成过程。借助ROCm 6.2,AMD再次展现了其为AI(人工智能)和HPC(高性能计算)领域提供强大、有竞争力和创新解决方案的承诺。该版本的发布意味着开发人员拥有了突破界限所需的工具和支持,这进一步增强了ROCm 作为下一代计算任务首选开放平台的信心。与我们一起拥抱这些进步,让您的项目达到前所未有的性能和效率水平。
继续浏览有关 AMD 的文章
相关文章
- Intel承认太慢了 好好学习AMD!每周到岗4天、不
- 裁员2.1万人!英特尔第一财季营收127亿美元 净
- 倒反天罡了!AMD锐龙9 9955HX游戏本CPU又被搬回
- 4999元 群晖DS925+发布:升级AMD四核 自带双2.5
- AMD赋能AI与游戏创新——Amuse 3.0、RDNA 4以及
- AMD中国特供RX 9070 GRE可能要等到双11!RX 906
- AMD RX 9070 XT转向三星GDDR6显存:更凉快更安
- AMD FSR 4游戏已达37款!逼近DLSS 4的一半
- 《上古卷轴4:湮灭重制版》发布:同时支持NVIDI
- 120W释放逼近RTX 4070!国产锐龙AI Max+ 395迷