SageMaker AI HyperPod 训练
您可以使用 Amazon Nova 配方自定义 Amazon Nova 模型,然后在 SageMaker AI HyperPod 上进行训练。配方是指 YAML 配置文件,该文件向 SageMaker AI 提供有关如何运行模型自定义作业的详细信息。
SageMaker AI HyperPod 使用优化的 GPU 实例和 Amazon FSx for Lustre 存储提供高性能计算,通过集成 TensorBoard 等工具实现强大的监控,支持灵活的检查点管理以实现迭代改进,可无缝部署到 Amazon Bedrock 进行推理,并支持高效可扩展的多节点分布式训练。所有这些功能协同工作,为组织提供一个安全、高性能且灵活的环境,以便根据其特定业务需求定制 Amazon Nova 模型。
在 SageMaker AI HyperPod 上自定义 Amazon Nova 可将模型构件(包括模型检查点)存储在服务托管的 Amazon S3 存储桶中。服务托管的存储桶中的构件使用 Sagemaker 托管的 KMS 密钥进行加密。服务托管的 Amazon S3 存储桶目前不支持使用客户托管的密钥进行数据加密。您可以利用此检查点位置进行评估作业或 Amazon Bedrock 推理。
本节详细介绍了可以使用 SageMaker AI HyperPod 调整的 Amazon Nova 模型参数、可能需要调整参数的时机以及参数可能对模型性能带来的影响。这些参数由训练技术进行呈现。有关如何提交作业的信息,请参阅运行 SageMaker 训练作业。