用于文本数据的内置 SageMaker 算法 - Amazon SageMaker

用于文本数据的内置 SageMaker 算法

SageMaker 提供的算法为进行文本文档分析而定制,可用于自然语言处理、文档分类或总结、主题建模或分类以及语言转录或翻译。

  • BlazingText 算法 – Word2vec 和文本分类算法的高度优化的实施,可轻松扩展到大型数据集。它对于许多下游自然语言处理 (NLP) 任务都很有用。

  • 潜在狄利克雷分配 (LDA) 算法 – 此算法适用于确定一组文档中的主题。它是一种自主算法,这意味着在训练期间不适用包含答案的示例数据。

  • 神经主题模型 (NTM) 算法 – 另一种无监督技术,它使用神经网络方法来确定一组文档中的主题。

  • Object2Vec 算法 – 一种通用神经嵌入算法,可用于推荐系统、文档分类和句子嵌入。

  • 序列到序列算法 – 此有监督算法通常用于神经网络机器翻译。

  • 文本分类 – TensorFlow –一种支持迁移学习的有监督算法,通过所提供的预训练模型进行文本分类。

算法名称 渠道名称 训练输入模式 文件类型 实例类 可并行化
BlazingText 训练 文件或管道 文本文件(每行一句,带空格分隔的令牌) GPU(仅单个实例) 或 CPU
LDA 训练和 (可选) 测试 文件或管道 recordIO-protobuf 或 CSV CPU(仅单个实例)
神经主题模型 训练和 (可选) 验证和/或测试 文件或管道 recordIO-protobuf 或 CSV GPU 或 CPU
Object2Vec 训练和 (可选) 验证和/或测试 文件 JSON 行 GPU 或 CPU(仅单个实例)
Seq2Seq 建模 训练、验证和 vocab 文件 recordIO-protobuf GPU(仅单个实例)
文本分类 – TensorFlow 训练和验证 文件 CSV CPU 或 GPU 是(仅适用于单实例上的多 GPU)