LDA 超参数 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

LDA 超参数

CreateTrainingJob 请求中,您可以指定训练算法。您也可以将特定于算法的超参数指定为地图。 string-to-string 下表列出了 Amazon 提供的 LDA 训练算法的超参数。 SageMaker有关更多信息,请参阅 LDA 工作原理

参数名称 描述
num_topics

要在数据中查找的 LDA 的主题数。

必填

有效值:正整数

feature_dim

输入文档语料库的词汇表的大小。

必填

有效值:正整数

mini_batch_size

输入文档语料库中的文档的总数。

必填

有效值:正整数

alpha0

浓度参数的初始猜测:狄利克雷先验元素之和。小的值更有可能产生稀疏的主题混合,大的值 (大于 1.0) 会产生更均匀的混合。

可选

有效值:正浮点数

默认值:1.0

max_restarts

在算法的交替最小二乘 (ALS) 谱分解阶段执行的重启次数。可用于通过额外计算来寻找更好的质量局部最小值,但通常不应进行调整。

可选

有效值:正整数

默认值:10

max_iterations

在算法的 ALS 阶段执行的迭代的最大次数。可用于通过额外计算来寻找更好的质量最小值,但通常不应进行调整。

可选

有效值:正整数

默认值:1000

tol

算法的 ALS 阶段的目标容错。可用于通过额外计算来寻找更好的质量最小值,但通常不应进行调整。

可选

有效值:正浮点数

默认值:1e-8