调整 BlazingText 模型
自动模型优化(也称作超参数优化)通过运行很多在数据集上测试一系列超参数的作业来查找模型的最佳版本。您可以选择可优化超参数、每个超参数的值范围和一个目标指标。您可以从算法计算的指标中选择目标指标。自动模型优化将搜索所选超参数以找到导致优化目标指标的模型的值组合。
有关模型优化的更多信息,请参阅使用 SageMaker 执行自动模型调优。
BlazingText 算法计算的指标
BlazingText Word2Vec 算法(skipgram
、cbow
和 batch_skipgram
模式)在训练期间报告单个指标:train:mean_rho
。该指标是基于 WS-353 单词相似度数据集
BlazingText 文本分类算法(supervised
模式)也在训练期间报告单个指标:validation:accuracy
。在优化文本分类算法的超参数值时,请使用这些指标作为目标。
指标名称 | 描述 | 优化方向 |
---|---|---|
train:mean_rho |
WS-353 单词相似性数据集 |
最大化 |
validation:accuracy |
用户指定的验证数据集的分类准确率 |
最大化 |
可优化的 BlazingText 超参数
Word2Vec 算法的可优化超参数
使用以下超参数调整 Amazon SageMaker BlazingText Word2Vec 模型。对 Word2Vec 目标指标影响最大的超参数为:mode
、 learning_rate
、window_size
、vector_dim
和 negative_samples
。
参数名称 | 参数类型 | 建议的范围或值 |
---|---|---|
batch_size |
|
[8-32] |
epochs |
|
[5-15] |
learning_rate |
|
最小值:0.005,最大值:0.01 |
min_count |
|
[0-100] |
mode |
|
[ |
negative_samples |
|
[5-25] |
sampling_threshold |
|
最小值:0.0001,最大值:0.001 |
vector_dim |
|
[32-300] |
window_size |
|
[1-10] |
文本分类算法的可优化超参数
使用以下超参数调整 Amazon SageMaker BlazingText 文本分类模型。
参数名称 | 参数类型 | 建议的范围或值 |
---|---|---|
buckets |
|
[1000000-10000000] |
epochs |
|
[5-15] |
learning_rate |
|
最小值:0.005,最大值:0.01 |
min_count |
|
[0-100] |
vector_dim |
|
[32-300] |
word_ngrams |
|
[1-3] |