Hyperparamètres k-NN - Amazon SageMaker

Hyperparamètres k-NN

Nom du paramètre Description
feature_dim

Nombre de caractéristiques des données d'entrée.

Obligatoire

Valeurs valides : nombre entier positif.

k

Le nombre de plus proches voisins.

Obligatoire

Valeurs valides : nombre entier positif

predictor_type

Type d'inférence à utiliser sur les étiquettes de données.

Obligatoire

Valeurs valides : classifier (classificateur) pour la classification ou regressor (régresseur) pour la régression.

sample_size

Nombre de points de données à échantillonner à partir du jeu de données de l'apprentissage.

Obligatoire

Valeurs valides : nombre entier positif

dimension_reduction_target

Dimension cible de la réduction.

Obligatoire lorsque vous spécifiez le paramètre dimension_reduction_type.

Valeurs valides : nombre entier positif supérieur à 0 et inférieur à feature_dim.

dimension_reduction_type

Type de la méthode de réduction de dimension.

Facultatif

Valeurs valides : sign pour la projection aléatoire ou fjlt pour FJLT (Fast Lindenstrauss-Johnson Transform).

Valeur par défaut : Pas de réduction de dimension

faiss_index_ivf_nlists

Nombre de centroïdes à construire dans l'index quand index_type a la valeur faiss.IVFFlat ou faiss.IVFPQ.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : auto, qui se résout en sqrt(sample_size).

faiss_index_pq_m

Nombre de sous-composants de vecteurs à construire dans l'index lorsque index_type a la valeur faiss.IVFPQ.

La bibliothèque FAISS (FaceBook AI Similarity Search) requiert que la valeur de faiss_index_pq_m soit un diviseur de la dimension de données. Si faiss_index_pq_m n'est pas un diviseur de la dimension de données, nous augmentons la dimension de données au plus petit nombre entier divisible par faiss_index_pq_m. Si aucune réduction de dimension ne s'applique, l'algorithme complète à l'aide de zéros. Si la réduction de dimension s'applique, l'algorithme augmente la valeur de l'hyperparamètre dimension_reduction_target.

Facultatif

Valeurs valides : l'un des nombres entiers positifs suivants : 1, 2, 3, 4, 8, 12, 16, 20, 24, 28, 32, 40, 48, 56, 64, 96

index_metric

Métrique permettant de mesurer la distance entre les points lors de la recherche des plus proches voisins. Lorsque l'entraînement a lieu avec index_type défini sur faiss.IVFPQ, la distance INNER_PRODUCT et la similarité COSINE ne sont pas prises en charge.

Facultatif

Valeurs valides : L2 pour la distance euclidienne, INNER_PRODUCT pour la distance produit interne et COSINE pour la similarité de cosinus.

Valeur par défaut : L2

index_type

Type d'index.

Facultatif

Valeurs valides : faiss.Flat, faiss.IVFFlat, faiss.IVFPQ.

Valeurs par défaut : faiss.Flat

mini_batch_size

Nombre d'observations par mini-lot pour l'itérateur de données.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 5000