Exemple de flux de travail RL utilisant Amazon SageMaker AI RL

L'exemple suivant décrit les étapes de développement de modèles RL à l'aide d'Amazon SageMaker AI RL.

Formuler le problème d'apprentissage par renforcement—Tout d'abord, formulez le problème métier dans un problème d'apprentissage par renforcement. Par exemple, la scalabilité automatique permet aux services d'augmenter ou de réduire la capacité de manière dynamique selon les conditions que vous définissez. Actuellement, cela exige la configuration des alarmes, la mise à l'échelle des stratégies et des seuils, ainsi que d'autres étapes manuelles. Pour résoudre cela avec l'apprentissage à renforcement, nous définissons les composantes du processus de décision markovien :
1. Objectif—Mettre à l'échelle la capacité d'instance afin qu'elle corresponde au profil de charge souhaité.
2. Environnement—Un environnement personnalisé qui inclut le profil de chargement. Il génère un charge simulée avec des variations quotidiennes et hebdomadaires ainsi que des pics occasionnels. Le système simulé souffre d'un décalage entre les demandes de nouvelles ressources et leur disponibilité pour servir les demandes.
3. État—La charge actuelle, le nombre de tâches en échec et le nombre de machines actives.
4. Action—Supprimer, ajouter ou conserver le même nombre d'instances.
5. Récompense—Une récompense positive pour des transactions réussie et une pénalité élevée pour des transactions en échec au-delà d'un seuil spécifié.
Définir l'environnement d'apprentissage par renforcement—L'environnement d'apprentissage par renforcement peut être l'environnement concret dans lequel l'agent d'apprentissage par renforcement interagit ou une simulation concrète. Vous pouvez connecter des environnements open source et personnalisés développés grâce à des interfaces Gym, ainsi que des environnements de simulation commerciaux tels que MATLAB et Simulink.
Définir les préréglages—Les préréglages configurent les tâches d'entraînement d'apprentissage par renforcement et définissent les hyperparamètres pour les algorithmes d'apprentissage par renforcement.
Rédigez le code d'entraînement : écrivez le code d'entraînement sous forme de script Python et transmettez-le à une tâche de formation à l' SageMaker IA. Dans votre code d'entraînement, importez les fichiers d'environnement ainsi que les fichiers de préréglage, puis définissez la fonctionnalité main().
Entraînez le modèle RL : utilisez l' SageMaker IA RLEstimator du SDK Amazon SageMaker Python pour démarrer une tâche de formation RL. Si vous utilisez un mode local, la tâche d'entraînement s'exécute sur l'instance de bloc-notes. Lorsque vous utilisez l' SageMaker IA pour l'entraînement, vous pouvez sélectionner des instances de GPU ou de CPU. Stockez le résultat du travail de formation dans un répertoire local si vous vous entraînez en mode local, ou sur Amazon S3 si vous utilisez la formation par SageMaker IA.

Le RLEstimator exige les informations suivantes comme paramètres.
1. Le répertoire source dans lequel l'environnement, les préréglages et le code d'entraînement sont chargés.
2. Le chemin d'accès au script d'entraînement.
3. La boîte à outils d'apprentissage à renforcement et l'infrastructure de deep learning que vous souhaitez utiliser. Cela se résout automatiquement en chemin d'accès Amazon ECR du conteneur d'apprentissage par renforcement.
4. Les paramètres d'entraînement, tels que le nombre d'instances, le nom de la tâche et le chemin d'accès S3 pour la sortie.
5. Les définitions de métriques que vous souhaitez capturer dans vos journaux. Ils peuvent également être visualisés dans CloudWatch et dans les ordinateurs portables dotés d' SageMaker intelligence artificielle.
Visualisez les indicateurs de formation et les résultats : une fois qu'une tâche de formation utilisant un modèle RL est terminée, vous pouvez consulter les mesures que vous avez définies dans les tâches de formation dans CloudWatch,. Vous pouvez également tracer les métriques dans un bloc-notes à l'aide de la bibliothèque d'analyse du SDK Amazon SageMaker Python. La visualisation des métriques vous aide à comprendre comment les performances du modèle, telles que mesurées par la récompense, s'améliorent au fil du temps.

Note
Si vous entraînez en mode local, vous ne pouvez pas visualiser les métriques dans CloudWatch.
Évaluer le modèle—Les données contrôlées depuis des modèles précédemment entraînés peuvent être transmises pour évaluation et inférence dans le canal de vérification. En mode local, utilisez le répertoire local. En mode d'entraînement à l' SageMaker IA, vous devez d'abord télécharger les données sur S3.
Déployer des modèles RL —Enfin, déployez le modèle entraîné sur un point de terminaison hébergé sur des conteneurs SageMaker AI ou sur un appareil périphérique en utilisant AWS IoT Greengrass.

Pour plus d'informations sur RL avec SageMaker AI, consultez Utilisation de RL avec le SDK SageMaker Python.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utilisation de l'apprentissage par renforcement

Environnements RL dans Amazon SageMaker AI

Exemple de flux de travail RL utilisant Amazon SageMaker AI RL

Note