Creación de una instancia del cuaderno - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de una instancia del cuaderno

Una instancia de Amazon SageMaker Notebook es una instancia de procesamiento de aprendizaje automático que ejecuta la aplicación Jupyter Notebook. SageMaker gestiona la creación de la instancia y los recursos relacionados. Utilice los cuadernos de Jupyter en su instancia de bloc de notas para preparar y procesar datos, escribir código para entrenar modelos, implementar modelos para el SageMaker alojamiento y probar o validar sus modelos.

Para crear una instancia de bloc de notas, utilice la consola o el SageMaker CreateNotebookInstanceAPI.

El tipo de instancia de cuaderno que elija dependerá del modo en que vaya a utilizarla. Lo que quiere es asegurarse de que la instancia de cuaderno no esté vinculada por memoria, CPU o E/S. Si planea cargar un conjunto de datos en la memoria de la instancia de cuaderno para realizar tareas de exploración o preprocesamiento, le recomendamos que elija un tipo de instancia que tenga suficiente memoria RAM para el conjunto de datos. Esto requeriría una instancia con al menos 16 GB de memoria (.xlarge o superior). Si planea utilizar el cuaderno para tareas de preprocesamiento de computación intensivas, le recomendamos que elija una instancia optimizada para la computación, como c4 o c5.

Una buena práctica cuando se utiliza un SageMaker bloc de notas es utilizar la instancia del bloc de notas para organizar otros AWS servicios. Por ejemplo, puede utilizar la instancia con cuaderno para administrar el procesamiento de grandes conjuntos de datos mediante llamadas a AWS Glue en el caso de los servicios de ETL (extraer, transformar y cargar) o Amazon EMR para asignar o reducir los datos utilizando Hadoop. Puede utilizar los servicios de AWS como medios temporales de procesamiento o almacenamiento de los datos.

Puede almacenar y recuperar los datos de entrenamiento y pruebas utilizando un bucket de Amazon S3. A continuación, puede SageMaker utilizarla para entrenar y construir el modelo, de modo que el tipo de instancia del bloc de notas no influya en la velocidad del entrenamiento y las pruebas del modelo.

Tras recibir la solicitud, SageMaker hace lo siguiente:

  • Crea una interfaz de red: si elige la configuración de VPC opcional SageMaker , crea la interfaz de red en la VPC. Utiliza el ID de subred que se proporciona en la solicitud para determinar en qué zona de disponibilidad se va a crear la subred. SageMaker asocia el grupo de seguridad que proporciona en la solicitud a la subred. Para obtener más información, consulte Conexión de una instancia de cuaderno en una VPC a recursos externos.

  • Lanza una instancia de procesamiento de ML: SageMaker lanza una instancia de procesamiento de ML en una SageMaker VPC. SageMaker realiza las tareas de configuración que le permiten administrar su instancia de notebook y, si especificó su VPC, habilita el tráfico entre su VPC y la instancia de notebook.

  • Instala los paquetes y bibliotecas de Anaconda para las plataformas de aprendizaje profundo más comunes: SageMaker instala todos los paquetes de Anaconda que se incluyen en el instalador. Para obtener más información, consulte la lista de paquetes de Anaconda. Además, SageMaker instala las bibliotecas de aprendizaje profundo MXNet TensorFlow y Apache.

  • Adjunta un volumen de almacenamiento de ML: SageMaker adjunta un volumen de almacenamiento de ML a la instancia de procesamiento de ML. Puede utilizar el volumen como área de trabajo para limpiar el conjunto de datos de entrenamiento o para almacenar temporalmente datos de validación, prueba u otros. Elija cualquier tamaño entre 5 GB y 16384 GB, en incrementos de 1 GB, para el volumen. El valor predeterminado es 5 GB. Los volúmenes de almacenamiento de ML están cifrados, por lo que no SageMaker se puede determinar la cantidad de espacio libre disponible en el volumen. Por este motivo, puede aumentar el tamaño del volumen al actualizar una instancia de cuaderno, pero no puede reducir el tamaño del volumen. Si desea reducir el tamaño del volumen de almacenamiento de machine learning en uso, cree otra instancia de cuaderno con el tamaño deseado.

    Solo los archivos y los datos guardados dentro de la carpeta /home/ec2-user/SageMaker se conservan entre las sesiones de instancia de cuaderno. Los archivos y los datos que se guarden fuera de este directorio se sobrescribirán cuando la instancia de cuaderno se detenga y se reinicie. Cada directorio /tmp de instancia de cuaderno proporciona al menos 10 GB de almacenamiento en un almacén de instancias. Un almacén de instancias es un almacén temporal, de nivel de bloques, que no es persistente. Cuando la instancia se detiene o se reinicia, SageMaker elimina el contenido del directorio. Este almacenamiento temporal forma parte del volumen raíz de la instancia de cuaderno.

  • Copia los cuadernos de Jupyter de ejemplo: estos ejemplos de código de Python ilustran los ejercicios de alojamiento y entrenamiento de modelos que utilizan varios conjuntos de datos de entrenamiento y algoritmos.

Para crear una instancia de bloc de notas SageMaker :
  1. Abre la SageMaker consola en https://console.aws.amazon.com/sagemaker/.

  2. Elija Instancias de bloc de notas y, a continuación, Crear instancia de bloc de notas.

  3. En la página Crear instancia de bloc de notas, proporcione la siguiente información:

    1. Para Nombre de instancia del bloc de notas, escriba un nombre para su instancia de cuaderno.

    2. Para el Tipo de instancia de bloc de notas, elija un tamaño de instancia adecuado para su caso de uso. Para ver una lista de los tipos de instancias y las cuotas compatibles, consulta Amazon SageMaker Service Quotas.

    3. En Inferencia elástica, elija un tipo de acelerador de inferencia para asociarlo a la instancia del cuaderno si planea realizar inferencias desde la instancia del cuaderno, o elija ninguna. Para obtener más información acerca de las inferencias elásticas, consulte Utilice Amazon SageMaker Elastic Inference (EI) .

    4. En Identificador de plataforma, elija un tipo de plataforma en el que crear la instancia del cuaderno. Este tipo de plataforma determina el sistema operativo y la JupyterLab versión con la que se crea la instancia de tu notebook. Para obtener más información acerca del tipo de identificador de plataforma, consulte Instancias de cuaderno de Amazon Linux 2. Para obtener información acerca de las versiones de JupyterLab, consulte JupyterLab control de versiones.

    5. (Opcional) La configuración adicional permite a los usuarios avanzados crear un script de intérprete de comandos que se puede ejecutar al crear o iniciar la instancia. Este script, denominado script de configuración del ciclo de vida, se puede utilizar para establecer el entorno del cuaderno o para realizar otras funciones. Para obtener más información, consulte Personalización de una instancia de cuaderno con un script de configuración del ciclo de vida.

    6. (Opcional) La configuración adicional también le permite especificar el tamaño, en GB, del volumen de almacenamiento de machine learning que está conectado a la instancia de cuaderno. Puede elegir un tamaño entre 5 GB y 16 384 GB, en incrementos de 1 GB. Puede utilizar el volumen para limpiar los conjuntos de datos de entrenamiento o para almacenar temporalmente datos de validación de la tienda u otros datos con los que trabajar.

    7. (Opcional) Para obtener una versión mínima de IMDS, seleccione una versión de la lista desplegable. Si este valor se establece en v1, ambas versiones se pueden usar con la instancia de cuaderno. Si se selecciona la versión 2, solo se puede usar IMDSv2 con la instancia de cuaderno. Para obtener información acerca de IMDSv2, consulte Uso de IMDSv2.

      nota

      A partir del 31 de octubre de 2022, la versión IMDS mínima predeterminada para las instancias de SageMaker notebook cambiará de IMDSv1 a IMDSv2.

      A partir del 1 de febrero de 2023, IMDSv1 ya no estará disponible para la creación de nuevas instancias de cuaderno. Después de esta fecha, puede crear instancias de cuaderno con una versión de IMDS mínima de 2.

    8. Para el rol de IAM, elija un rol de IAM existente en su cuenta que tenga los permisos necesarios para acceder a los SageMaker recursos o elija Crear un nuevo rol. Si selecciona Crear un nuevo rol, SageMaker crea un rol de IAM denominado. AmazonSageMaker-ExecutionRole-YYYYMMDDTHHmmSS La política administrada de AWS AmazonSageMakerFullAccess se asigna al rol. El rol proporciona permisos que permiten a la instancia de notebook llamar SageMaker a Amazon S3.

    9. En Acceso raíz, para habilitar el acceso raíz para todos los usuarios de instancia con cuaderno, elija Habilitado. Para deshabilitar el acceso raíz para los usuarios, elija Deshabilitado. Si habilita el acceso raíz, todos los usuarios de instancias de cuaderno tendrán privilegios de administrador y podrán obtener acceso a todos los archivos que contiene y editarlos.

    10. (Opcional) La clave de cifrado permite cifrar los datos del volumen de almacenamiento de machine learning conectado a la instancia de cuaderno mediante una clave AWS Key Management Service (AWS KMS). Si planea almacenar información confidencial en el volumen de almacenamiento de machine learning, considere cifrar la información.

    11. (Opcional) Red le permite colocar su instancia de cuaderno dentro de una nube privada virtual (VPC). Una VPC proporciona seguridad adicional y restringe el acceso a los recursos de la VPC desde fuentes ajenas a la VPC. Para obtener más información sobre VPC, consulte la Guía del usuario de Amazon VPC.

      Para agregar la instancia de cuaderno a una VPC:

      1. Elija la VPC y un. SubnetId

      2. En Grupo de seguridad, seleccione el grupo de seguridad predeterminado de la VPC.

      3. Si necesita que su instancia de cuaderno tenga acceso a internet, habilite el acceso directo a internet. En Acceso directo a Internet, elija Habilitar. El acceso a internet puede hacer que su instancia de cuaderno sea menos segura. Para obtener más información, consulte Conexión de una instancia de cuaderno en una VPC a recursos externos.

    12. (Opcional) Para asociar repositorios Git con la instancia con cuaderno, elija un repositorio predeterminado y hasta tres repositorios adicionales. Para obtener más información, consulte Asocia repositorios de Git con instancias de SageMaker Notebook.

    13. Elija Crear instancia de bloc de notas.

      En unos minutos, Amazon SageMaker lanza una instancia de cómputo de aprendizaje automático (en este caso, una instancia de notebook) y le adjunta un volumen de almacenamiento de aprendizaje automático. La instancia de cuaderno cuenta con un servidor de cuaderno de Jupyter configurado previamente y un conjunto de bibliotecas de Anaconda. Para obtener más información, consulte la API CreateNotebookInstance.

  4. Cuando el estado de la instancia de cuaderno es InService, en la consola, la instancia de cuaderno está lista para su uso. Elija Abrir Jupyter junto al nombre del cuaderno para abrir el panel clásico de Jupyter.

    nota

    Para aumentar la seguridad de tu instancia de Amazon SageMaker Notebook, todos los notebook.region.sagemaker.aws dominios regionales se registran en la lista de sufijos públicos (PSL) de Internet. Para mayor seguridad, te recomendamos que utilices cookies con un __Host- prefijo si alguna vez necesitas configurar cookies confidenciales para los dominios de las instancias de tu notebook. SageMaker Esta práctica lo ayuda a proteger su dominio de los intentos de falsificación de solicitudes entre sitios (CSRF). Para obtener más información, consulta la página sobre cómo configurar cookies en el sitio web de documentación para desarrolladores de mozilla.org.

    Puedes elegir Abrir para abrir JupyterLab el panel de control. JupyterLab El panel proporciona acceso a su instancia con bloc de notas y a los blocs de notas de muestra de SageMaker que contienen tutoriales de código completos. Estos tutoriales muestran cómo utilizarlos para SageMaker realizar tareas comunes de aprendizaje automático. Para obtener más información, consulte Ejemplo de cuadernos. Para obtener más información, consulte Controle el acceso raíz a una instancia de notebook SageMaker .

    Para obtener más información sobre los cuadernos de Jupyter, consulte la sección sobre el cuaderno de Jupyter.