Técnicas de optimización Implemente un modelo preoptimizado Cree un trabajo de optimización Vea los resultados del trabajo de optimización Evalúe el rendimiento Referencia de modelos compatibles

Optimice la inferencia de modelos con Amazon SageMaker

Con Amazon SageMaker, puede mejorar el rendimiento de sus modelos de IA generativa mediante la aplicación de técnicas de optimización de inferencias. Al optimizar sus modelos, puede lograr una mejor relación costo-rendimiento para su caso de uso. Al optimizar un modelo, se elige qué técnicas de optimización compatibles se van a aplicar, incluidas la cuantificación, la decodificación especulativa y la compilación. Una vez optimizado el modelo, puede realizar una evaluación para ver las métricas de rendimiento en cuanto a latencia, rendimiento y precio.

Para muchos modelos, SageMaker también ofrece varias versiones preoptimizadas, cada una de las cuales se adapta a las diferentes necesidades de latencia y rendimiento de las aplicaciones. Para estos modelos, puede implementar una de las versiones optimizadas sin tener que optimizar primero el modelo usted mismo.

Técnicas de optimización

Amazon SageMaker admite las siguientes técnicas de optimización.

Decodificación especulativa

La decodificación especulativa es una técnica para acelerar el proceso de decodificación de grandes LLM. Optimiza la latencia de los modelos sin comprometer la calidad del texto generado.

Esta técnica utiliza un modelo más pequeño pero más rápido denominado modelo borrador. El borrador del modelo genera fichas candidatas, que luego son validadas por el modelo objetivo, más grande pero más lento. En cada iteración, el borrador del modelo genera varios tokens candidatos. El modelo objetivo verifica los tokens y, si descubre que un token en particular no es aceptable, lo rechaza y lo regenera. Por lo tanto, el modelo objetivo verifica los tokens y genera una pequeña cantidad de ellos.

El modelo preliminar es significativamente más rápido que el modelo objetivo. Genera todos los tokens rápidamente y, a continuación, envía lotes de ellos al modelo objetivo para su verificación. El modelo objetivo los evalúa todos en paralelo, lo que acelera la respuesta final.

SageMaker ofrece un borrador de modelo prediseñado que puede utilizar, de modo que no tendrá que crear el suyo propio. Si prefiere utilizar su propio modelo de borrador personalizado, SageMaker también admite esta opción.

Cuantificación

La cuantificación es una técnica para reducir los requisitos de hardware de un modelo mediante el uso de un tipo de datos menos preciso para los pesos y las activaciones. Después de optimizar un modelo con la cuantificación, puede alojarlo en GPU menos costosas y más disponibles. Sin embargo, es posible que el modelo cuantificado sea menos preciso que el modelo de origen que optimizaste.

SageMaker admite la cuantificación de peso basada en la activación (AWQ) para las GPU. La AWQ es una técnica de cuantificación para LLM que es eficiente, precisa, con pocos bits y solo pesa.

Compilación

La compilación optimiza el modelo para obtener el mejor rendimiento disponible en el tipo de hardware elegido sin pérdida de precisión. Puede aplicar la compilación de modelos para optimizar los LLM para hardware acelerado, como AWS Trainium o Inferentia. AWS

Cuando optimiza un modelo mediante la compilación, se beneficia de la compilación. ahead-of-time Reduces el tiempo de implementación del modelo y la latencia de autoescalado porque los pesos del modelo no requieren just-in-time compilación cuando el modelo se implementa en una nueva instancia.

Implemente un modelo preoptimizado

Algunos modelos vienen preoptimizados SageMaker, lo que significa que puede implementar versiones optimizadas de estos modelos sin necesidad de crear primero un trabajo de optimización de inferencias. JumpStart Para ver la lista de modelos con opciones preoptimizadas, consulte. Referencia de modelos compatibles

Para implementar un modelo preoptimizado

En SageMaker Studio, en el menú de navegación de la izquierda, elija JumpStart.
En la página Todos los modelos públicos, elija uno de los modelos preoptimizados.
En la página de detalles del modelo, elija Implementar.
En la página de implementación, algunos JumpStart modelos requieren que firme un acuerdo de licencia de usuario final (EULA) antes de poder continuar. Si se solicita, consulta los términos de la licencia en la sección del acuerdo de licencia. Si los términos son aceptables para su caso de uso, seleccione la casilla de verificación correspondiente a Acepto el EULA y lea los términos y condiciones.

Para obtener más información, consulte Contratos de licencia para usuarios finales.
Para el nombre del punto final y el recuento inicial de instancias, acepte los valores predeterminados o defina valores personalizados.
Para el tipo de instancia, mantenga el valor predeterminado. De lo contrario, no podrá implementar una configuración previamente optimizada.
En Modelos, amplíe la configuración del modelo. Studio muestra una tabla con las configuraciones preoptimizadas entre las que puede elegir. Cada opción tiene métricas de latencia y rendimiento. Elija la opción que mejor se adapte a las necesidades de su aplicación.
Elija Implementar.

Los ejemplos de código que aparecen a continuación muestran cómo implementar un modelo preoptimizado con el SDK de Amazon SageMaker Python.

Defina un modelo SageMaker mediante la ModelBuilder clase:


# sample payload
response = "Hello, I'm a language model, and I'm here to help you with your English."
sample_input = {
    "inputs": "Hello, I'm a language model,",
    "parameters": {"max_new_tokens":128, "do_sample":True}
}
sample_output = [
    {
        "generated_text": response
    }
]
# specify the Model ID for JumpStart
model_builder = ModelBuilder(
    model="meta-textgeneration-llama-3-8b",
    schema_builder=SchemaBuilder(sample_input, sample_output),
    sagemaker_session=sagemaker_session,
    role_arn=my_role,
)

Enumere las configuraciones previamente evaluadas para el modelo:


model_builder.display_benchmark_metrics()
# displays pre-benchmarking results

Establezca una configuración de despliegue utilizando los config_name valores preferidos instance_type y devueltos por la display_benchmark_metrics() llamada:


model_builder.set_deployment_config()
# set pre-optimized config 
bulder.set_deployment_config(
  instance_type="ml.g5.12xlarge",
  config_name="lmi-optimized"
)

Llame .build() para crear el modelo y llame .deploy para implementarlo en un punto final. A continuación, pruebe las predicciones del modelo:


# build the deployable model
model = model_builder.build()

# deploy the model to a SageMaker endpoint
predictor = model.deploy(accept_eula=True)

# use sample input payload to test the deployed endpoint
predictor.predict(sample_input)

Cree un trabajo de optimización de inferencias

Puede crear un trabajo de optimización de inferencias mediante Studio o el SDK de SageMaker Python.

Precios de instancias para trabajos de optimización de inferencias

Cuando creas un trabajo de optimización de inferencias que aplica la cuantificación o la compilación, SageMaker eliges el tipo de instancia que quieres usar para ejecutar el trabajo. Se le cobrará en función de la instancia utilizada.

Para ver los posibles tipos de instancias y los detalles de sus precios, consulta la información sobre precios de optimización por inferencia en la página de SageMaker precios de Amazon.

Los trabajos que utilizan la decodificación especulativa no incurren en costes adicionales.

Complete los siguientes pasos para crear un trabajo de optimización de inferencias en Studio.

Para empezar a crear un trabajo de optimización

En SageMaker Studio, cree un trabajo de optimización mediante una de las siguientes rutas:
- Para crear un trabajo para un JumpStart modelo, haga lo siguiente:
  1. En el menú de navegación, elija JumpStart.
  2. En la página Todos los modelos públicos, elija un proveedor de modelos y, a continuación, elija uno de los modelos que admitan la optimización.
  3. En la página de detalles del modelo, elija Optimizar. Este botón solo está activado para los modelos que admiten la optimización.
  4. En la página Crear un trabajo de optimización de inferencias, algunos JumpStart modelos requieren que firme un acuerdo de licencia de usuario final (EULA) antes de poder continuar. Si se le solicita, consulte los términos de la licencia en la sección del acuerdo de licencia. Si los términos son aceptables para su caso de uso, seleccione la casilla de verificación correspondiente a Acepto el EULA y lea los términos y condiciones.
- Para crear un trabajo para un JumpStart modelo ajustado, haga lo siguiente:
  1. En el menú de navegación, en Trabajos, elija Formación.
  2. En la página Trabajos de formación, elija el nombre del trabajo que utilizó para afinar un JumpStart modelo. Estos trabajos tienen el tipo JumpStart Formación en la columna Tipo de trabajo.
  3. En la página de detalles del trabajo de formación, elija Optimizar.
- Para crear un trabajo para un modelo personalizado, haga lo siguiente:
  1. En el menú de navegación, en Trabajos, elija Optimización de inferencias.
  2. Elija Crear nuevo trabajo.
  3. En la página Crear trabajo de optimización de inferencias, elija Agregar modelo.
  4. En la ventana Añadir modelo, elija Modelo personalizado.
  5. En Nombre de modelo personalizado, introduzca un nombre.
  6. Para el URI de S3, introduzca el URI de la ubicación en Amazon S3 en la que ha almacenado los artefactos del modelo.
En la página Crear trabajo de optimización de inferencias, en Nombre del trabajo, puede aceptar el nombre predeterminado que se SageMaker asigna. O bien, para introducir un nombre de trabajo personalizado, seleccione el campo Nombre del trabajo y elija Introducir nombre del trabajo.

Para establecer las configuraciones de optimización

En Tipo de instancia de implementación, elija el tipo de instancia para el que desee optimizar el modelo.

El tipo de instancia afecta a las técnicas de optimización que puede elegir. Para la mayoría de los tipos que utilizan hardware de GPU, las técnicas admitidas son la cuantificación y la decodificación especulativa. Si eliges una instancia que usa silicio personalizado, como la instancia de AWS Inferentia ml.inf2.8xlarge, la técnica admitida es la compilación, que puedes usar para compilar el modelo para ese tipo de hardware específico.
Seleccione una o varias de las técnicas de optimización que proporciona Studio:
- Si selecciona Cuantificación, elija un tipo de datos para el tipo de datos de precisión.
- Si selecciona Decodificación especulativa, elija SageMaker el modelo de borrador si desea utilizar el modelo de borrador que se SageMaker proporciona. O bien, si desea usar su propio modelo de borrador, elija Usar su propio modelo de borrador y proporcione el URI de S3 en el que se encuentra.
- Si eliges una instancia que utilice silicio personalizado, es posible que Studio muestre que la compilación es la única opción compatible. En ese caso, Studio selecciona esta opción por ti.
En Output, introduzca el URI de una ubicación en Amazon S3. Allí, SageMaker almacena los artefactos del modelo optimizado que crea su trabajo.
(Opcional) Amplíe las opciones avanzadas para obtener un control más detallado de la configuración, como la función de IAM, la VPC y las variables de entorno. Para obtener más información, consulte las opciones avanzadas que aparecen a continuación.
Cuando haya terminado de configurar el trabajo, elija Crear trabajo.

Studio muestra la página de detalles del trabajo, que muestra el estado del trabajo y todos sus ajustes.

Opciones avanzadas

Puede configurar las siguientes opciones avanzadas al crear un trabajo de optimización de inferencias.

En Configuraciones, puede configurar las siguientes opciones:

Grado de tensor paralelo

Un valor para el grado de paralelismo tensorial. El paralelismo de tensores es un tipo de paralelismo de modelos en el que las ponderaciones, gradientes y estados del optimizador específicos del modelo se dividen entre los dispositivos. El valor debe dividir en partes iguales el número de GPU del clúster.

Longitud máxima del token

El límite de la cantidad de fichas que generará el modelo. Tenga en cuenta que es posible que el modelo no siempre genere la cantidad máxima de fichas.

Simultaneidad

La capacidad de ejecutar varias instancias de un modelo en el mismo hardware subyacente. Utilice la simultaneidad para ofrecer predicciones a varios usuarios y maximizar la utilización del hardware.

Tamaño de lote

Si el modelo realiza inferencias por lotes, utilice esta opción para controlar el tamaño de los lotes que procesa el modelo.

La inferencia por lotes genera predicciones de modelos a partir de un lote de observaciones. Es una buena opción para conjuntos de datos grandes o si no necesita una respuesta inmediata a una solicitud de inferencia.

En Seguridad, puede configurar las siguientes opciones:

Rol de IAM

Un rol de IAM que le SageMaker permite realizar tareas en su nombre. Durante la optimización del modelo, SageMaker necesita su permiso para:

Lea los datos de entrada de un depósito de S3
Escriba los artefactos del modelo en un bucket de S3
Escribir registros en Amazon CloudWatch Logs
Publica métricas en Amazon CloudWatch

Usted concede permisos para todas estas tareas a un rol de IAM.

Para obtener más información, consulte Cómo utilizar las funciones SageMaker de ejecución.

Clave KMS de cifrado

Una clave en AWS Key Management Service (AWS KMS). SageMaker utiliza la clave para cifrar los artefactos del modelo optimizado cuando SageMaker carga el modelo en Amazon S3.

VPC

SageMaker utiliza esta información para crear interfaces de red y conectarlas a los contenedores de sus modelos. Las interfaces de red proporcionan a sus contenedores de modelos una conexión de red en su VPC que no está conectada a Internet. También permiten al modelo conectarse a recursos en su VPC privada.

Para obtener más información, consulte Ofrezca a los endpoints SageMaker alojados acceso a los recursos de su Amazon VPC.

Habilite el aislamiento de la red

Active esta opción si quiere restringir el acceso a Internet de su contenedor. Los contenedores que funcionan con aislamiento de red no pueden realizar llamadas de red salientes.

En Definición avanzada de contenedores, puedes configurar las siguientes opciones:

Condición de parada

Especifica un límite de tiempo de ejecución de un trabajo. Cuando el trabajo alcanza el límite de tiempo, SageMaker finaliza el trabajo. Use esta opción para limitar los costos.

Etiquetas

Pares clave-valor asociados al trabajo de optimización.

Para obtener más información sobre las etiquetas, consulte Etiquetar AWS los recursos en el. Referencia general de AWS

Variables de entorno

Pares clave-valor que definen las variables de entorno que se van a establecer en el contenedor del modelo.

Los ejemplos de código que aparecen a continuación muestran cómo optimizar la inferencia de modelos con el SDK de Amazon SageMaker Python.

ejemplo código para definir un SageMaker modelo con `ModelBuilder`


# sample payload
response = "Hello, I'm a language model, and I'm here to help you with your English."
sample_input = {
    "inputs": "Hello, I'm a language model,",
    "parameters": {"max_new_tokens":128, "do_sample":True}
}
sample_output = [
    {
        "generated_text": response
    }
]
# specify the Model ID for JumpStart
model_builder = ModelBuilder(
    model="meta-textgeneration-llama-3-8b",
    schema_builder=SchemaBuilder(sample_input, sample_output),
    sagemaker_session=sagemaker_session,
    role_arn=my_role,
)

ejemplo código para optimizar con la cuantificación


optimized_model = model_builder.optimize(
    instance_type="ml.g5.12xlarge",
    accept_eula=True,
    quantization_config={
        "OverrideEnvironment": {
            "OPTION_QUANTIZE": "awq"
        }
    },
    output_path=f"s3://{output_bucket_name}/quantized/"
)

# deploy the optimized model to a SageMaker endpoint
predictor = optimized_model.deploy(accept_eula=True)

# use sample input payload to test the deployed endpoint
predictor.predict(sample_input)

ejemplo código para optimizar con decodificación especulativa


optimized_model = model_builder.optimize(
    instance_type="ml.g5.12xlarge",
    accept_eula=True,
    speculative_decoding_config={
        # Use SageMaker provided draft model
        "ModelProvider": "SAGEMAKER",
    },
)

# deploy the optimized model to a SageMaker endpoint
predictor = optimized_model.deploy(accept_eula=True)

# use sample input payload to test the deployed endpoint
predictor.predict(sample_input)

ejemplo código para optimizar con compilación


optimized_model = model_builder.optimize(
    accept_eula=True,
    instance_type="ml.inf2.48xlarge",
    # config options for Inferentia2 instances
    compilation_config={
        "OverrideEnvironment": {
            "OPTION_TENSOR_PARALLEL_DEGREE": "2",
            "OPTION_N_POSITIONS": "2048",
            "OPTION_DTYPE": "fp16",
            "OPTION_ROLLING_BATCH": "auto",
            "OPTION_MAX_ROLLING_BATCH_SIZE": "4",
            "OPTION_NEURON_OPTIMIZE_LEVEL": "2"
        }
    },
    output_path=f"s3://<Enter your bucket name here>",
)

# deploy the compiled model to a SageMaker endpoint
predictor = compiled_model.deploy(accept_eula=True)

# use sample input payload to test the deployed endpoint
predictor.predict(sample_input)

Vea los resultados del trabajo de optimización

Después de crear uno o más trabajos de optimización, puede usar Studio para ver una tabla de resumen de todos sus trabajos y ver los detalles de cada trabajo individual.

Para ver la tabla de resumen de los trabajos de optimización

En el menú de navegación de Studio, en Trabajos, elija Optimización de inferencias.

La página de optimización de inferencias muestra una tabla con los trabajos que ha creado. Para cada trabajo, muestra las configuraciones de optimización que ha aplicado y el estado del trabajo.

Para ver los detalles de un trabajo

En la página de optimización de inferencias, en la tabla de resumen, elija el nombre del trabajo.

Studio muestra la página de detalles del trabajo, que muestra el estado del trabajo y todos los ajustes que aplicó al crear el trabajo. Si el trabajo se completó correctamente, SageMaker almacenó los artefactos del modelo optimizado en la ubicación de Amazon S3 en el URI del modelo S3 optimizado.

Evalúe el rendimiento de los modelos optimizados

Tras utilizar un trabajo de optimización para crear un modelo optimizado, puede realizar una evaluación del rendimiento del modelo. Esta evaluación proporciona métricas de latencia, rendimiento y precio. Utilice estas métricas para determinar si el modelo optimizado cumple con las necesidades de su caso de uso o si requiere una mayor optimización.

Solo puede realizar evaluaciones de rendimiento con Studio. Esta función no se proporciona a través de la SageMaker API de Amazon ni del SDK de Python.

Antes de empezar

Antes de poder crear una evaluación del rendimiento, primero debe optimizar un modelo mediante la creación de un trabajo de optimización de inferencias. En Studio, solo puede evaluar los modelos que cree con estos trabajos.

Cree la evaluación del rendimiento

Complete los siguientes pasos en Studio para crear una evaluación del rendimiento de un modelo optimizado.

En el menú de navegación de Studio, en Trabajos, selecciona Optimización de inferencias.
Elija el nombre del trabajo que creó el modelo optimizado que desea evaluar.
En la página de detalles del trabajo, elija Evaluar el rendimiento.
En la página de evaluación del rendimiento, algunos JumpStart modelos requieren que firme un acuerdo de licencia de usuario final (EULA) antes de poder continuar. Si se le solicita, revise los términos de la licencia en la sección del acuerdo de licencia. Si los términos son aceptables para su caso de uso, seleccione la casilla de verificación correspondiente a Acepto el EULA y lea los términos y condiciones.
En Seleccione un modelo de tokenizador, acepte el predeterminado o elija un modelo específico que sirva de tokenizador para su evaluación.
En el caso de los conjuntos de datos de entrada, elija si desea:
- Utilice los conjuntos de datos de muestra predeterminados de. SageMaker
- Proporcione un URI de S3 que apunte a sus propios conjuntos de datos de muestra.
Para el URI de S3 para los resultados de rendimiento, proporcione un URI que apunte a la ubicación de Amazon S3 en la que desea almacenar los resultados de la evaluación.
Elija Evaluar.

Studio muestra la página de evaluaciones de rendimiento, donde se muestra su trabajo de evaluación en la tabla. La columna Estado muestra el estado de la evaluación.
Cuando el estado sea Completado, elija el nombre del trabajo para ver los resultados de la evaluación.

La página de detalles de la evaluación muestra tablas que proporcionan las métricas de rendimiento en cuanto a latencia, rendimiento y precio.

Referencia de métricas para las evaluaciones del rendimiento de inferencias

Tras evaluar correctamente el rendimiento de un modelo optimizado, la página de detalles de la evaluación de Studio muestra las siguientes métricas.

Métricas de latencia

La sección de latencia muestra las siguientes métricas

Simultaneidad: El número de usuarios simultáneos que la evaluación simuló para invocar el punto final simultáneamente.
Tiempo transcurrido hasta el primer token (ms): El tiempo transcurrido entre el envío de la solicitud y el momento en que se recibe el primer token de una respuesta de streaming.
Latencia entre tokens (ms): El tiempo necesario para generar un token de salida para cada solicitud.
Latencia del cliente (ms): La latencia de la solicitud desde el momento en que se envía la solicitud hasta el momento en que se recibe la respuesta completa.
Tokens de entrada por segundo (recuento): El número total de tokens de entrada generados, en todas las solicitudes, dividido por la duración total en segundos de la simultaneidad.
Tokens de salida por segundo (recuento): El número total de tokens de salida generados, en todas las solicitudes, dividido por la duración total en segundos de la simultaneidad.
Invocaciones de clientes (recuento): El número total de solicitudes de inferencia enviadas al punto final entre todos los usuarios de forma simultánea.
Errores de invocación por parte del cliente (recuento): El número total de solicitudes de inferencia enviadas al punto final a todos los usuarios de forma simultánea y que provocaron un error de invocación.
Falló el tokenizador (recuento): El número total de solicitudes de inferencia en las que el tokenizador no pudo analizar la solicitud o la respuesta.
Respuesta de inferencia vacía (recuento): El número total de solicitudes de inferencia que no generaron ningún token de salida o que el tokenizador no pudo analizar la respuesta.

Métricas de rendimiento

La sección Rendimiento muestra las siguientes métricas.

Simultaneidad: El número de usuarios simultáneos que la evaluación simuló para invocar el punto final simultáneamente.
Introduzca los tokens/seg/req (recuento): El número total de fichas de entrada generadas por segundo y por solicitud.
Tokens de salida por sec/requerimiento (recuento): El número total de fichas de salida generadas por segundo y por solicitud.
Tokens de entrada (recuento): El número total de tokens de entrada generados por solicitud.
Tokens de salida (recuento): El número total de tokens de salida generados por solicitud.

Métricas de precios

La sección de precios muestra las siguientes métricas.

Simultaneidad: El número de usuarios simultáneos que la evaluación simuló para invocar el punto final simultáneamente.
Precio por millón de fichas de entrada: Coste de procesar 1 millón de fichas de entrada.
Precio por millón de fichas de salida: Coste de generar 1 millón de fichas de salida.

Referencia de modelos compatibles

En la siguiente tabla se muestran los modelos que SageMaker admiten la optimización de inferencias y las técnicas de optimización compatibles.

Modelos que admiten la optimización de inferencias
Nombre de modelo	JumpStart ID del modelo	Soporta la cuantificación	Soporta la decodificación especulativa	Decodificación especulativa con SageMaker borrador de modelo
Halcón	huggingface-llm-falcon-40b-bf16	Sí	Sí	No
	huggingface-llm-falcon-40 16 b-instruct-bf	Sí	Sí	No
	huggingface-llm-falcon-180 16 b-chat-bf	No	Sí	No
	huggingface-llm-falcon-180b-bf16	No	Sí	No
	huggingface-llm-amazon-falconlite	Sí	Sí	No
	huggingface-llm-amazon-falconlite2	Sí	Sí	No
	huggingface-llm-tiiuae-falcon-rw-1b	Sí	Sí	No
	huggingface-llm-falcon-7b-bf16	Sí	Sí	No
	huggingface-llm-falcon-7 16 b-instruct-bf	Sí	Sí	No
	huggingface-llm-falcon2-11b	Sí	Sí	No
gpt-neox	huggingface-text generación 2- -20b-fp16 gpt-neoxt-chat-base	Sí	Sí	No
gpt-neox	huggingface-text generation2-gpt-neox-20b-fp16	Sí	Sí	No
LLaMA	meta-textgeneration-llama-3-70b-instruir	Sí	Sí	Sí
	meta-textgeneration-llama-3-70b	Sí	Sí	Sí
	meta-textgeneration-llama-3-8b	Sí	Sí	Sí
	meta-textgeneration-llama-3-8b-instruir	Sí	Sí	Sí
	meta-textgeneration-llama-2-7b	Sí	Sí	Sí
	meta-textgeneration-llama-2-7b-f	Sí	Sí	Sí
	meta-textgeneration-llama-2-13b	Sí	Sí	Sí
	meta-textgeneration-llama-2-13b-f	Sí	Sí	Sí
	meta-textgeneration-llama-2-70b	Sí	Sí	Sí
	meta-textgeneration-llama-2-70b-f	Sí	Sí	Sí
	meta-textgeneration-llama-codellama-7b	Sí	Sí	Sí
	meta-textgeneration-llama-codellama-7b-instruir	Sí	Sí	Sí
	meta-textgeneration-llama-codellama-7b-python	Sí	Sí	Sí
	meta-textgeneration-llama-codellama-13b	Sí	Sí	Sí
	meta-textgeneration-llama-codellama-13b-instruir	Sí	Sí	Sí
	meta-textgeneration-llama-codellama-13b-python	Sí	Sí	Sí
	meta-textgeneration-llama-codellama-34b	Sí	Sí	Sí
	meta-textgeneration-llama-codellama-34b-instruir	Sí	Sí	Sí
	meta-textgeneration-llama-codellama-34b-python	Sí	Sí	Sí
	meta-textgeneration-llama-codellama-70b	Sí	Sí	Sí
	meta-textgeneration-llama-codellama-70b-instruir	Sí	Sí	Sí
	meta-textgeneration-llama-codellama-70b-python	Sí	Sí	Sí
	meta-textgeneration-llama-guard-7b	Sí	Sí	Sí
Bloom	huggingface-textgeneration-bloom-1b7	Sí	Sí	No
	huggingface-textgeneration-bloom-1b1	Sí	Sí	No
	huggingface-textgeneration-bloom-560 m	Sí	Sí	No
	huggingface-textgeneration-bloomz-560 m	Sí	Sí	No
	huggingface-textgeneration-bloomz-1b1	Sí	Sí	No
	huggingface-textgeneration-bloomz-1b7	Sí	Sí	No
	huggingface-text generation 1-bloomz-7b1-fp16	Sí	Sí	No
	huggingface-text generation1-bloom-7b1	Sí	Sí	No
	huggingface-text generation1-bloomz-3b-fp16	Sí	Sí	No
	huggingface-text generation 1-bloom-3b	Sí	Sí	No
	huggingface-textembedding-bloom-7b1	Sí	Sí	No
	huggingface-textembedding-bloom-7b1-fp16	Sí	Sí	No
Cohere	huggingface-llm-cohereforai-c4 ai-command-r-plus	Sí
Gemma	huggingface-llm-gemma-7b	Sí	Sí	No
	huggingface-llm-gemma-7b-instruir	Sí	Sí	No
	huggingface-llm-gemma-2b	Sí	Sí	No
	huggingface-llm-gemma-2b-instruir	Sí	Sí	No
	huggingface-llm-zephyr-7b-gemma	Sí	Sí	No
gpt2	huggingface-textgeneration-gpt2	Sí	No	No
gpt2	huggingface-textgeneration-distilgpt2	Sí	No	No
Mistral	huggingface-llm-mistral-7b	Sí	Sí	Sí
	huggingface-llm-mistral-7b-instruir	Sí	Sí	Sí
	huggingface-llm-mistral-7 b-openorca-gptq	Sí	Sí	Sí
	huggingface-llm-amazon-mistrallite	Sí	Sí	Sí
	huggingface-llm-thebloke-mistral-7 b-openorca-awq	Sí	Sí	Sí
	huggingface-llm-huggingfaceh4-mistral-7 b-sft-beta	Sí	Sí	Sí
	huggingface-llm-huggingfaceh4-mistral-7 b-sft-alpha	Sí	Sí	Sí
	huggingface-llm-teknium-openhermes-2-mistral-7b	Sí	Sí	Sí
	huggingface-llm-nousresearch-yarn-mistral-7b-128k	Sí	Sí	Sí
	huggingface-llm-dolphin-2-2-1-mistral-7b	Sí	Sí	Sí
	huggingface-llm-cultrix-mistraltrix-v1	Sí	Sí	Sí
Mixtral	huggingface-llm-mixtral-8x7b-instrucción	Sí	Sí	Sí
	huggingface-llm-mixtral-8x7 b-instruct-gptq	Sí	Sí	Sí
	huggingface-llm-mixtral-8x7b	Sí	Sí	Sí
	huggingface-llm-mistralai-mixtral-8x22B-Instruct-V0-1	Sí	Sí	Sí
	huggingface-llm-dolphin-2-5-mixtral-8x7b	Sí	Sí	Sí
	huggingface-llm-dolphin-2-7-mixtral-8x7b	Sí	Sí	Sí
¿Phi	huggingface-llm-phi-2	Sí

Modelos preoptimizados JumpStart

Los siguientes son los JumpStart modelos que tienen configuraciones preoptimizadas.

HuggingFace

Instrucción Mixtral 8x7B
Mixtral 8x7B
Instructo Mistral 7B
Mistral 7B

Modelos JumpStart precompilados

Para algunos modelos y configuraciones, SageMaker proporciona modelos precompilados para instancias específicas de AWS Inferentia y Trainium. AWS En este caso, si crea un trabajo de compilación u optimización y elige ml.inf2.48xlarge o ml.trn1.32xlarge como tipo de instancia de despliegue, obtendrá los artefactos compilados. SageMaker Como el trabajo usa un modelo que ya está compilado, se completa rápidamente sin ejecutar la compilación desde cero.

Los JumpStart modelos para los que SageMaker tiene modelos precompilados son los siguientes:

HuggingFace

Mistral 7B

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Comience con la implementación de modelos

Creación de modelos con ModelBuilder

Optimice la inferencia de modelos con Amazon SageMaker

Técnicas de optimización

Decodificación especulativa

Cuantificación

Compilación

Implemente un modelo preoptimizado

Para implementar un modelo preoptimizado

Cree un trabajo de optimización de inferencias

Precios de instancias para trabajos de optimización de inferencias

Para empezar a crear un trabajo de optimización

Para establecer las configuraciones de optimización

Opciones avanzadas

ejemplo código para definir un SageMaker modelo con `ModelBuilder`

ejemplo código para optimizar con la cuantificación

ejemplo código para optimizar con decodificación especulativa

ejemplo código para optimizar con compilación

Vea los resultados del trabajo de optimización

Para ver la tabla de resumen de los trabajos de optimización

Para ver los detalles de un trabajo

Evalúe el rendimiento de los modelos optimizados

Antes de empezar

Cree la evaluación del rendimiento

Referencia de métricas para las evaluaciones del rendimiento de inferencias

Métricas de latencia

Métricas de rendimiento

Métricas de precios

Referencia de modelos compatibles

Modelos preoptimizados JumpStart

Meta

HuggingFace

Modelos JumpStart precompilados

Meta

HuggingFace

Optimice la inferencia de modelos con Amazon SageMaker

Técnicas de optimización

Decodificación especulativa

Cuantificación

Compilación

Implemente un modelo preoptimizado

Para implementar un modelo preoptimizado

Cree un trabajo de optimización de inferencias

Precios de instancias para trabajos de optimización de inferencias

Para empezar a crear un trabajo de optimización

Para establecer las configuraciones de optimización

Opciones avanzadas

ejemplo código para definir un SageMaker modelo con ModelBuilder

ejemplo código para optimizar con la cuantificación

ejemplo código para optimizar con decodificación especulativa

ejemplo código para optimizar con compilación

Vea los resultados del trabajo de optimización

Para ver la tabla de resumen de los trabajos de optimización

Para ver los detalles de un trabajo

Evalúe el rendimiento de los modelos optimizados

Antes de empezar

Cree la evaluación del rendimiento

Referencia de métricas para las evaluaciones del rendimiento de inferencias

Métricas de latencia

Métricas de rendimiento

Métricas de precios

Referencia de modelos compatibles

Modelos preoptimizados JumpStart

Meta

HuggingFace

Modelos JumpStart precompilados

Meta

HuggingFace

ejemplo código para definir un SageMaker modelo con `ModelBuilder`