Modelos de lenguaje grandes compatibles para el ajuste

Con la API de Piloto automático, los usuarios pueden ajustar los siguientes modelos de lenguaje grandes (LLM). Esos modelos funcionan con Amazon SageMaker JumpStart.

nota

Para ajustar los modelos que requieren la aceptación de un acuerdo de licencia de usuario final, debe declarar explícitamente la aceptación del EULA al crear su trabajo de AutoML. Tenga en cuenta que después de ajustar un modelo previamente entrenado, se cambian los pesos del modelo original, por lo que no tendrá que aceptar más adelante un EULA al implementar el modelo ajustado.

Para obtener información sobre cómo aceptar el EULA al crear un trabajo de ajuste con la API AutoML, consulte. Cómo configurar la aceptación del EULA al ajustar un modelo mediante la API AutoML

Para obtener todos los detalles de cada modelo, busque su ID de modelo en la siguiente tabla de JumpStart modelos y, a continuación, siga el enlace de la columna Fuente. Estos detalles pueden incluir los idiomas compatibles con el modelo, los sesgos que puede presentar, los conjuntos de datos empleados para el ajuste, etc.

JumpStart ID del modelo	`BaseModelName` en una solicitud de API	Descripción
huggingface-textgeneration-dolly-v2-3b-bf16	`Dolly3B`	La Dolly 3B es un gran modelo de lenguaje basado en pythia-2.8b que sigue instrucciones de parámetros de 2.800 millones de parámetros. Está entrenado en el conjunto de datos de ajuste preciso de instrucción/respuesta databricks-dolly-15k y puede realizar tareas como la lluvia de ideas, la clasificación, las preguntas y respuestas, la generación de texto, la extracción de información y el resumen.
huggingface-textgeneration-dolly-v2-7b-bf16	`Dolly7B`	El Dolly 7B es un modelo lingüístico amplio basado en la pythia-6.9b que sigue instrucciones de 6.900 millones de parámetros. Está entrenado en el conjunto de datos de ajuste preciso de instrucción/respuesta databricks-dolly-15k y puede realizar tareas como la lluvia de ideas, la clasificación, las preguntas y respuestas, la generación de texto, la extracción de información y el resumen.
huggingface-textgeneration-dolly-v2-12b-bf16	`Dolly12B`	El Dolly 12B es un gran modelo de lenguaje basado en la pythia-12b que sigue instrucciones de 12 000 millones de parámetros. Está entrenado en el conjunto de datos de ajuste preciso de instrucción/respuesta databricks-dolly-15k y puede realizar tareas como la lluvia de ideas, la clasificación, las preguntas y respuestas, la generación de texto, la extracción de información y el resumen.
huggingface-llm-falcon-7b-bf16	`Falcon7B`	El Falcon 7B es un modelo de lenguaje amplio y causal de 7.000 millones de parámetros que se basa en 1.500 millones de fichas y está enriquecido con corpus seleccionados. El Falcon-7B está entrenado únicamente con datos en inglés y francés, y no generaliza adecuadamente a otros idiomas. Debido a que el modelo se entrenó con grandes cantidades de datos web, contiene los estereotipos y sesgos que se encuentran comúnmente en línea.
huggingface-llm-falcon-7b-instruct-bf16	`Falcon7BInstruct`	El Falcon 7B Instruct es un modelo de lenguaje amplio y causal de 7.000 millones de parámetros basado en el Falcon 7B y perfeccionado a partir de una combinación de conjuntos de datos de chat e instrucción de 250 millones de fichas. El Falcon 7B Instruct se entrena principalmente con datos en inglés y no generaliza adecuadamente a otros idiomas. Además, al estar formado a partir de un corpus representativo de la web a gran escala, transmite los estereotipos y sesgos que suelen encontrarse en Internet.
huggingface-llm-falcon-40b-bf16	`Falcon40B`	El Falcon 40B es un modelo de lenguaje amplio y causal de 40 000 millones de parámetros que se basa en 1 000 000 millones de fichas enriquecidas con corpus seleccionados. Se forma principalmente en inglés, alemán, español y francés, con capacidades limitadas en italiano, portugués, polaco, holandés, rumano, checo y sueco. No se generaliza adecuadamente a otros idiomas. Además, dado que se basa en un corpus representativo de la web a gran escala, transmite los estereotipos y sesgos que suelen encontrarse en Internet.
huggingface-llm-falcon-40b-instruct-bf16	`Falcon40BInstruct`	El Falcon 40B Instruct es un modelo de lenguaje amplio y causal de 40 000 millones de parámetros basado en el Falcon40B y perfeccionado en una mezcla de Baize. Se entrena principalmente con datos en inglés y francés, y no se generaliza adecuadamente a otros idiomas. Además, al estar formado sobre un corpus representativo de la web a gran escala, transmite los estereotipos y sesgos que suelen encontrarse en Internet.
huggingface-text2text-flan-t5-large	`FlanT5L`	La familia de Flan-T5modelos es un conjunto de modelos lingüísticos de gran tamaño que se adaptan a múltiples tareas y que pueden seguir formándose. Estos modelos son adecuados para tareas como la traducción de idiomas, la generación de textos, la finalización de oraciones, la desambiguación del sentido de las palabras, la síntesis o la respuesta a preguntas. El Flan T5 L es un modelo lingüístico de 780 millones de parámetros entrenado en numerosos idiomas. Encontrará la lista de idiomas compatibles con el Flan T5 L en los detalles del modelo obtenidos al buscar por ID de modelo en JumpStart la tabla de modelos.
huggingface-text2text-flan-t5-xl	`FlanT5XL`	La familia de Flan-T5modelos es un conjunto de modelos lingüísticos de gran tamaño que se adaptan a múltiples tareas y que se pueden seguir entrenando. Estos modelos son adecuados para tareas como la traducción de idiomas, la generación de textos, la finalización de oraciones, la desambiguación del sentido de las palabras, la síntesis o la respuesta a preguntas. El Flan T5 XL es un modelo lingüístico de 3000 millones de parámetros que se ha entrenado en numerosos idiomas. Encontrará la lista de idiomas compatibles con el Flan T5 XL en los detalles del modelo obtenidos al buscar por ID de modelo en JumpStart la tabla de modelos.
huggingface-text2text-flan-t5-xxll	`FlanT5XXL`	La familia de Flan-T5modelos es un conjunto de modelos lingüísticos de gran tamaño que se adaptan a múltiples tareas y que se pueden seguir entrenando. Estos modelos son adecuados para tareas como la traducción de idiomas, la generación de textos, la finalización de oraciones, la desambiguación del sentido de las palabras, la síntesis o la respuesta a preguntas. El Flan T5 XXL es un modelo de 11 mil millones de parámetros. Encontrará la lista de idiomas compatibles con el Flan T5 XXL en los detalles del modelo obtenidos al buscar por ID de modelo en la tabla de modelos. JumpStart
meta-textgeneration-llama-2-7b	`Llama2-7B`	Llama 2 es una colección de modelos de texto generativo preentrenados y ajustados, con una escala que oscila entre 7 000 y 70 000 millones de parámetros. Llama2-7B es un modelo de 7 mil millones de parámetros diseñado para su uso en inglés y que se puede adaptar a una variedad de tareas de generación de lenguaje natural.
meta-textgeneration-llama-2-7b-f	`Llama2-7BChat`	Llama 2 es una colección de modelos de texto generativos preentrenados y ajustados, con una escala que oscila entre 7 000 y 70 000 millones de parámetros. Llama2-7B es el modelo de chat de 7 mil millones de parámetros que está optimizado para casos de uso del diálogo.
meta-textgeneration-llama-2-13b	`Llama2-13B`	Llama 2 es una colección de modelos de texto generativos preentrenados y ajustados, con una escala que oscila entre 7 000 y 70 000 millones de parámetros. Llama2-13B es un modelo de 13 000 millones de parámetros diseñado para su uso en inglés y que se puede adaptar a diversas tareas de generación de lenguaje natural.
meta-textgeneration-llama-2-13b-f	`Llama2-13BChat`	Llama 2 es una colección de modelos de texto generativos preentrenados y ajustados, con una escala que oscila entre 7 000 y 70 000 millones de parámetros. Llama2-13B es el modelo de chat de 13 000 millones de parámetros que está optimizado para casos de uso del diálogo.
huggingface-llm-mistral-7b	`Mistral7B`	El Mistral 7B es un código de siete mil millones de parámetros y un modelo de generación de texto en inglés de uso general. Se puede usar en una variedad de casos de uso, incluidos el resumen de texto, la clasificación, la finalización de texto o la finalización de código.
huggingface-llm-mistral-7b-instruct	`Mistral7BInstruct`	El Mistral 7B Instruct es la versión mejorada del Mistral 7B para casos de uso conversacional. Se especializó utilizando una variedad de conjuntos de datos de conversaciones disponibles públicamente en inglés.
huggingface-textgeneration1-mpt-7b-bf16	`MPT7B`	El MPT 7B es un modelo lingüístico de gran tamaño, tipo transformador, tipo decodificador, con 6.700 millones de parámetros, entrenado previamente desde cero con un billón de fichas de texto y código en inglés. Está preparado para gestionar contextos de gran longitud.
huggingface-textgeneration1-mpt-7b-instruct-bf16	`MPT7BInstruct`	El MPT 7B Instruct es un modelo para la instrucción abreviada que sigue las tareas. Se creó ajustando el MPT 7B a partir de un conjunto de datos derivado de databricks-dolly-15k y de los conjuntos de datos Anthropic Helpful and Harmless (HH-RLHF).

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Cree un trabajo de ajuste de LLM con la API AutoML

Tipos de archivos de conjuntos de datos y formato de datos de entrada