Unterstützt große Sprachmodelle für die Feinabstimmung

Mithilfe der Autopilot-API können Benutzer große Sprachmodelle (LLMs), die von Amazon unterstützt werden, optimieren. SageMaker JumpStart

Anmerkung

Für Feinabstimmungsmodelle, die die Annahme einer Endbenutzer-Lizenzvereinbarung erfordern, müssen Sie bei der Erstellung Ihres AutoML-Jobs ausdrücklich die Zustimmung zur EULA erklären. Beachten Sie, dass nach der Feinabstimmung eines vortrainierten Modells die Gewichte des ursprünglichen Modells geändert werden, sodass Sie später bei der Bereitstellung des fein abgestimmten Modells keine EULA akzeptieren müssen.

Informationen darüber, wie Sie die EULA akzeptieren können, wenn Sie einen Job zur Feinabstimmung mithilfe der AutoML-API erstellen, finden Sie unter. So legen Sie die EULA-Akzeptanz bei der Feinabstimmung eines Modells mithilfe der AutoML-API fest

Sie finden die vollständigen Details zu den einzelnen Modellen, indem Sie in der folgenden JumpStart Modelltabelle nach Ihrer Modell-ID suchen und dann dem Link in der Spalte Quelle folgen. Zu diesen Informationen können die vom Modell unterstützten Sprachen, etwaige Verzerrungen, die für die Feinabstimmung verwendet wurden, und vieles mehr gehören.

In der folgenden Tabelle sind die unterstützten JumpStart Modelle aufgeführt, die Sie mit einem AutoML-Job optimieren können.

JumpStart Modell-ID	`BaseModelName` in der API-Anfrage.	Beschreibung
huggingface-textgeneration-dolly-v2-3b-bf16	`Dolly3B`	Dolly 3B ist ein großes Sprachmodell mit 2,8 Milliarden Parametern, das Anweisungen befolgt und auf Pythia-2.8b basiert. Es basiert auf dem Datensatz Databricks-Dolly-15k zur Feinabstimmung von Anweisungen und Antworten und kann Aufgaben wie Brainstorming, Klassifizierung, Fragen und Antworten, Textgenerierung, Informationsextraktion und Zusammenfassung ausführen.
huggingface-textgeneration-dolly-v2-7b-bf16	`Dolly7B`	Dolly 7B ist ein großes Sprachmodell mit 6,9 Milliarden Parametern, das Anweisungen befolgt und auf Pythia-6.9b basiert. Es basiert auf dem Datensatz Databricks-Dolly-15k zur Feinabstimmung von Anweisungen und Antworten und kann Aufgaben wie Brainstorming, Klassifizierung, Fragen und Antworten, Textgenerierung, Informationsextraktion und Zusammenfassung ausführen.
huggingface-textgeneration-dolly-v2-12b-bf16	`Dolly12B`	Dolly 12B ist ein großes Sprachmodell mit 12 Milliarden Parametern, das Anweisungen befolgt und auf Pythia-12b basiert. Es basiert auf dem Datensatz Databricks-Dolly-15k zur Feinabstimmung von Anweisungen und Antworten und kann Aufgaben wie Brainstorming, Klassifizierung, Fragen und Antworten, Textgenerierung, Informationsextraktion und Zusammenfassung ausführen.
huggingface-llm-falcon-7b-bf16	`Falcon7B`	Falcon 7B ist ein kausales Großsprachmodell mit 7 Milliarden Parametern, das auf 1.500 Milliarden Tokens trainiert wurde und mit kuratierten Korpora erweitert wurde. Falcon-7B wurde ausschließlich mit englischen und französischen Daten trainiert und lässt sich nicht angemessen auf andere Sprachen verallgemeinern. Da das Modell auf großen Mengen von Webdaten trainiert wurde, enthält es die Stereotypen und Vorurteile, die häufig im Internet zu finden sind.
huggingface-llm-falcon-7b-instruct-bf16	`Falcon7BInstruct`	Falcon 7B Instruct ist ein kausales, umfangreiches Sprachmodell mit 7 Milliarden Parametern, das auf Falcon 7B aufbaut und auf einer Mischung aus Chat/Instruct-Datensätzen mit 250 Millionen Tokens fein abgestimmt wurde. Falcon 7B Instruct wird hauptsächlich auf englischen Daten trainiert und lässt sich nicht angemessen auf andere Sprachen verallgemeinern. Da es an großen Korpora, die für das Internet repräsentativ sind, trainiert wurde, vermittelt es zudem die Stereotypen und Vorurteile, denen man im Internet häufig begegnet.
huggingface-llm-falcon-40b-bf16	`Falcon40B`	Falcon 40B ist ein kausales, umfangreiches Sprachmodell mit 40 Milliarden Parametern, das auf 1.000 Milliarden Tokens trainiert wurde und mit kuratierten Korpora erweitert wurde. Es wird hauptsächlich in Englisch, Deutsch, Spanisch und Französisch trainiert, mit begrenzten Fähigkeiten in Italienisch, Portugiesisch, Polnisch, Niederländisch, Rumänisch, Tschechisch und Schwedisch. Es lässt sich nicht angemessen auf andere Sprachen verallgemeinern. Da es an großen Korpora, die für das Internet repräsentativ sind, trainiert wurde, trägt es außerdem die Stereotypen und Vorurteile, denen man im Internet häufig begegnet.
huggingface-llm-falcon-40b-instruct-bf16	`Falcon40BInstruct`	Falcon 40B Instruct ist ein kausales, umfangreiches Sprachmodell mit 40 Milliarden Parametern, das auf Falcon40B aufbaut und auf einer Mischung aus Baize fein abgestimmt wurde. Es basiert hauptsächlich auf englischen und französischen Daten und lässt sich nicht angemessen auf andere Sprachen verallgemeinern. Da es sich zudem auf umfangreiche Korpora stützt, die für das Internet repräsentativ sind, vermittelt es die Stereotypen und Vorurteile, denen man im Internet häufig begegnet.
huggingface-text2text-flan-t5-large	`FlanT5L`	Die Flan-T5Eine Modellfamilie besteht aus einer Reihe umfangreicher Sprachmodelle, die auf mehrere Aufgaben abgestimmt sind und weiter trainiert werden können. Diese Modelle eignen sich hervorragend für Aufgaben wie Sprachübersetzung, Textgenerierung, Satzvervollständigung, Deutung des Wortsinns, Zusammenfassung oder Beantwortung von Fragen. Flan T5 L ist ein großes Sprachmodell mit 780 Millionen Parametern, das auf zahlreichen Sprachen trainiert wurde. Die Liste der von Flan T5 L unterstützten Sprachen finden Sie in den Details des Modells, das Sie bei Ihrer Suche nach Modell-ID abgerufen haben, in JumpStart der Modelltabelle.
huggingface-text2text-flan-t5-xl	`FlanT5XL`	Die Flan-T5Die Modellfamilie besteht aus einer Reihe großer Sprachmodelle, die auf mehrere Aufgaben abgestimmt sind und weiter trainiert werden können. Diese Modelle eignen sich hervorragend für Aufgaben wie Sprachübersetzung, Textgenerierung, Satzvervollständigung, Deutung des Wortsinns, Zusammenfassung oder Beantwortung von Fragen. Flan T5 XL ist ein Sprachmodell mit 3 Milliarden Parametern, das auf zahlreichen Sprachen trainiert wurde. Die Liste der von Flan T5 XL unterstützten Sprachen finden Sie in den Details des Modells, das Sie bei Ihrer Suche nach Modell-ID abgerufen haben, in JumpStart der Modelltabelle.
huggingface-text2text-flan-t5-xxll	`FlanT5XXL`	Die Flan-T5Die Modellfamilie besteht aus einer Reihe großer Sprachmodelle, die auf mehrere Aufgaben abgestimmt sind und weiter trainiert werden können. Diese Modelle eignen sich hervorragend für Aufgaben wie Sprachübersetzung, Textgenerierung, Satzvervollständigung, Deutung des Wortsinns, Zusammenfassung oder Beantwortung von Fragen. Flan T5 XXL ist ein Modell mit 11 Milliarden Parametern. Die Liste der von Flan T5 XXL unterstützten Sprachen finden Sie in den Details des Modells, das Sie bei Ihrer Suche nach Modell-ID abgerufen haben, in JumpStart der Modelltabelle.
meta-textgeneration-llama-2-7b	`Llama2-7B`	Llama 2 ist eine Sammlung von vortrainierten und fein abgestimmten generativen Textmodellen mit einer Skala von 7 Milliarden bis 70 Milliarden Parametern. Llama2-7B ist das Modell mit 7 Milliarden Parametern, das für den englischen Gebrauch bestimmt ist und für eine Vielzahl von Aufgaben zur Generierung natürlicher Sprache angepasst werden kann.
meta-textgeneration-llama-2-7b-f	`Llama2-7BChat`	Llama 2 ist eine Sammlung von vortrainierten und fein abgestimmten generativen Textmodellen mit einer Skala von 7 Milliarden bis 70 Milliarden Parametern. Llama2-7B ist das Chat-Modell mit 7 Milliarden Parametern, das für Dialog-Anwendungsfälle optimiert ist.
meta-textgeneration-llama-2-13b	`Llama2-13B`	Llama 2 ist eine Sammlung von vortrainierten und fein abgestimmten generativen Textmodellen mit einer Skala von 7 Milliarden bis 70 Milliarden Parametern. Llama2-13B ist das Modell mit 13 Milliarden Parametern, das für den englischen Gebrauch bestimmt ist und für eine Vielzahl von Aufgaben zur Generierung natürlicher Sprache angepasst werden kann.
meta-textgeneration-llama-2-13b-f	`Llama2-13BChat`	Llama 2 ist eine Sammlung von vortrainierten und fein abgestimmten generativen Textmodellen mit einer Skala von 7 Milliarden bis 70 Milliarden Parametern. Llama2-13B ist das Chat-Modell mit 13 Milliarden Parametern, das für Dialog-Anwendungsfälle optimiert ist.
huggingface-llm-mistral-7b	`Mistral7B`	Mistral 7B ist ein Code mit sieben Milliarden Parametern und ein Allzweckmodell zur englischen Textgenerierung. Es kann in einer Vielzahl von Anwendungsfällen verwendet werden, einschließlich Textzusammenfassung, Klassifizierung, Textvervollständigung oder Codevervollständigung.
huggingface-llm-mistral-7b-instruct	`Mistral7BInstruct`	Mistral 7B Instruct ist die fein abgestimmte Version von Mistral 7B für Anwendungsfälle im Konversationsbereich. Es wurde auf die Verwendung einer Vielzahl von öffentlich zugänglichen Konversationsdatensätzen in englischer Sprache spezialisiert.
huggingface-textgeneration1-mpt-7b-bf16	`MPT7B`	MPT 7B ist ein großsprachiges Transformatormodell im Decoder-Stil mit 6,7 Milliarden Parametern, das von Grund auf auf 1 Billion Tokens mit englischem Text und Code vortrainiert wurde. Es ist darauf vorbereitet, lange Kontextlängen zu verarbeiten.
huggingface-textgeneration1-mpt-7b-instruct-bf16	`MPT7BInstruct`	MPT 7B Instruct ist ein Modell für den Unterricht in Kurzform zur Ausführung von Aufgaben. Es basiert auf der Feinabstimmung von MPT 7B auf einem Datensatz, der aus den Datensätzen Databricks-Dolly-15k und Anthropic Helpful and Harmless (HH-RLHF) abgeleitet wurde.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erstellen Sie mit der AutoML-API einen LLM-Finetuning-Job

Datensatz-Dateitypen und Eingabedatenformat