AI21 LabsModelos Jamba-Instruct - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AI21 LabsModelos Jamba-Instruct

Esta seção fornece parâmetros de inferência e um exemplo de código para o uso de AI21 Jamba-Instruct modelos.

Campos obrigatórios

O modelo Jamba-Instruct do AI21 Labs suporta os seguintes campos obrigatórios:

  • Mensagens (messages) — As mensagens anteriores neste chat, da mais antiga (índice 0) à mais recente. Deve ter pelo menos uma mensagem de usuário ou assistente na lista. Inclua as entradas do usuário e as respostas do sistema. O tamanho total máximo da lista é de cerca de 256 mil tokens. Cada mensagem inclui os seguintes membros:

  • Função (role) — A função do autor da mensagem. Um dos seguintes valores:

    • Usuário (user) — Entrada fornecida pelo usuário. Quaisquer instruções fornecidas aqui que entrem em conflito com as instruções dadas no system prompt têm precedência sobre as instruções do system prompt.

    • Assistente (assistant) — Resposta gerada pelo modelo.

    • Sistema (system) — Instruções iniciais fornecidas ao sistema para fornecer orientação geral sobre o tom e a voz da mensagem gerada. Uma mensagem inicial do sistema é opcional, mas é recomendada para fornecer orientação sobre o tom do bate-papo. Por exemplo, “Você é um chatbot útil com formação em ciências da terra e um charmoso sotaque francês”.

  • Conteúdo (content) — O conteúdo da mensagem.

Parâmetros de inferência

O modelo Jamba-Instruct do AI21 Labs suporta os seguintes parâmetros de inferência.

Aleatoriedade e diversidade

O modelo Jamba-Instruct do AI21 Labs suporta os seguintes parâmetros para controlar a aleatoriedade e a diversidade na resposta.

  • Temperatura (temperature) — Quanta variação fornecer em cada resposta. Definir esse valor como 0 garante sempre a mesma resposta à mesma pergunta. Definir um valor mais alto incentiva mais variações. Modifica a distribuição da qual os tokens são amostrados. Padrão: 1,0, Intervalo: 0,0 — 2,0

  • Top P (top_p) — Limite o conjunto dos próximos tokens em cada etapa ao percentil N superior dos tokens possíveis, onde 1,0 significa o conjunto de todos os tokens possíveis e 0,01 significa o pool somente dos próximos tokens mais prováveis.

Length

O modelo Jamba Instruct do AI21 Labs suporta os seguintes parâmetros para controlar a duração da resposta gerada.

  • Comprimento máximo de conclusão (max_tokens) — O número máximo de tokens permitidos para cada mensagem de resposta gerada. Normalmente, a melhor maneira de limitar o tamanho da saída é fornecendo um limite de tamanho no prompt do sistema (por exemplo, “limite suas respostas a três frases”). Padrão: 4096, Intervalo: 0 — 4096.

  • Sequências de parada (stop) — Encerra a mensagem quando o modelo gera uma dessas sequências de caracteres. A sequência de parada não está incluída na mensagem gerada. Cada sequência pode ter até 64K de comprimento e conter novas linhas como caracteres\n.

    Exemplos:

    • Cadeia de parada única com uma palavra e um ponto final: “macacos”.

    • Várias cadeias de caracteres de parada e uma nova linha: ["cat”, “dog”,” . “, “####”, "\n“]

  • Número de respostas (n) — Quantas respostas de bate-papo devem ser geradas. As notas n devem ser 1 para respostas de streaming. Se n for definido como maior que 1, a configuração temperature=0 sempre falhará porque é garantido que todas as respostas sejam duplicadas. Padrão: 1, Intervalo: 1 — 16

Repetições

Os modelos Jamba-Instruct do AI21 Labs suportam os seguintes parâmetros para controlar a repetição na resposta gerada.

  • Penalidade de frequência (frequency_penalty) — Reduza a frequência de palavras repetidas em uma única mensagem de resposta aumentando esse número. Essa penalidade aumenta gradualmente quanto mais vezes uma palavra aparece durante a geração da resposta. Definir como 2.0 produzirá uma string com poucas ou nenhuma palavra repetida.

  • Penalidade de presença (presence_penalty) — Reduza a frequência de palavras repetidas em uma única mensagem aumentando esse número. Ao contrário da penalidade de frequência, a penalidade de presença é a mesma, não importa quantas vezes uma palavra apareça.

Campo do corpo da solicitação de invocação do modelo

Ao fazer uma InvokeModelWithResponseStreamchamada InvokeModelou usando um AI21 Labs modelo, preencha o body campo com um objeto JSON que esteja em conformidade com o abaixo. Insira o prompt no campo prompt.

{ "messages": [ { "role":"system", // Non-printing contextual information for the model "content":"You are a helpful history teacher. You are kind and you respond with helpful content in a professional manner. Limit your answers to three sentences. Your listener is a high school student." }, { "role":"user", // The question we want answered. "content":"Who was the first emperor of rome?" } ], "n":1 // Limit response to one answer }

Campo do corpo da resposta de invocação do modelo

Para obter informações sobre o formato do body campo na resposta, consulte https://docs.ai21.com/reference/ jamba-instruct-api #response -details.

Exemplo de código

Este exemplo mostra como chamar o modelo Jamba-Instruct do AI21 Labs.

invoke_model

import boto3 import json bedrock = session.client('bedrock-runtime', 'us-east-1') response = bedrock.invoke_model( modelId='ai21.jamba-instruct-v1:0', body=json.dumps({ 'messages': [ { 'role': 'user', 'content': 'which llm are you?' } ], }) ) print(json.dumps(json.loads(response['body']), indent=4))

conversam

import boto3 import json bedrock = session.client('bedrock-runtime', 'us-east-1') response = bedrock.converse( modelId='ai21.jamba-instruct-v1:0', messages=[ { 'role': 'user', 'content': [ { 'text': 'which llm are you?' } ] } ] ) print(json.dumps(json.loads(response['body']), indent=4))