Campos obrigatórios Parâmetros de inferência Campo do corpo da solicitação de invocação do modelo Campo do corpo da resposta de invocação do modelo Exemplo de código

AI21 LabsModelos Jamba-Instruct

Esta seção fornece parâmetros de inferência e um exemplo de código para o uso de AI21 Jamba-Instruct modelos.

Tópicos

Campos obrigatórios
Parâmetros de inferência
Campo do corpo da solicitação de invocação do modelo
Campo do corpo da resposta de invocação do modelo
Exemplo de código

Campos obrigatórios

O modelo Jamba-Instruct do AI21 Labs suporta os seguintes campos obrigatórios:

Mensagens (messages) — As mensagens anteriores neste chat, da mais antiga (índice 0) à mais recente. Deve ter pelo menos uma mensagem de usuário ou assistente na lista. Inclua as entradas do usuário e as respostas do sistema. O tamanho total máximo da lista é de cerca de 256 mil tokens. Cada mensagem inclui os seguintes membros:
Função (role) — A função do autor da mensagem. Um dos seguintes valores:
- Usuário (user) — Entrada fornecida pelo usuário. Quaisquer instruções fornecidas aqui que entrem em conflito com as instruções dadas no system prompt têm precedência sobre as instruções do system prompt.
- Assistente (assistant) — Resposta gerada pelo modelo.
- Sistema (system) — Instruções iniciais fornecidas ao sistema para fornecer orientação geral sobre o tom e a voz da mensagem gerada. Uma mensagem inicial do sistema é opcional, mas é recomendada para fornecer orientação sobre o tom do bate-papo. Por exemplo, “Você é um chatbot útil com formação em ciências da terra e um charmoso sotaque francês”.
Conteúdo (content) — O conteúdo da mensagem.

Parâmetros de inferência

O modelo Jamba-Instruct do AI21 Labs suporta os seguintes parâmetros de inferência.

Aleatoriedade e diversidade

O modelo Jamba-Instruct do AI21 Labs suporta os seguintes parâmetros para controlar a aleatoriedade e a diversidade na resposta.

Temperatura (temperature) — Quanta variação fornecer em cada resposta. Definir esse valor como 0 garante sempre a mesma resposta à mesma pergunta. Definir um valor mais alto incentiva mais variações. Modifica a distribuição da qual os tokens são amostrados. Padrão: 1,0, Intervalo: 0,0 — 2,0
Top P (top_p) — Limite o conjunto dos próximos tokens em cada etapa ao percentil N superior dos tokens possíveis, onde 1,0 significa o conjunto de todos os tokens possíveis e 0,01 significa o pool somente dos próximos tokens mais prováveis.

Length

O modelo Jamba Instruct do AI21 Labs suporta os seguintes parâmetros para controlar a duração da resposta gerada.

Comprimento máximo de conclusão (max_tokens) — O número máximo de tokens permitidos para cada mensagem de resposta gerada. Normalmente, a melhor maneira de limitar o tamanho da saída é fornecendo um limite de tamanho no prompt do sistema (por exemplo, “limite suas respostas a três frases”). Padrão: 4096, Intervalo: 0 — 4096.
Sequências de parada (stop) — Encerra a mensagem quando o modelo gera uma dessas sequências de caracteres. A sequência de parada não está incluída na mensagem gerada. Cada sequência pode ter até 64K de comprimento e conter novas linhas como caracteres\n.

Exemplos:
- Cadeia de parada única com uma palavra e um ponto final: “macacos”.
- Várias cadeias de caracteres de parada e uma nova linha: ["cat”, “dog”,” . “, “####”, "\n“]
Número de respostas (n) — Quantas respostas de bate-papo devem ser geradas. As notas n devem ser 1 para respostas de streaming. Se n for definido como maior que 1, a configuração temperature=0 sempre falhará porque é garantido que todas as respostas sejam duplicadas. Padrão: 1, Intervalo: 1 — 16

Repetições

Os modelos Jamba-Instruct do AI21 Labs suportam os seguintes parâmetros para controlar a repetição na resposta gerada.

Penalidade de frequência (frequency_penalty) — Reduza a frequência de palavras repetidas em uma única mensagem de resposta aumentando esse número. Essa penalidade aumenta gradualmente quanto mais vezes uma palavra aparece durante a geração da resposta. Definir como 2.0 produzirá uma string com poucas ou nenhuma palavra repetida.
Penalidade de presença (presence_penalty) — Reduza a frequência de palavras repetidas em uma única mensagem aumentando esse número. Ao contrário da penalidade de frequência, a penalidade de presença é a mesma, não importa quantas vezes uma palavra apareça.

Campo do corpo da solicitação de invocação do modelo

Ao fazer uma InvokeModelWithResponseStreamchamada InvokeModelou usando um AI21 Labs modelo, preencha o body campo com um objeto JSON que esteja em conformidade com o abaixo. Insira o prompt no campo prompt.


{
  "messages": [
    {
      "role":"system", // Non-printing contextual information for the model
      "content":"You are a helpful history teacher. You are kind and you respond with helpful content in a professional manner. Limit your answers to three sentences. Your listener is a high school student."
    },
    {
      "role":"user", // The question we want answered.
      "content":"Who was the first emperor of rome?"
    }
  ],
  "n":1 // Limit response to one answer
}

Campo do corpo da resposta de invocação do modelo

Para obter informações sobre o formato do body campo na resposta, consulte https://docs.ai21.com/reference/ jamba-instruct-api #response -details.

Exemplo de código

Este exemplo mostra como chamar o modelo Jamba-Instruct do AI21 Labs.

invoke_model


import boto3 
import json

bedrock = session.client('bedrock-runtime', 'us-east-1') 
response = bedrock.invoke_model( 
        modelId='ai21.jamba-instruct-v1:0', 
        body=json.dumps({
            'messages': [ 
                { 
                    'role': 'user', 
                    'content': 'which llm are you?' 
                } 
             ], 
         }) 
       ) 

print(json.dumps(json.loads(response['body']), indent=4))

conversam


import boto3 
import json

bedrock = session.client('bedrock-runtime', 'us-east-1')
response = bedrock.converse( 
    modelId='ai21.jamba-instruct-v1:0', 
    messages=[ 
        { 
            'role': 'user', 
            'content': [ 
                { 
                    'text': 'which llm are you?' 
                } 
             ] 
          } 
     ] 
  ) 

print(json.dumps(json.loads(response['body']), indent=4))

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

AI21 LabsJurassic-2modelos

Coheremodelos