As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Esta seção descreve os parâmetros de solicitação e os campos de resposta para Meta Llama modelos. Use essas informações para fazer chamadas de inferência para Meta Llama modelos com as operações InvokeModele InvokeModelWithResponseStream(streaming). Esta seção também inclui Python exemplos de código que mostram como chamar Meta Llama modelos. Para usar um modelo em uma operação de inferência, o ID do modelo é necessário. Para obter o ID do modelo, consulte Modelos de base compatíveis no Amazon Bedrock. Alguns modelos também funcionam com o Converse API. Para verificar se o Converse APIsuporta um específico Meta Llama modelo, vejaModelos compatíveis e recursos do modelo. Para obter mais exemplos de código, consulte Exemplos de código para o Amazon Bedrock usando AWS SDKs.
Os modelos de base no Amazon Bedrock são compatíveis com as modalidades de entrada e saída, que variam de modelo para modelo. Para verificar as modalidades que Meta Llama suporte de modelos, consulteModelos de base compatíveis no Amazon Bedrock. Para verificar qual Amazon Bedrock apresenta o Meta Llama suporte de modelos, consulteModelos de base compatíveis no Amazon Bedrock. Para verificar quais AWS regiões que Meta Llama os modelos estão disponíveis em, consulteModelos de base compatíveis no Amazon Bedrock.
Quando você faz chamadas de inferência com Meta Llama modelos, você inclui uma solicitação para o modelo. Para obter informações gerais sobre como criar prompts para os modelos compatíveis com o Amazon Bedrock, consulte Conceitos de engenharia de prompts. Para Meta Llama informações imediatas específicas, consulte o Meta Llama guia de engenharia rápido
nota
Llama 3.2 Instruct and Llama 3.3 Instruct os modelos usam geofencing. Isso significa que esses modelos não podem ser usados fora das AWS regiões disponíveis para esses modelos listados na tabela Regiões.
Esta seção fornece informações para usar os seguintes modelos da Meta.
Llama 3 Instruct
Llama 3.1 Instruct
Llama 3.2 Instruct
Llama 3.3 Instruct
Solicitação e reposta
O corpo da solicitação é passado no body
campo de uma solicitação para InvokeModelou InvokeModelWithResponseStream.
Llama 2 Chat, Llama 2, Llama 3 Instruct, Llama 3.1 Instruct e Llama 3.2 Instruct os modelos têm os seguintes parâmetros de inferência.
{
"prompt": string,
"temperature": float,
"top_p": float,
"max_gen_len": int
}
NOTE: Os modelos Llama 3.2 são adicionados images
à estrutura da solicitação, que é uma lista de strings. Example: images: Optional[List[str]]
Veja a seguir os parâmetros necessários.
-
prompt: (obrigatório) o prompt que você deseja passar para o modelo. With Llama 2 Chat, formate a conversa com o modelo a seguir.
<|begin_of_text|><|start_header_id|>system<|end_header_id|> You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|> What can you help me with?<|eot_id|><|start_header_id|>assistant<|end_header_id|>
As instruções entre os tokens
<<SYS>>
fornecem um prompt do sistema ao modelo. Veja a seguir um exemplo de prompt que inclui um prompt do sistema.<s>[INST] <<SYS>> You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information. <</SYS>> There's a llama in my garden What should I do? [/INST]
Para obter mais informações, consulte.
Veja a seguir os parâmetros opcionais.
-
temperature: use um valor menor para reduzir a aleatoriedade na resposta.
Padrão Mínimo Máximo 0,5
0
1
-
top_p: use um valor menor para ignorar opções menos prováveis. Defina como 0 ou 1,0 para desabilitar.
Padrão Mínimo Máximo 0.9
0
1
-
max_gen_len: especifique o número máximo de tokens a serem usados na resposta gerada. O modelo trunca a resposta quando o texto gerado excede
max_gen_len
.Padrão Mínimo Máximo 512
1
2048
Código de exemplo
Este exemplo mostra como chamar o Meta Llama 2 Chat Modelo 13B.
# Copyright Amazon.com, Inc. or its affiliates. All Rights Reserved.
# SPDX-License-Identifier: Apache-2.0
"""
Shows how to generate text with Meta Llama 2 Chat (on demand).
"""
import json
import logging
import boto3
from botocore.exceptions import ClientError
logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)
def generate_text(model_id, body):
"""
Generate an image using Meta Llama 2 Chat on demand.
Args:
model_id (str): The model ID to use.
body (str) : The request body to use.
Returns:
response (JSON): The text that the model generated, token information, and the
reason the model stopped generating text.
"""
logger.info("Generating image with Meta Llama 2 Chat model %s", model_id)
bedrock = boto3.client(service_name='bedrock-runtime')
response = bedrock.invoke_model(
body=body, modelId=model_id)
response_body = json.loads(response.get('body').read())
return response_body
def main():
"""
Entrypoint for Meta Llama 2 Chat example.
"""
logging.basicConfig(level=logging.INFO,
format="%(levelname)s: %(message)s")
model_id = "meta.llama2-13b-chat-v1"
prompt = """<s>[INST] <<SYS>>
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.
If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
<</SYS>>
There's a llama in my garden What should I do? [/INST]"""
max_gen_len = 128
temperature = 0.1
top_p = 0.9
# Create request body.
body = json.dumps({
"prompt": prompt,
"max_gen_len": max_gen_len,
"temperature": temperature,
"top_p": top_p
})
try:
response = generate_text(model_id, body)
print(f"Generated Text: {response['generation']}")
print(f"Prompt Token count: {response['prompt_token_count']}")
print(f"Generation Token count: {response['generation_token_count']}")
print(f"Stop reason: {response['stop_reason']}")
except ClientError as err:
message = err.response["Error"]["Message"]
logger.error("A client error occurred: %s", message)
print("A client error occured: " +
format(message))
else:
print(
f"Finished generating text with Meta Llama 2 Chat model {model_id}.")
if __name__ == "__main__":
main()