Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Creazione di lavori di valutazione dei modelli
Gli esempi seguenti mostrano come creare un processo di valutazione del modello utilizzando la console Amazon Bedrock AWS CLI, SDK for Python
Processi di valutazione del modello automatica
Gli esempi seguenti mostrano come creare un processo di valutazione automatica del modello. Tutti i lavori di valutazione automatica del modello richiedono la creazione di un ruolo di servizio IAM. Per ulteriori informazioni sui requisiti IAM per l'impostazione di un processo di valutazione del modello, consultaRequisiti del ruolo di servizio per i processi di valutazione del modello.
- Amazon Bedrock console
-
Utilizza la seguente procedura per creare un processo di valutazione del modello utilizzando la console Amazon Bedrock. Per completare correttamente questa procedura, assicurati che il tuo utente, gruppo o ruolo IAM disponga delle autorizzazioni sufficienti per accedere alla console. Per ulteriori informazioni, consulta Autorizzazioni necessarie per creare un processo di valutazione del modello utilizzando la console Amazon Bedrock.
Inoltre, tutti i set di dati di prompt personalizzati che desideri specificare nel processo di valutazione del modello devono avere le autorizzazioni CORS richieste aggiunte al bucket Amazon S3. Per ulteriori informazioni sull'aggiunta delle autorizzazioni CORS richieste, consulta,. Autorizzazione Cross Origin Resource Sharing (CORS) richiesta per i bucket S3
Per creare un processo automatico di valutazione del modello
-
Apri la console Amazon Bedrock all'indirizzo https://console.aws.amazon.com/bedrock/
-
Nel riquadro di navigazione seleziona Valutazione del modello.
-
Nella sceda Sviluppa una valutazione, in Automatico scegli Crea una valutazione automatica.
-
Nella pagina Crea una valutazione automatica, fornisci le seguenti informazioni
-
Nome di valutazione: assegna al processo di valutazione del modello un nome che descriva il processo. Questo nome viene mostrato nell'elenco dei processi del modello di valutazione. Il nome deve essere unico Account AWS
nel tuo file Regione AWS.
-
Descrizione (facoltativa): fornisci una descrizione facoltativa.
-
Modelli: scegli il modello che desideri utilizzare nel processo di valutazione del modello.
Per ulteriori informazioni sui modelli disponibili e su come accedervi in Amazon Bedrock, consultaGestisci l'accesso ai modelli Amazon Bedrock Foundation.
-
(Facoltativo) Per modificare la configurazione dell'inferenza, scegli Aggiorna.
La modifica della configurazione di inferenza modifica le risposte generate dal modello selezionato. Per ulteriori informazioni sui parametri di inferenza disponibili, consulta Parametri di inferenza per modelli di fondazione.
-
Tipo di attività: scegli il tipo di attività che desideri che il modello tenti di eseguire durante il processo di valutazione del modello.
-
Metriche e set di dati: l'elenco delle metriche disponibili e dei set di dati dei prompt integrati cambia in base all'attività selezionata. Puoi scegliere dall'elenco Set di dati integrati disponibili oppure puoi scegliere Usa il tuo set di dati dei prompt. Se scegli di utilizzare il tuo set di dati di prompt, inserisci l'esatto URI S3 del file del set di dati del prompt o scegli Browse S3 per cercare il tuo set di dati di prompt.
-
>Risultati della valutazione: specifica l'URI S3 della directory in cui desideri salvare i risultati. Scegli Browse S3 per cercare una posizione in Amazon S3.
-
(Facoltativo) Per abilitare l'uso di una chiave gestita dal cliente, scegli Personalizza le impostazioni di crittografia (avanzate). Quindi, fornisci l'ARN della AWS KMS chiave che desideri utilizzare.
-
Ruolo IAM di Amazon Bedrock: scegli Usa un ruolo esistente per utilizzare il ruolo di servizio IAM che dispone già delle autorizzazioni richieste oppure scegli Crea un nuovo ruolo per creare un nuovo ruolo di servizio IAM,
-
Quindi scegli Create (Crea).
Una volta iniziato il lavoro, lo stato cambia. Una volta che lo stato cambia, puoi visualizzare la pagella del lavoro.
- SDK for Python
-
Procedura
import boto3
client = boto3.client('bedrock')
job_request = client.create_evaluation_job(
jobName="api-auto-job-titan
",
jobDescription="two different task types",
roleArn="arn:aws:iam::111122223333
:role/role-name
",
inferenceConfig={
"models": [
{
"bedrockModel": {
"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
"inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}"
}
}
]
},
outputDataConfig={
"s3Uri":"s3://model-evaluations/outputs/
"
},
evaluationConfig={
"automated": {
"datasetMetricConfigs": [
{
"taskType": "QuestionAndAnswer",
"dataset": {
"name": "Builtin.BoolQ"
},
"metricNames": [
"Builtin.Accuracy",
"Builtin.Robustness"
]
}
]
}
}
)
print(job_request)
- AWS CLI
-
In AWS CLI, è possibile utilizzare il help
comando per vedere quali parametri sono obbligatori e quali parametri sono facoltativi quando si specifica create-evaluation-job
in. AWS CLI
aws bedrock create-evaluation-job help
aws bedrock create-evaluation-job \
--job-name 'automatic-eval-job-cli-001
\
--role-arn 'arn:aws:iam::111122223333
:role/role-name
' \
--evaluation-config '{"automated": {"datasetMetricConfigs": [{"taskType": "QuestionAndAnswer","dataset": {"name": "Builtin.BoolQ"},"metricNames": ["Builtin.Accuracy","Builtin.Robustness"]}]}}' \
--inference-config '{"models": [{"bedrockModel": {"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1","inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}"}}]}' \
--output-data-config '{"s3Uri":"s3://automatic-eval-jobs/outputs
"}'
Lavori di valutazione di modelli basati sull'uomo
Quando crei un processo di valutazione del modello basato sull'uomo al di fuori della console Amazon Bedrock, devi creare un ARN di definizione SageMaker del flusso Amazon.
L'ARN di definizione del flusso è il luogo in cui viene definito il flusso di lavoro di un processo di valutazione del modello. La definizione del flusso viene utilizzata per definire l'interfaccia di lavoro e il team di lavoro da assegnare all'attività e per la connessione ad Amazon Bedrock.
Per i lavori di valutazione del modello avviati in Amazon Bedrock, devi creare l'ARN di definizione del flusso utilizzando o un AWS CLI AWS SDK supportato. Per saperne di più sul funzionamento delle definizioni di flusso e sulla loro creazione a livello di codice, consulta Create a Human Review Workflow (API) nella Developer Guide. SageMaker
Nella è CreateFlowDefinition
necessario specificare AWS/Bedrock/Evaluation
come input per.
AwsManagedHumanLoopRequestSource
Il ruolo del servizio Amazon Bedrock deve inoltre disporre delle autorizzazioni per accedere al bucket di output della definizione del flusso.
Di seguito è riportato un esempio di richiesta utilizzando l' AWS CLI. Nella richiesta, HumanTaskUiArn
è un ARN SageMaker di proprietà. Nell'ARN, è possibile modificare solo il. Regione AWS
aws sagemaker create-flow-definition --cli-input-json '
{
"FlowDefinitionName": "human-evaluation-task01
",
"HumanLoopRequestSource": {
"AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation
"
},
"HumanLoopConfig": {
"WorkteamArn": "arn:aws:sagemaker:Regione AWS
:111122223333:workteam/private-crowd/my-workteam
",
"HumanTaskUiArn": "arn:aws:sagemaker:Regione AWS
:394669845002:human-task-ui/Evaluation"
"TaskTitle": "Human review tasks",
"TaskDescription": "Provide a real good answer",
"TaskCount": 1,
"TaskAvailabilityLifetimeInSeconds": 864000,
"TaskTimeLimitInSeconds": 3600,
"TaskKeywords": [
"foo"
]
},
"OutputConfig": {
"S3OutputPath": "s3://your-output-bucket
"
},
"RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn"
}'
Una volta creato l'ARN di definizione del flusso, è possibile utilizzare i seguenti esempi per creare un processo di valutazione modello che utilizza lavoratori umani.
- Amazon Bedrock console
-
Utilizza la seguente procedura per creare un processo di valutazione del modello utilizzando la console Amazon Bedrock. Per completare correttamente questa procedura, assicurati che il tuo utente, gruppo o ruolo IAM disponga delle autorizzazioni sufficienti per accedere alla console. Per ulteriori informazioni, consulta Autorizzazioni necessarie per creare un processo di valutazione del modello utilizzando la console Amazon Bedrock.
Inoltre, tutti i set di dati di prompt personalizzati che desideri specificare nel processo di valutazione del modello devono avere le autorizzazioni CORS richieste aggiunte al bucket Amazon S3. Per ulteriori informazioni sull'aggiunta delle autorizzazioni CORS richieste, consulta,. Autorizzazione Cross Origin Resource Sharing (CORS) richiesta per i bucket S3
Per creare un lavoro di valutazione modello che utilizzi lavoratori umani
-
Apri la console Amazon Bedrock all'indirizzo https://console.aws.amazon.com/bedrock/
-
Nel riquadro di navigazione seleziona Valutazione del modello.
-
Nella sceda Sviluppa una valutazione, in Automatico scegli Crea una valutazione automatica.
-
Nella pagina Crea una valutazione automatica, fornisci le seguenti informazioni
-
Nome di valutazione: assegna al processo di valutazione del modello un nome che descriva il processo. Questo nome viene mostrato nell'elenco dei processi del modello di valutazione. Il nome deve essere unico Account AWS
in un Regione AWS.
-
Descrizione (facoltativa): fornisci una descrizione facoltativa.
-
Modelli: scegli il modello che desideri utilizzare nel processo di valutazione del modello.
Per ulteriori informazioni sui modelli disponibili e su come accedervi in Amazon Bedrock, consultaGestisci l'accesso ai modelli Amazon Bedrock Foundation.
-
(Facoltativo) Per modificare la configurazione dell'inferenza, scegli Aggiorna.
La modifica della configurazione di inferenza modifica le risposte generate dal modello selezionato. Per ulteriori informazioni sui parametri di inferenza disponibili, consulta Parametri di inferenza per modelli di fondazione.
-
Tipo di attività: scegli il tipo di attività che desideri che il modello tenti di eseguire durante il processo di valutazione del modello.
-
Metriche e set di dati: l'elenco delle metriche disponibili e dei set di dati dei prompt integrati cambia in base all'attività selezionata. Puoi scegliere dall'elenco Set di dati integrati disponibili oppure puoi scegliere Usa il tuo set di dati dei prompt. Se scegli di utilizzare il tuo set di dati di prompt, inserisci l'esatto URI S3 del file del set di dati del prompt o scegli Browse S3 per cercare il tuo set di dati di prompt.
-
Risultati della valutazione: specifica l'URI S3 della directory in cui desideri salvare i risultati del processo di valutazione del modello. Scegli Browse S3 per cercare una posizione in Amazon S3.
-
(Facoltativo) Per abilitare l'uso di una chiave gestita dal cliente, scegli Personalizza le impostazioni di crittografia (avanzate). Quindi, fornisci l'ARN della AWS KMS chiave che desideri utilizzare.
-
Ruolo IAM di Amazon Bedrock: scegli Usa un ruolo esistente per utilizzare un ruolo IAMService che dispone già delle autorizzazioni richieste oppure scegli Crea un nuovo ruolo per creare un nuovo ruolo di servizio IAM,
-
Quindi scegli Create (Crea).
Una volta che il lavoro è iniziato, lo stato cambia in corso. Una volta che lo stato cambia, puoi visualizzare la pagella del lavoro.
- SDK for Python
-
Procedura
import boto3
client = boto3.client('bedrock')
job_request = client.create_evaluation_job(
jobName="111122223333-job-01
",
jobDescription="two different task types",
roleArn="arn:aws:iam::111122223333
:role/example-human-eval-api-role",
inferenceConfig={
## You must specify and array of models
"models": [
{
"bedrockModel": {
"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
"inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}"
}
},
{
"bedrockModel": {
"modelIdentifier": "anthropic.claude-v2",
"inferenceParams": "{\"temperature\":\"0.25\",\"top_p\":\"0.25\",\"max_tokens_to_sample\":\"256\",\"top_k\":\"1\"}"
}
}
]
},
outputDataConfig={
"s3Uri":"s3://job-bucket
/outputs/"
},
evaluationConfig={
"human": {
"humanWorkflowConfig": {
"flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333
:flow-definition/example-workflow-arn",
"instructions": "some human eval instruction"
},
"customMetrics": [
{
"name": "IndividualLikertScale",
"description": "testing",
"ratingMethod": "IndividualLikertScale"
}
],
"datasetMetricConfigs": [
{
"taskType": "Summarization",
"dataset": {
"name": "Custom_Dataset1",
"datasetLocation": {
"s3Uri": "s3://job-bucket
/custom-datasets/custom-trex.jsonl"
}
},
"metricNames": [
"IndividualLikertScale"
]
}
]
}
}
)
print(job_request)