Processi di valutazione del modello automatica Lavori di valutazione di modelli basati sull'uomo

Creazione di lavori di valutazione dei modelli

Gli esempi seguenti mostrano come creare un processo di valutazione del modello utilizzando la console Amazon Bedrock AWS CLI, SDK for Python

Processi di valutazione del modello automatica

Gli esempi seguenti mostrano come creare un processo di valutazione automatica del modello. Tutti i lavori di valutazione automatica del modello richiedono la creazione di un ruolo di servizio IAM. Per ulteriori informazioni sui requisiti IAM per l'impostazione di un processo di valutazione del modello, consultaRequisiti del ruolo di servizio per i processi di valutazione del modello.

Amazon Bedrock console

Utilizza la seguente procedura per creare un processo di valutazione del modello utilizzando la console Amazon Bedrock. Per completare correttamente questa procedura, assicurati che il tuo utente, gruppo o ruolo IAM disponga delle autorizzazioni sufficienti per accedere alla console. Per ulteriori informazioni, consulta Autorizzazioni necessarie per creare un processo di valutazione del modello utilizzando la console Amazon Bedrock.

Inoltre, tutti i set di dati di prompt personalizzati che desideri specificare nel processo di valutazione del modello devono avere le autorizzazioni CORS richieste aggiunte al bucket Amazon S3. Per ulteriori informazioni sull'aggiunta delle autorizzazioni CORS richieste, consulta,. Autorizzazione Cross Origin Resource Sharing (CORS) richiesta per i bucket S3

Per creare un processo automatico di valutazione del modello

Apri la console Amazon Bedrock all'indirizzo https://console.aws.amazon.com/bedrock/
Nel riquadro di navigazione seleziona Valutazione del modello.
Nella sceda Sviluppa una valutazione, in Automatico scegli Crea una valutazione automatica.
Nella pagina Crea una valutazione automatica, fornisci le seguenti informazioni
1. Nome di valutazione: assegna al processo di valutazione del modello un nome che descriva il processo. Questo nome viene mostrato nell'elenco dei processi del modello di valutazione. Il nome deve essere unico Account AWS nel tuo file Regione AWS.
2. Descrizione (facoltativa): fornisci una descrizione facoltativa.
3. Modelli: scegli il modello che desideri utilizzare nel processo di valutazione del modello.
  
  Per ulteriori informazioni sui modelli disponibili e su come accedervi in Amazon Bedrock, consultaGestisci l'accesso ai modelli Amazon Bedrock Foundation.
4. (Facoltativo) Per modificare la configurazione dell'inferenza, scegli Aggiorna.
  
  La modifica della configurazione di inferenza modifica le risposte generate dal modello selezionato. Per ulteriori informazioni sui parametri di inferenza disponibili, consulta Parametri di inferenza per modelli di fondazione.
5. Tipo di attività: scegli il tipo di attività che desideri che il modello tenti di eseguire durante il processo di valutazione del modello.
6. Metriche e set di dati: l'elenco delle metriche disponibili e dei set di dati dei prompt integrati cambia in base all'attività selezionata. Puoi scegliere dall'elenco Set di dati integrati disponibili oppure puoi scegliere Usa il tuo set di dati dei prompt. Se scegli di utilizzare il tuo set di dati di prompt, inserisci l'esatto URI S3 del file del set di dati del prompt o scegli Browse S3 per cercare il tuo set di dati di prompt.
7. >Risultati della valutazione: specifica l'URI S3 della directory in cui desideri salvare i risultati. Scegli Browse S3 per cercare una posizione in Amazon S3.
8. (Facoltativo) Per abilitare l'uso di una chiave gestita dal cliente, scegli Personalizza le impostazioni di crittografia (avanzate). Quindi, fornisci l'ARN della AWS KMS chiave che desideri utilizzare.
9. Ruolo IAM di Amazon Bedrock: scegli Usa un ruolo esistente per utilizzare il ruolo di servizio IAM che dispone già delle autorizzazioni richieste oppure scegli Crea un nuovo ruolo per creare un nuovo ruolo di servizio IAM,
Quindi scegli Create (Crea).

Una volta iniziato il lavoro, lo stato cambia. Una volta che lo stato cambia, puoi visualizzare la pagella del lavoro.

SDK for Python

Procedura


import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="api-auto-job-titan",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/role-name",
    inferenceConfig={
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}"
                }

            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "QuestionAndAnswer",
                    "dataset": {
                        "name": "Builtin.BoolQ"
                    },
                    "metricNames": [
                        "Builtin.Accuracy",
                        "Builtin.Robustness"
                    ]
                }
            ]
        }
    }
)

print(job_request)

AWS CLI

In AWS CLI, è possibile utilizzare il help comando per vedere quali parametri sono obbligatori e quali parametri sono facoltativi quando si specifica create-evaluation-job in. AWS CLI


aws bedrock create-evaluation-job help


aws bedrock create-evaluation-job \
--job-name 'automatic-eval-job-cli-001 \
--role-arn 'arn:aws:iam::111122223333:role/role-name' \
--evaluation-config '{"automated": {"datasetMetricConfigs": [{"taskType": "QuestionAndAnswer","dataset": {"name": "Builtin.BoolQ"},"metricNames": ["Builtin.Accuracy","Builtin.Robustness"]}]}}' \
--inference-config '{"models": [{"bedrockModel": {"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1","inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}"}}]}' \
--output-data-config '{"s3Uri":"s3://automatic-eval-jobs/outputs"}'

Lavori di valutazione di modelli basati sull'uomo

Quando crei un processo di valutazione del modello basato sull'uomo al di fuori della console Amazon Bedrock, devi creare un ARN di definizione SageMaker del flusso Amazon.

L'ARN di definizione del flusso è il luogo in cui viene definito il flusso di lavoro di un processo di valutazione del modello. La definizione del flusso viene utilizzata per definire l'interfaccia di lavoro e il team di lavoro da assegnare all'attività e per la connessione ad Amazon Bedrock.

Per i lavori di valutazione del modello avviati in Amazon Bedrock, devi creare l'ARN di definizione del flusso utilizzando o un AWS CLI AWS SDK supportato. Per saperne di più sul funzionamento delle definizioni di flusso e sulla loro creazione a livello di codice, consulta Create a Human Review Workflow (API) nella Developer Guide. SageMaker

Nella è CreateFlowDefinitionnecessario specificare AWS/Bedrock/Evaluation come input per. AwsManagedHumanLoopRequestSource Il ruolo del servizio Amazon Bedrock deve inoltre disporre delle autorizzazioni per accedere al bucket di output della definizione del flusso.

Di seguito è riportato un esempio di richiesta utilizzando l' AWS CLI. Nella richiesta, HumanTaskUiArn è un ARN SageMaker di proprietà. Nell'ARN, è possibile modificare solo il. Regione AWS


aws sagemaker create-flow-definition --cli-input-json '
  {
    "FlowDefinitionName": "human-evaluation-task01",
    "HumanLoopRequestSource": {
        "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation"
    },

    "HumanLoopConfig": {
		"WorkteamArn": "arn:aws:sagemaker:Regione AWS:111122223333:workteam/private-crowd/my-workteam",
		"HumanTaskUiArn": "arn:aws:sagemaker:Regione AWS:394669845002:human-task-ui/Evaluation"
        "TaskTitle": "Human review tasks",
        "TaskDescription": "Provide a real good answer",
        "TaskCount": 1,
        "TaskAvailabilityLifetimeInSeconds": 864000,
        "TaskTimeLimitInSeconds": 3600,
        "TaskKeywords": [
            "foo"
        ]
    },
    "OutputConfig": {
        "S3OutputPath": "s3://your-output-bucket"
    },
    "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn"
}'

Una volta creato l'ARN di definizione del flusso, è possibile utilizzare i seguenti esempi per creare un processo di valutazione modello che utilizza lavoratori umani.

Amazon Bedrock console

Per creare un lavoro di valutazione modello che utilizzi lavoratori umani

Apri la console Amazon Bedrock all'indirizzo https://console.aws.amazon.com/bedrock/
Nel riquadro di navigazione seleziona Valutazione del modello.
Nella sceda Sviluppa una valutazione, in Automatico scegli Crea una valutazione automatica.
Nella pagina Crea una valutazione automatica, fornisci le seguenti informazioni
1. Nome di valutazione: assegna al processo di valutazione del modello un nome che descriva il processo. Questo nome viene mostrato nell'elenco dei processi del modello di valutazione. Il nome deve essere unico Account AWS in un Regione AWS.
2. Descrizione (facoltativa): fornisci una descrizione facoltativa.
3. Modelli: scegli il modello che desideri utilizzare nel processo di valutazione del modello.
  
  Per ulteriori informazioni sui modelli disponibili e su come accedervi in Amazon Bedrock, consultaGestisci l'accesso ai modelli Amazon Bedrock Foundation.
4. (Facoltativo) Per modificare la configurazione dell'inferenza, scegli Aggiorna.
  
  La modifica della configurazione di inferenza modifica le risposte generate dal modello selezionato. Per ulteriori informazioni sui parametri di inferenza disponibili, consulta Parametri di inferenza per modelli di fondazione.
5. Tipo di attività: scegli il tipo di attività che desideri che il modello tenti di eseguire durante il processo di valutazione del modello.
6. Metriche e set di dati: l'elenco delle metriche disponibili e dei set di dati dei prompt integrati cambia in base all'attività selezionata. Puoi scegliere dall'elenco Set di dati integrati disponibili oppure puoi scegliere Usa il tuo set di dati dei prompt. Se scegli di utilizzare il tuo set di dati di prompt, inserisci l'esatto URI S3 del file del set di dati del prompt o scegli Browse S3 per cercare il tuo set di dati di prompt.
7. Risultati della valutazione: specifica l'URI S3 della directory in cui desideri salvare i risultati del processo di valutazione del modello. Scegli Browse S3 per cercare una posizione in Amazon S3.
8. (Facoltativo) Per abilitare l'uso di una chiave gestita dal cliente, scegli Personalizza le impostazioni di crittografia (avanzate). Quindi, fornisci l'ARN della AWS KMS chiave che desideri utilizzare.
9. Ruolo IAM di Amazon Bedrock: scegli Usa un ruolo esistente per utilizzare un ruolo IAMService che dispone già delle autorizzazioni richieste oppure scegli Crea un nuovo ruolo per creare un nuovo ruolo di servizio IAM,
Quindi scegli Create (Crea).

Una volta che il lavoro è iniziato, lo stato cambia in corso. Una volta che lo stato cambia, puoi visualizzare la pagella del lavoro.

SDK for Python

Procedura


import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="111122223333-job-01",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/example-human-eval-api-role",
    inferenceConfig={
        ## You must specify and array of models
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}"
                }

            },
            {
                "bedrockModel": {
                    "modelIdentifier": "anthropic.claude-v2",
                    "inferenceParams": "{\"temperature\":\"0.25\",\"top_p\":\"0.25\",\"max_tokens_to_sample\":\"256\",\"top_k\":\"1\"}"
                }
            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://job-bucket/outputs/"
    },
    evaluationConfig={
        "human": {
        "humanWorkflowConfig": {
            "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/example-workflow-arn",
            "instructions": "some human eval instruction"
        },
        "customMetrics": [
            {
                "name": "IndividualLikertScale",
                "description": "testing",
                "ratingMethod": "IndividualLikertScale"
            }
        ],
        "datasetMetricConfigs": [
            {
                "taskType": "Summarization",
                "dataset": {
                    "name": "Custom_Dataset1",
                    "datasetLocation": {
                        "s3Uri": "s3://job-bucket/custom-datasets/custom-trex.jsonl"
                    }
                },
                "metricNames": [
                  "IndividualLikertScale"
                ]
            }
        ]
      }

    }
)

print(job_request)

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzo dei processi

Interruzione di un processo di valutazione del modello