Esquema para restrições (arquivo constraints.json) - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Esquema para restrições (arquivo constraints.json)

Um arquivo constraints.json é usado para expressar as restrições que um conjunto de dados deve satisfazer. Os contêineres SageMaker do Amazon Model Monitor podem usar o arquivo constraints.json para avaliar os conjuntos de dados. Os contêineres pré-criados fornecem a capacidade de gerar o arquivo constraints.json automaticamente para um conjunto de dados da linha de base. Se você trouxer seu próprio contêiner, será possível fornecê-lo com habilidades semelhantes ou você poderá criar o arquivo constraints.json de alguma outra maneira. Veja a seguir o esquema para o arquivo de restrição que o contêiner pré-criado usa. Ao trazer seus próprios contêineres, é possível adotar o mesmo formato ou melhorá-lo conforme necessário.

{ "version": 0, "features": [ { "name": "string", "inferred_type": "Integral" | "Fractional" | | "String" | "Unknown", "completeness": number, "num_constraints": { "is_non_negative": boolean }, "string_constraints": { "domains": [ "list of", "observed values", "for small cardinality" ] }, "monitoringConfigOverrides": {} } ], "monitoring_config": { "evaluate_constraints": "Enabled", "emit_metrics": "Enabled", "datatype_check_threshold": 0.1, "domain_content_threshold": 0.1, "distribution_constraints": { "perform_comparison": "Enabled", "comparison_threshold": 0.1, "comparison_method": "Simple"||"Robust", "categorical_comparison_threshold": 0.1, "categorical_drift_method": "LInfinity"||"ChiSquared" } } }

O objeto monitoring_config contém opções para o trabalho de monitoramento do recurso. A tabela a seguir descreve cada opção.

Monitoramento de restrições
Restrição Descrição
evaluate_constraints

Quando é Enabled, avalia se o conjunto de dados que está sendo analisado satisfaz as restrições especificadas no arquivo constraints.json tomado como uma linha de base.

Valores válidos: Enabled ou Disabled

Padrão: Enabled

emit_metrics

QuandoEnabled, emite CloudWatch métricas para os dados contidos no arquivo.

Valores válidos: Enabled ou Disabled

Padrão: Enabled

datatype_check_threshold

Se o limite estiver acima do valor do especificado datatype_check_threshold, isso causará uma falha que é tratada como uma violação no relatório de violações. Se os tipos de dados na execução atual não forem os mesmos que no conjunto de dados da linha de base, esse limite será usado para avaliar se ele precisa ser sinalizado como uma violação.

Durante a etapa da linha de base, as restrições geradas sugerem o tipo de dados inferidos para cada coluna. O parâmetro datatype_check_threshold pode ser regulado para ajustar o limite quando for sinalizado como uma violação.

Valores válidos: flutuante

Padrão: 0.1

domain_content_threshold

Se houver mais valores desconhecidos para um campo String no conjunto de dados atual do que no conjunto de dados da linha de base, esse limite poderá ser usado para ditar se ele precisa ser sinalizado como uma violação.

Valores válidos: flutuante

Padrão: 0.1

distribution_constraints perform_comparison

Quando Enabled, esse sinalizador instrui o código a executar uma comparação de distribuição entre a distribuição da linha de base e a distribuição observada para o conjunto de dados atual.

Valores válidos: Enabled ou Disabled

Padrão: Enabled

comparison_threshold

Se o limite estiver acima do valor definido para o comparison_threshold, isso causará uma falha que é tratada como uma violação no relatório de violações. A distância é calculada obtendo a diferença absoluta máxima entre as funções de distribuição cumulativa de duas distribuições.

Valores válidos: flutuante

Padrão: 0.1

comparison_method

Se calcular linf_simple ou linf_robust. O linf_simple é baseado na diferença absoluta máxima entre as funções de distribuição cumulativa de duas distribuições. O cálculo de linf_robust é baseado em linf_simple, mas é usado quando não há amostras suficientes. A fórmula de linf_robust é baseada no teste de duas amostras de Kolmogorov-Smirnov.

Valores válidos: linf_simple ou linf_robust

categorical_comparison_threshold

Opcional. Define um limite para recursos categóricos. Se o valor no conjunto de dados exceder o limite definido, uma violação será registrada no relatório de violação.

Valores válidos: flutuante

Padrão: valor atribuído ao parâmetro comparison_threshold

categorical_drift_method

Opcional. Para recursos categóricos, especifica o método de cálculo usado para detectar o desvio de distribuição. Se você não definir esse parâmetro, o teste K-S (LInfinity) será usado.

Valores válidos: LInfinity ou ChiSquared

Padrão: LInfinity