Schema für Einschränkungen (Datei constraints.json)

Eine constraints.json-Datei wird verwendet, um die Einschränkungen auszudrücken, die ein Datensatz erfüllen muss. Amazon SageMaker Model Monitor-Container können die Datei constraints.json verwenden, um Datensätze anhand dieser Daten auszuwerten. Vorgefertigte Container bieten die Möglichkeit, die Datei constraints.json automatisch für einen Baseline-Datensatz zu generieren. Wenn Sie Ihren eigenen Container mit ähnlichen Fähigkeiten bereitstellen oder Sie können die Datei constraints.json auf andere Weise erstellen. Hier ist das Schema für die Einschränkungsdatei, die der vorgefertigte Container verwendet. Beim Bereitstellen eigener Container kann das gleiche Format übernommen oder bei Bedarf erweitert werden.


{
    "version": 0,
    "features":
    [
        {
            "name": "string",
            "inferred_type": "Integral" | "Fractional" | 
                    | "String" | "Unknown",
            "completeness": number,
            "num_constraints":
            {
                "is_non_negative": boolean
            },
            "string_constraints":
            {
                "domains":
                [
                    "list of",
                    "observed values",
                    "for small cardinality"
                ]
            },
            "monitoringConfigOverrides":
            {}
        }
    ],
    "monitoring_config":
    {
        "evaluate_constraints": "Enabled",
        "emit_metrics": "Enabled",
        "datatype_check_threshold": 0.1,
        "domain_content_threshold": 0.1,
        "distribution_constraints":
        {
            "perform_comparison": "Enabled",
            "comparison_threshold": 0.1,
            "comparison_method": "Simple"||"Robust",
            "categorical_comparison_threshold": 0.1,
            "categorical_drift_method": "LInfinity"||"ChiSquared"
        }
    }
}

Das monitoring_config Objekt enthält Optionen für die Überwachung des Auftrages für die Funktion. In der folgenden Tabelle werden die einzelnen Optionen beschrieben.

Überwachung von Beschränkungen

Constraint Beschreibung

Constraint	Beschreibung
`evaluate_constraints`	Wenn `Enabled`, wird ausgewertet, ob der zu analysierende aktuelle Datensatz die in der Datei constraints.json angegebenen Einschränkungen, die als Baseline dienen, erfüllt. Gültige Werte: `Enabled` oder `Disabled`. Standard: `Enabled`
`emit_metrics`	Wann`Enabled`, gibt CloudWatch Metriken für die in der Datei enthaltenen Daten aus. Gültige Werte: `Enabled` oder `Disabled`. Standard: `Enabled`
`datatype_check_threshold`	Wenn der Schwellenwert den Wert des angegebenen `datatype_check_threshold` überschreitet, verursacht dies einen Fehler, der im Bericht der Verstöße als Verstoß behandelt wird. Wenn die Datentypen in der aktuellen Ausführung nicht mit dem Baseline-Datensatz übereinstimmen, wird dieser Schwellenwert verwendet, um zu bewerten, ob er als Verletzung gekennzeichnet werden muss. Während des Basisschritts schlagen die generierten Einschränkungen den abgeleiteten Datentyp für jede Spalte vor. Der Parameter `datatype_check_threshold` kann aktiviert werden, sodass der Schwellenwert angepasst wird, wenn er als Verletzung gekennzeichnet wird. Gültige Werte: Gleitkommazahl Standard: 0.1
`domain_content_threshold`	Wenn für ein Zeichenfolgenfeld im aktuellen Datensatz mehr unbekannte Werte vorhanden sind als im Baseline-Datensatz, kann anhand dieses Schwellenwerts vorgeschrieben werden, wenn dies als Verletzung zu kennzeichnen ist. Gültige Werte: Gleitkommazahl Standard: 0.1
`distribution_constraints`	`perform_comparison` Wenn `Enabled`, weist dieses Kennzeichen den Code an, einen Verteilungsvergleich zwischen der Basisverteilung und der für den aktuellen Datensatz beobachteten Verteilung vorzunehmen. Gültige Werte: `Enabled` oder `Disabled`. Standard: `Enabled`
`comparison_threshold` Wenn der Schwellenwert den für `comparison_threshold` festgelegten Wert überschreitet, verursacht dies einen Fehler, der im Bericht der Verstöße als Verstoß behandelt wird. Die Entfernung wird anhand der maximalen absoluten Differenz zwischen den kumulativen Verteilungsfunktionen zweier Verteilungen berechnet. Gültige Werte: Gleitkommazahl Standard: 0.1
`comparison_method` Ob `linf_simple` oder `linf_robust` berechnet werden soll. `linf_simple` basiert auf der maximalen absoluten Differenz zwischen den kumulativen Verteilungsfunktionen zweier Verteilungen. Die Berechnung von `linf_robust` basiert auf `linf_simple`, wird aber verwendet, wenn nicht genügend Stichproben vorhanden sind. Die `linf_robust`-Formel basiert auf dem Kolmogorov-Smirnov-Test mit zwei Stichproben. Gültige Werte: `linf_simple` oder `linf_robust`.
`categorical_comparison_threshold` Optional. Legt einen Schwellenwert für kategoriale Merkmale fest. Wenn der Wert im Datensatz den von Ihnen festgelegten Schwellenwert überschreitet, wird ein Verstoß im Verstoßbericht aufgezeichnet. Gültige Werte: Gleitkommazahl Voreinstellung: Der dem `comparison_threshold` Parameter zugewiesene Wert
`categorical_drift_method` Optional. Gibt für kategoriale Features die Berechnungsmethode an, die zur Erkennung von Verteilungsabweichungen verwendet wird. Wenn Sie diesen Parameter nicht festlegen, wird der K-S (LInfinity) -Test verwendet. Gültige Werte: `LInfinity` oder `ChiSquared` Standard: `LInfinity`

evaluate_constraints

Wenn Enabled, wird ausgewertet, ob der zu analysierende aktuelle Datensatz die in der Datei constraints.json angegebenen Einschränkungen, die als Baseline dienen, erfüllt.

Gültige Werte: Enabled oder Disabled.

Standard: Enabled

emit_metrics

WannEnabled, gibt CloudWatch Metriken für die in der Datei enthaltenen Daten aus.

Gültige Werte: Enabled oder Disabled.

Standard: Enabled

datatype_check_threshold

Wenn der Schwellenwert den Wert des angegebenen datatype_check_threshold überschreitet, verursacht dies einen Fehler, der im Bericht der Verstöße als Verstoß behandelt wird. Wenn die Datentypen in der aktuellen Ausführung nicht mit dem Baseline-Datensatz übereinstimmen, wird dieser Schwellenwert verwendet, um zu bewerten, ob er als Verletzung gekennzeichnet werden muss.

Während des Basisschritts schlagen die generierten Einschränkungen den abgeleiteten Datentyp für jede Spalte vor. Der Parameter datatype_check_threshold kann aktiviert werden, sodass der Schwellenwert angepasst wird, wenn er als Verletzung gekennzeichnet wird.

Gültige Werte: Gleitkommazahl

Standard: 0.1

domain_content_threshold

Wenn für ein Zeichenfolgenfeld im aktuellen Datensatz mehr unbekannte Werte vorhanden sind als im Baseline-Datensatz, kann anhand dieses Schwellenwerts vorgeschrieben werden, wenn dies als Verletzung zu kennzeichnen ist.

Gültige Werte: Gleitkommazahl

Standard: 0.1

distribution_constraints

perform_comparison

Wenn Enabled, weist dieses Kennzeichen den Code an, einen Verteilungsvergleich zwischen der Basisverteilung und der für den aktuellen Datensatz beobachteten Verteilung vorzunehmen.

Gültige Werte: Enabled oder Disabled.

Standard: Enabled

comparison_threshold

Wenn der Schwellenwert den für comparison_threshold festgelegten Wert überschreitet, verursacht dies einen Fehler, der im Bericht der Verstöße als Verstoß behandelt wird. Die Entfernung wird anhand der maximalen absoluten Differenz zwischen den kumulativen Verteilungsfunktionen zweier Verteilungen berechnet.

Gültige Werte: Gleitkommazahl

Standard: 0.1

comparison_method

Ob linf_simple oder linf_robust berechnet werden soll. linf_simple basiert auf der maximalen absoluten Differenz zwischen den kumulativen Verteilungsfunktionen zweier Verteilungen. Die Berechnung von linf_robust basiert auf linf_simple, wird aber verwendet, wenn nicht genügend Stichproben vorhanden sind. Die linf_robust-Formel basiert auf dem Kolmogorov-Smirnov-Test mit zwei Stichproben.

Gültige Werte: linf_simple oder linf_robust.

categorical_comparison_threshold

Optional. Legt einen Schwellenwert für kategoriale Merkmale fest. Wenn der Wert im Datensatz den von Ihnen festgelegten Schwellenwert überschreitet, wird ein Verstoß im Verstoßbericht aufgezeichnet.

Gültige Werte: Gleitkommazahl

Voreinstellung: Der dem comparison_threshold Parameter zugewiesene Wert

categorical_drift_method

Optional. Gibt für kategoriale Features die Berechnungsmethode an, die zur Erkennung von Verteilungsabweichungen verwendet wird. Wenn Sie diesen Parameter nicht festlegen, wird der K-S (LInfinity) -Test verwendet.

Gültige Werte: LInfinity oder ChiSquared

Standard: LInfinity

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Statistiken

CloudWatch Metriken