Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Für PDF Anmerkungen verwenden Sie SageMaker AI Ground Truth, um einen beschrifteten Datensatz in einer erweiterten Manifestdatei zu erstellen. Ground Truth ist ein Datenkennzeichnungsdienst, der Ihnen (oder einer von Ihnen beschäftigten Belegschaft) hilft, Trainingsdatensätze für Modelle des maschinellen Lernens zu erstellen. Amazon Comprehend akzeptiert erweiterte Manifestdateien als Trainingsdaten für benutzerdefinierte Modelle. Sie können diese Dateien bereitstellen, wenn Sie mithilfe der Amazon Comprehend Comprehend-Konsole oder der Aktion einen benutzerdefinierten Entity Recognizer erstellen. CreateEntityRecognizerAPI
Sie können den integrierten Aufgabentyp von Ground Truth, Named Entity Recognition, verwenden, um einen Label-Job zu erstellen, bei dem Mitarbeiter Entitäten im Text identifizieren können. Weitere Informationen finden Sie unter Named Entity Recognition im Amazon SageMaker AI Developer Guide. Weitere Informationen zu Amazon SageMaker Ground Truth finden Sie unter Verwenden von Amazon SageMaker AI Ground Truth zur Kennzeichnung von Daten.
Anmerkung
Mit Ground Truth können Sie überlappende Beschriftungen definieren (Text, den Sie mit mehr als einem Label verknüpfen). Amazon Comprehend Entity Recognition unterstützt jedoch keine überlappenden Bezeichnungen.
Erweiterte Manifestdateien haben das Zeilenformat. JSON In diesen Dateien ist jede Zeile ein vollständiges JSON Objekt, das ein Schulungsdokument und die zugehörigen Beschriftungen enthält. Das folgende Beispiel zeigt eine erweiterte Manifestdatei, die einen Entitätskenner darin trainiert, die Berufe von Personen zu erkennen, die im Text erwähnt werden:
{"source":"Diego Ramirez is an engineer in the high tech industry.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":13,"startOffset":0,"label":"ENGINEER"}],"labels":[{"label":"ENGINEER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.92}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.175903","human-annotated":"yes"}}
{"source":"J Doe is a judge on the Washington Supreme Court.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":5,"startOffset":0,"label":"JUDGE"}],"labels":[{"label":"JUDGE"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.72}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174910","human-annotated":"yes"}}
{"source":"Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":38,"startOffset":26,"label":"MANAGER"}],"labels":[{"label":"MANAGER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.91}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174035","human-annotated":"yes"}}
Jede Zeile in dieser JSON Zeilendatei ist ein vollständiges JSON Objekt, wobei die Attribute den Dokumenttext, die Anmerkungen und andere Metadaten von Ground Truth beinhalten. Das folgende Beispiel ist ein einzelnes JSON Objekt in der erweiterten Manifestdatei, das jedoch aus Gründen der Lesbarkeit formatiert ist:
{
"source": "Diego Ramirez is an engineer in the high tech industry.",
"NamedEntityRecognitionDemo": {
"annotations": {
"entities": [
{
"endOffset": 13,
"startOffset": 0,
"label": "ENGINEER"
}
],
"labels": [
{
"label": "ENGINEER"
}
]
}
},
"NamedEntityRecognitionDemo-metadata": {
"entities": [
{
"confidence": 0.92
}
],
"job-name": "labeling-job/namedentityrecognitiondemo",
"type": "groundtruth/text-span",
"creation-date": "2020-05-14T21:45:27.175903",
"human-annotated": "yes"
}
}
In diesem Beispiel stellt das source
Attribut den Text des Schulungsdokuments bereit, und das NamedEntityRecognitionDemo
Attribut stellt die Anmerkungen für die Entitäten im Text bereit. Der Name des NamedEntityRecognitionDemo
Attributs ist beliebig, und Sie geben einen Namen Ihrer Wahl an, wenn Sie den Labeling-Job in Ground Truth definieren.
In diesem Beispiel ist das NamedEntityRecognitionDemo
Attribut der Name des Labelattributs. Dabei handelt es sich um das Attribut, das die Labels bereitstellt, die ein Ground-Truth-Mitarbeiter den Trainingsdaten zuweist. Wenn Sie Amazon Comprehend Ihre Trainingsdaten zur Verfügung stellen, müssen Sie einen oder mehrere Namen für Labelattribute angeben. Die Anzahl der Attributnamen, die Sie angeben, hängt davon ab, ob Ihre erweiterte Manifestdatei das Ergebnis eines einzelnen Labeling-Jobs oder eines verketteten Labeling-Jobs ist.
Wenn Ihre Datei das Ergebnis eines einzelnen Label-Jobs ist, geben Sie den Namen des einzelnen Label-Attributs an, der bei der Erstellung des Jobs in Ground Truth verwendet wurde.
Wenn Ihre Datei das Ergebnis eines verketteten Labeling-Jobs ist, geben Sie den Namen des Label-Attributs für einen oder mehrere Jobs in der Kette an. Jeder Name eines Labelattributs enthält die Anmerkungen zu einem einzelnen Auftrag. Sie können bis zu 5 dieser Attribute für erweiterte Manifestdateien angeben, die durch verkettete Labeling-Jobs erzeugt werden.
In einer erweiterten Manifestdatei folgt der Name des Label-Attributs in der Regel dem source
Schlüssel. Wenn die Datei das Ergebnis eines verketteten Jobs ist, gibt es mehrere Namen von Labelattributen. Wenn Sie Amazon Comprehend Ihre Trainingsdaten zur Verfügung stellen, geben Sie nur die Attribute an, die Anmerkungen enthalten, die für Ihr Modell relevant sind. Geben Sie nicht die Attribute an, die mit „-metadata“ enden.
Weitere Informationen zu verketteten Labeling-Jobs und Beispiele für das Ergebnis, das sie produzieren, finden Sie unter Chaining Labeling-Jobs im Amazon SageMaker AI Developer Guide.