Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
PDFfile di annotazioni
Per PDF le annotazioni, usi SageMaker AI Ground Truth per creare un set di dati etichettato in un file manifest aumentato. Ground Truth è un servizio di etichettatura dei dati che aiuta te (o la forza lavoro che impieghi) a creare set di dati di formazione per modelli di apprendimento automatico. Amazon Comprehend accetta file manifest aumentati come dati di addestramento per modelli personalizzati. Puoi fornire questi file quando crei un riconoscimento di entità personalizzato utilizzando la console Amazon Comprehend o CreateEntityRecognizerAPIl'azione.
È possibile utilizzare il tipo di attività integrato di Ground Truth, Named Entity Recognition, per creare un processo di etichettatura per consentire ai lavoratori di identificare le entità nel testo. Per ulteriori informazioni, consulta Named Entity Recognition nella Amazon SageMaker AI Developer Guide. Per ulteriori informazioni su Amazon SageMaker Ground Truth, consulta Use Amazon SageMaker AI Ground Truth per etichettare i dati.
Nota
Usando Ground Truth, puoi definire etichette sovrapposte (testo che associ a più di un'etichetta). Tuttavia, il riconoscimento delle entità Amazon Comprehend non supporta etichette sovrapposte.
I file manifest aumentati sono in formato righe. JSON In questi file, ogni riga è un JSON oggetto completo che contiene un documento di formazione e le etichette associate. L'esempio seguente è un file manifesto aumentato che addestra un identificatore di entità a rilevare le professioni delle persone menzionate nel testo:
{"source":"Diego Ramirez is an engineer in the high tech industry.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":13,"startOffset":0,"label":"ENGINEER"}],"labels":[{"label":"ENGINEER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.92}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.175903","human-annotated":"yes"}} {"source":"J Doe is a judge on the Washington Supreme Court.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":5,"startOffset":0,"label":"JUDGE"}],"labels":[{"label":"JUDGE"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.72}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174910","human-annotated":"yes"}} {"source":"Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":38,"startOffset":26,"label":"MANAGER"}],"labels":[{"label":"MANAGER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.91}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174035","human-annotated":"yes"}}
Ogni riga di questo file di JSON righe è un JSON oggetto completo, i cui attributi includono il testo del documento, le annotazioni e altri metadati di Ground Truth. L'esempio seguente è un singolo JSON oggetto nel file manifesto aumentato, ma è formattato per garantire la leggibilità:
{ "source": "Diego Ramirez is an engineer in the high tech industry.", "NamedEntityRecognitionDemo": { "annotations": { "entities": [ { "endOffset": 13, "startOffset": 0, "label": "ENGINEER" } ], "labels": [ { "label": "ENGINEER" } ] } }, "NamedEntityRecognitionDemo-metadata": { "entities": [ { "confidence": 0.92 } ], "job-name": "labeling-job/namedentityrecognitiondemo", "type": "groundtruth/text-span", "creation-date": "2020-05-14T21:45:27.175903", "human-annotated": "yes" } }
In questo esempio, l'source
attributo fornisce il testo del documento di formazione e l'NamedEntityRecognitionDemo
attributo fornisce le annotazioni per le entità nel testo. Il nome dell'NamedEntityRecognitionDemo
attributo è arbitrario e fornisci un nome a tua scelta quando definisci il lavoro di etichettatura in Ground Truth.
In questo esempio, l'NamedEntityRecognitionDemo
attributo è il nome dell'attributo label, che è l'attributo che fornisce le etichette che un operatore di Ground Truth assegna ai dati di addestramento. Quando fornisci i dati di addestramento ad Amazon Comprehend, devi specificare uno o più nomi di attributi dell'etichetta. Il numero di nomi di attributi che specifichi dipende dal fatto che il file manifesto aumentato sia l'output di un singolo processo di etichettatura o di un processo di etichettatura concatenato.
Se il file è l'output di un singolo processo di etichettatura, specifica il nome dell'attributo dell'etichetta singola che è stato utilizzato quando il lavoro è stato creato in Ground Truth.
Se il file è l'output di un lavoro di etichettatura concatenato, specifica il nome dell'attributo dell'etichetta per uno o più lavori della catena. Il nome di ogni attributo dell'etichetta fornisce le annotazioni di un singolo lavoro. È possibile specificare fino a 5 di questi attributi per i file manifest aumentati prodotti da processi di etichettatura concatenati.
In un file manifest aumentato, il nome dell'attributo label segue in genere la chiave. source
Se il file è l'output di un lavoro concatenato, ci saranno più nomi di attributi di etichetta. Quando fornisci i tuoi dati di addestramento ad Amazon Comprehend, fornisci solo gli attributi che contengono annotazioni pertinenti per il tuo modello. Non specificare gli attributi che terminano con «-metadata».
Per ulteriori informazioni sui lavori di etichettatura concatenati e per esempi dei risultati che producono, consulta Chaining Labeling Jobs nella Amazon SageMaker AI Developer Guide.