Memulai pekerjaan deteksi entitas kustom (API) - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memulai pekerjaan deteksi entitas kustom (API)

Anda dapat menggunakan API untuk memulai dan memantau pekerjaan analisis asinkron untuk pengenalan entitas kustom.

Untuk memulai tugas deteksi entitas kustom dengan StartEntitiesDetectionJoboperasi, Anda memberikan EntityRecognizerArn, yang merupakan Amazon Resource Name (ARN) dari model terlatih. Anda dapat menemukan ARN ini dalam menanggapi operasi. CreateEntityRecognizer

Mendeteksi entitas kustom menggunakan AWS Command Line Interface

Gunakan contoh berikut untuk lingkungan Unix, Linux, dan macOS. Untuk Windows, ganti karakter kelanjutan backslash (\) Unix di akhir setiap baris dengan tanda sisipan (^). Untuk mendeteksi entitas kustom dalam kumpulan dokumen, gunakan sintaks permintaan berikut:

aws comprehend start-entities-detection-job \ --entity-recognizer-arn "arn:aws:comprehend:region:account number:entity-recognizer/test-6" \ --job-name infer-1 \ --data-access-role-arn "arn:aws:iam::account number:role/service-role/AmazonComprehendServiceRole-role" \ --language-code en \ --input-data-config "S3Uri=s3://Bucket Name/Bucket Path" \ --output-data-config "S3Uri=s3://Bucket Name/Bucket Path/" \ --region region

Amazon Comprehend merespons JobID dengan JobStatus dan dan akan mengembalikan output dari pekerjaan di bucket S3 yang Anda tentukan dalam permintaan.

Mendeteksi entitas kustom menggunakan AWS SDK for Java

Untuk contoh Amazon Comprehend yang menggunakan Java, lihat contoh Amazon Comprehend Java.

Mendeteksi entitas kustom menggunakan AWS SDK for Python (Boto3)

Contoh ini membuat pengenal entitas kustom, melatih model, dan kemudian menjalankannya dalam pekerjaan pengenal entitas menggunakan. AWS SDK for Python (Boto3)

Buat instance SDK untuk Python.

import boto3 import uuid comprehend = boto3.client("comprehend", region_name="region")

Buat pengenal entitas:

response = comprehend.create_entity_recognizer( RecognizerName="Recognizer-Name-Goes-Here-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="Role ARN", InputDataConfig={ "EntityTypes": [ { "Type": "ENTITY_TYPE" } ], "Documents": { "S3Uri": "s3://Bucket Name/Bucket Path/documents" }, "Annotations": { "S3Uri": "s3://Bucket Name/Bucket Path/annotations" } } ) recognizer_arn = response["EntityRecognizerArn"]

Daftar semua pengenal:

response = comprehend.list_entity_recognizers()

Tunggu hingga pengenal entitas mencapai status TERLATIH:

while True: response = comprehend.describe_entity_recognizer( EntityRecognizerArn=recognizer_arn ) status = response["EntityRecognizerProperties"]["Status"] if "IN_ERROR" == status: sys.exit(1) if "TRAINED" == status: break time.sleep(10)

Memulai pekerjaan deteksi entitas kustom:

response = comprehend.start_entities_detection_job( EntityRecognizerArn=recognizer_arn, JobName="Detection-Job-Name-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="Role ARN", InputDataConfig={ "InputFormat": "ONE_DOC_PER_LINE", "S3Uri": "s3://Bucket Name/Bucket Path/documents" }, OutputDataConfig={ "S3Uri": "s3://Bucket Name/Bucket Path/output" } )

Mengesampingkan tindakan API untuk file PDF

Untuk file gambar dan file PDF, Anda dapat mengganti tindakan ekstraksi default menggunakan DocumentReaderConfig parameter diInputDataConfig.

Contoh berikut mendefinisikan file JSON bernama myInputData Config.json untuk mengatur nilai-nilai. InputDataConfig Ini menetapkan DocumentReadConfig untuk menggunakan Amazon Texttract DetectDocumentText API untuk semua file PDF.

"InputDataConfig": { "S3Uri": s3://Bucket Name/Bucket Path", "InputFormat": "ONE_DOC_PER_FILE", "DocumentReaderConfig": { "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT", "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION" } }

Dalam StartEntitiesDetectionJob operasi, tentukan file myInputData config.json sebagai parameter: InputDataConfig

--input-data-config file://myInputDataConfig.json

Untuk informasi selengkapnya tentang DocumentReaderConfig parameter, lihatMengatur opsi ekstraksi teks.