Menggunakan AWS CLI Menggunakan SDK untuk Java Menggunakan Python SDK Mengesampingkan tindakan API untuk file PDF

Memulai pekerjaan deteksi entitas kustom (API)

Anda dapat menggunakan API untuk memulai dan memantau pekerjaan analisis asinkron untuk pengenalan entitas kustom.

Untuk memulai tugas deteksi entitas kustom dengan StartEntitiesDetectionJoboperasi, Anda memberikan EntityRecognizerArn, yang merupakan Amazon Resource Name (ARN) dari model terlatih. Anda dapat menemukan ARN ini dalam menanggapi operasi. CreateEntityRecognizer

Topik

Mendeteksi entitas kustom menggunakan AWS Command Line Interface
Mendeteksi entitas kustom menggunakan AWS SDK for Java
Mendeteksi entitas kustom menggunakan AWS SDK for Python (Boto3)
Mengesampingkan tindakan API untuk file PDF

Mendeteksi entitas kustom menggunakan AWS Command Line Interface

Gunakan contoh berikut untuk lingkungan Unix, Linux, dan macOS. Untuk Windows, ganti karakter kelanjutan backslash (\) Unix di akhir setiap baris dengan tanda sisipan (^). Untuk mendeteksi entitas kustom dalam kumpulan dokumen, gunakan sintaks permintaan berikut:


aws comprehend start-entities-detection-job \
     --entity-recognizer-arn "arn:aws:comprehend:region:account number:entity-recognizer/test-6" \
     --job-name infer-1 \
     --data-access-role-arn "arn:aws:iam::account number:role/service-role/AmazonComprehendServiceRole-role" \
     --language-code en \
     --input-data-config "S3Uri=s3://Bucket Name/Bucket Path" \
     --output-data-config "S3Uri=s3://Bucket Name/Bucket Path/" \
     --region region

Amazon Comprehend merespons JobID dengan JobStatus dan dan akan mengembalikan output dari pekerjaan di bucket S3 yang Anda tentukan dalam permintaan.

Mendeteksi entitas kustom menggunakan AWS SDK for Java

Untuk contoh Amazon Comprehend yang menggunakan Java, lihat contoh Amazon Comprehend Java.

Mendeteksi entitas kustom menggunakan AWS SDK for Python (Boto3)

Contoh ini membuat pengenal entitas kustom, melatih model, dan kemudian menjalankannya dalam pekerjaan pengenal entitas menggunakan. AWS SDK for Python (Boto3)

Buat instance SDK untuk Python.


import boto3
import uuid
comprehend = boto3.client("comprehend", region_name="region")

Buat pengenal entitas:


response = comprehend.create_entity_recognizer(
    RecognizerName="Recognizer-Name-Goes-Here-{}".format(str(uuid.uuid4())),
    LanguageCode="en",
    DataAccessRoleArn="Role ARN",
    InputDataConfig={
        "EntityTypes": [
            {
                "Type": "ENTITY_TYPE"
            }
        ],
        "Documents": {
            "S3Uri": "s3://Bucket Name/Bucket Path/documents"
        },
        "Annotations": {
            "S3Uri": "s3://Bucket Name/Bucket Path/annotations"
        }
    }
)
recognizer_arn = response["EntityRecognizerArn"]

Daftar semua pengenal:


response = comprehend.list_entity_recognizers()

Tunggu hingga pengenal entitas mencapai status TERLATIH:


while True:
    response = comprehend.describe_entity_recognizer(
        EntityRecognizerArn=recognizer_arn
    )

    status = response["EntityRecognizerProperties"]["Status"]
    if "IN_ERROR" == status:
        sys.exit(1)
    if "TRAINED" == status:
        break

    time.sleep(10)

Memulai pekerjaan deteksi entitas kustom:


response = comprehend.start_entities_detection_job(
    EntityRecognizerArn=recognizer_arn,
    JobName="Detection-Job-Name-{}".format(str(uuid.uuid4())),
    LanguageCode="en",
    DataAccessRoleArn="Role ARN",
    InputDataConfig={
        "InputFormat": "ONE_DOC_PER_LINE",
        "S3Uri": "s3://Bucket Name/Bucket Path/documents"
    },
    OutputDataConfig={
        "S3Uri": "s3://Bucket Name/Bucket Path/output"
    }
)

Mengesampingkan tindakan API untuk file PDF

Untuk file gambar dan file PDF, Anda dapat mengganti tindakan ekstraksi default menggunakan DocumentReaderConfig parameter diInputDataConfig.

Contoh berikut mendefinisikan file JSON bernama myInputData Config.json untuk mengatur nilai-nilai. InputDataConfig Ini menetapkan DocumentReadConfig untuk menggunakan Amazon Texttract DetectDocumentText API untuk semua file PDF.


"InputDataConfig": {
  "S3Uri": s3://Bucket Name/Bucket Path",
  "InputFormat": "ONE_DOC_PER_FILE",
  "DocumentReaderConfig": {
      "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT",
      "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION"
  }
}

Dalam StartEntitiesDetectionJob operasi, tentukan file myInputData config.json sebagai parameter: InputDataConfig


  --input-data-config file://myInputDataConfig.json

Untuk informasi selengkapnya tentang DocumentReaderConfig parameter, lihatMengatur opsi ekstraksi teks.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Lowongan kerja Analysis (console)

Output untuk pekerjaan analisis