사용자 지정 개체 감지 작업 시작(API) - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

사용자 지정 개체 감지 작업 시작(API)

API를 사용하여 사용자 지정 개체 인식을 위한 비동기 분석 작업을 시작하고 모니터링할 수 있습니다.

작업과 함께 사용자 지정 개체 탐지 StartEntitiesDetectionJob작업을 시작하려면 학습된 모델의 Amazon 리소스 이름 (ARN) 인 를 입력합니다. EntityRecognizerArn 작업에 대한 응답에서 이 ARN을 찾을 수 있습니다. CreateEntityRecognizer

를 사용하여 사용자 지정 엔티티를 탐지합니다. AWS Command Line Interface

다음의 Unix, Linux, macOS용 예제를 사용하십시오. Windows의 경우 각 줄의 끝에 있는 백슬래시(\) Unix 연속 문자를 캐럿(^)으로 바꿉니다. 문서 집합에서 사용자 지정 개체를 감지하려면 다음 요청 구문을 사용하십시오.

aws comprehend start-entities-detection-job \ --entity-recognizer-arn "arn:aws:comprehend:region:account number:entity-recognizer/test-6" \ --job-name infer-1 \ --data-access-role-arn "arn:aws:iam::account number:role/service-role/AmazonComprehendServiceRole-role" \ --language-code en \ --input-data-config "S3Uri=s3://Bucket Name/Bucket Path" \ --output-data-config "S3Uri=s3://Bucket Name/Bucket Path/" \ --region region

Amazon Comprehend는 JobIDJobStatus로 응답하고 요청에서 지정한 S3 버킷의 작업 출력을 반환합니다.

AWS SDK for Java를 사용한 사용자 지정 개체 감지

Java를 사용하는 Amazon Comprehend 예제는 Amazon Comprehend Java 예제를 참조하세요.

를 사용하여 사용자 지정 엔티티를 감지합니다. AWS SDK for Python (Boto3)

이 예제에서는 사용자 지정 개체 인식기를 생성하고 모델을 학습시킨 다음 AWS SDK for Python (Boto3)를 사용하여 엔터니 인식기 작업에서 실행합니다.

Python용 SDK를 인스턴스화합니다.

import boto3 import uuid comprehend = boto3.client("comprehend", region_name="region")

개체 인식기 생성:

response = comprehend.create_entity_recognizer( RecognizerName="Recognizer-Name-Goes-Here-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="Role ARN", InputDataConfig={ "EntityTypes": [ { "Type": "ENTITY_TYPE" } ], "Documents": { "S3Uri": "s3://Bucket Name/Bucket Path/documents" }, "Annotations": { "S3Uri": "s3://Bucket Name/Bucket Path/annotations" } } ) recognizer_arn = response["EntityRecognizerArn"]

모든 인식기 나열:

response = comprehend.list_entity_recognizers()

개체 인식기가 학습됨(TRAINED) 상태에 도달할 때까지 기다립니다:

while True: response = comprehend.describe_entity_recognizer( EntityRecognizerArn=recognizer_arn ) status = response["EntityRecognizerProperties"]["Status"] if "IN_ERROR" == status: sys.exit(1) if "TRAINED" == status: break time.sleep(10)

사용자 지정 개체 감지 작업을 시작합니다:

response = comprehend.start_entities_detection_job( EntityRecognizerArn=recognizer_arn, JobName="Detection-Job-Name-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="Role ARN", InputDataConfig={ "InputFormat": "ONE_DOC_PER_LINE", "S3Uri": "s3://Bucket Name/Bucket Path/documents" }, OutputDataConfig={ "S3Uri": "s3://Bucket Name/Bucket Path/output" } )

PDF 파일에 대한 API 작업 우선 지정

이미지 파일 및 PDF 파일의 경우 DocumentReaderConfigInputDataConfig 파라미터를 사용하여 기본 추출 작업을 재정의할 수 있습니다.

다음 예제에서는 myInputData Config.json이라는 JSON 파일을 정의하여 값을 설정합니다. InputDataConfig DocumentReadConfig이 모든 PDF 파일에 대해 Amazon Textract DetectDocumentText API를 사용하도록 설정합니다.

"InputDataConfig": { "S3Uri": s3://Bucket Name/Bucket Path", "InputFormat": "ONE_DOC_PER_FILE", "DocumentReaderConfig": { "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT", "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION" } }

StartEntitiesDetectionJob작업 시 myInputData Config.json 파일을 파라미터로 지정합니다. InputDataConfig

--input-data-config file://myInputDataConfig.json

DocumentReaderConfig 파라미터에 대한 자세한 내용은 텍스트 추출 옵션을 참조하세요.