비동기 분석을 위한 파일 형식 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

비동기 분석을 위한 파일 형식

사용자의 모델을 사용하여 비동기 분석을 실행할 때 입력 문서 형식(One document per line 또는 one document per file)을 선택할 수 있습니다. 사용하는 형식은 다음 표의 설명대로 분석하려는 문서의 유형에 따라 달라집니다.

설명 형식

입력에는 여러 파일이 들어 있습니다. 각 파일에는 입력 문서가 한 개씩 들어 있습니다. 이 형식은 신문 기사나 과학 논문과 같은 대용량 문서 모음에 가장 적합합니다.

또한 네이티브 문서 분류기를 사용하는 반정형 문서(이미지, PDF 또는 Docx 파일)에도 이 형식을 사용하십시오.

파일당 문서 하나

입력은 하나 이상의 파일입니다. 파일의 각 라인은 별도의 입력 문서입니다. 이 형식은 문자 메시지나 소셜 미디어 게시물과 같은 짧은 문서에 가장 적합합니다.

라인당 문서 하나

파일당 문서 하나

one document per file 형식을 사용할 경우 각 파일은 하나의 입력 문서를 나타냅니다.

라인당 문서 하나

One document per line 형식을 사용하면 각 문서가 별도의 줄에 배치되며 제목은 사용되지 않습니다. 문서의 레이블을 아직 모르기 때문에 레이블은 각 줄에 포함되지 않습니다. 파일의 각 줄(개별 문서의 끝)은 줄 바꿈(LF,\n), 캐리지 반환(CR,\r) 또는 두 가지 전부(CRLF, \r\n)로 끝나야 합니다. UTF-8 줄 구분자(u+2028)를 사용하여 줄을 끝내지 마십시오.

다음 예제는 입력 파일의 형식을 보여줍니다.

Text of document 1 \n Text of document 2 \n Text of document 3 \n Text of document 4 \n

어떤 형식이든 텍스트 파일에는 UTF-8 인코딩을 사용하십시오. 이 파일들을 준비한 후 입력 데이터를 위해 사용하는 S3 버킷에 이 파일들을 저장합니다.

분류 작업을 시작할 때 입력 데이터에 이 Amazon S3 위치를 지정합니다. URI는 직접 호출하는 API 엔드포인트와 동일한 리전에 있어야 합니다. URI는 단일 파일을 가리킬 수도 있고(“라인당 문서 하나” 방법을 사용할 때처럼) 데이터 파일 모음의 접두사일 수도 있습니다.

예를 들어 URI S3://bucketName/prefix을(를) 사용하는 경우 접두사가 단일 파일이면 Amazon Comprehend는 해당 파일을 입력으로 사용합니다. 접두사로 시작하는 파일이 두 개 이상인 경우 Amazon Comprehend는 이들 모두를 입력으로 사용합니다.

Amazon Comprehend에 문서 모음 및 출력 파일들이 포함된 S3 버킷에 대한 액세스 권한을 부여하십시오. 자세한 내용은 비동기 작업에 필요한 역할 기반 권한을 참조하십시오.