데이터 세트 구성 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 세트 구성

레이블이 지정된 학습 또는 테스트 데이터를 플라이 휠에 추가하려면 Amazon Comprehend 콘솔 또는 API를 사용하여 데이터 세트를 생성합니다.

각 데이터 세트를 학습 데이터 또는 테스트 데이터로 구성합니다. 데이터 세트를 특정 플라이 휠 및 사용자 정의 모델과 연결합니다. 데이터 세트를 생성하면 Amazon Comprehend가 데이터를 플라이 휠의 데이터 레이크에 업로드합니다. 학습 데이터 파일 형식에 대한 자세한 내용은 분류기 학습 데이터 준비 또는 개체 인식기 학습 데이터 준비를 참조하십시오.

플라이 휠을 삭제하면 Amazon Comprehend에서 데이터 세트를 삭제합니다. 업로드된 데이터는 데이터 레이크에서 계속 사용할 수 있습니다.

데이터 세트 생성 (콘솔)

데이터 세트 생성
  1. AWS Management Console에 로그인한 후 Amazon Comprehend 콘솔을 엽니다.

  2. 왼쪽 메뉴에서 플라이 휠을 선택하고 데이터를 추가할 플라이 휠을 선택합니다.

  3. 데이터 세트 탭을 선택합니다.

  4. 학습 데이터 세트 또는 테스트 데이터 세트 테이블에서 데이터 세트 생성을 선택합니다.

  5. 데이터 세트 세부정보에 데이터 세트 이름과 설명 (선택 사항) 을 입력합니다.

  6. 데이터 사양에서 데이터 형식데이터 세트 유형 구성 필드를 선택합니다.

  7. (선택 사항) 입력 형식에서 입력 문서의 형식을 선택합니다.

  8. S3의 주석 위치에 주석 파일의 Amazon S3 위치를 입력합니다.

  9. S3의 학습 데이터 위치에 문서 파일의 Amazon S3 위치를 입력합니다.

  10. 생성을 선택하세요.

데이터 세트 (API) 생성

CreateDataset작업을 사용하여 데이터세트를 만들 수 있습니다.

aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }

inputConfig.json 파일에는 다음 콘텐츠가 포함되어 있습니다.

{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }

데이터세트에 태그를 추가하거나 제거하려면 TagResourceUntagResource작업을 사용하세요.

데이터 세트 설명

Amazon DescribeDatasetComprehend 작업을 사용하여 플라이휠에 대한 구성된 정보를 검색할 수 있습니다.

aws comprehend describe-dataset \ --dataset-arn "datasetARN"

응답에는 다음 콘텐츠가 포함됩니다.

{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:aws-region:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }