사용자 지정 분류기 학습(콘솔) - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

사용자 지정 분류기 학습(콘솔)

콘솔을 사용하여 사용자 지정 분류기를 만들고 학습시킨 다음 사용자 지정 분류기를 사용하여 문서를 분석할 수 있습니다.

사용자 지정 분류기를 학습시키려면 일련의 학습 문서가 필요합니다. 문서 분류기가 인식할 수 있도록 사용자가 원하는 범주로 이러한 문서에 레이블을 지정합니다. 학습 문서 준비에 대한 자세한 내용은 분류기 학습 데이터 준비를 참조하세요.

문서 분류기 모델 생성 및 학습하기
  1. AWS Management Console 로그인하고 https://console.aws.amazon.com/comprehend/ 에서 Amazon Comprehend 콘솔을 엽니다.

  2. 왼쪽 메뉴에서 사용자 정의을 선택한 다음 사용자 정의 분류를 선택합니다.

  3. 새 모델 생성을 선택합니다.

  4. 모델 설정에서 분류기의 모델 이름을 입력합니다. 이 이름은 귀하의 계정과 현재의 리전 내에서 고유해야 합니다.

    (선택) 버전 이름을 입력합니다. 이 이름은 귀하의 계정과 현재의 리전 내에서 고유해야 합니다.

  5. 학습 문서의 언어를 선택합니다. 분류기가 지원하는 언어를 보려면 학습 분류 모델를 참조하세요.

  6. (선택) Amazon Comprehend가 학습 작업을 처리하는 동안 스토리지 볼륨의 데이터를 암호화하려면 분류기 암호화를 선택합니다. 그런 다음 현재 계정과 연결된 KMS 키를 사용할지 아니면 다른 계정의 KMS 키를 사용할지 선택합니다.

    • 현재 계정과 연결된 키를 사용하는 경우 KMS 키 ID의 키 ID를 선택합니다.

    • 다른 계정과 연결된 키를 사용하는 경우 KMS 키 ARN에 키 ID의 ARN을 입력합니다.

    참고

    KMS 키와 관련 암호화의 생성 및 사용에 대한 자세한 내용은 AWS Key Management Service (AWS KMS)를 참조하세요.

  7. 데이터 사양에서 사용할 학습 모델 유형을 선택합니다.

    • 일반 텍스트 문서: 일반 텍스트 모델을 만들려면 이 옵션을 선택합니다. 일반 텍스트 문서를 사용하여 모델을 학습시킵니다.

    • 네이티브 문서: 네이티브 문서 모델을 만들려면 이 옵션을 선택합니다. 네이티브 문서(PDF, Word, 이미지)를 사용하여 모델을 학습시킵니다.

  8. 학습 데이터의 데이터 형식을 선택합니다. 데이터 파일 형식에 대한 자세한 내용은 분류기 학습 파일 형식를 참조하세요.

    • CSV 파일: 학습 데이터가 CSV 파일 형식을 사용하는 경우 이 옵션을 선택합니다.

    • 증강 매니페스트: Ground Truth를 사용하여 학습 데이터용 증강 매니페스트 파일을 만든 경우 이 옵션을 선택합니다. 학습 모델 유형으로 일반 텍스트 문서를 선택한 경우 이 형식을 사용할 수 있습니다.

  9. 사용할 분류기 모드를 선택합니다.

    • 단일 레이블 모드: 문서에 할당할 범주가 상호 배타적이며 각 문서에 하나의 레이블을 할당하도록 분류기를 학습시키려는 경우 이 모드를 선택합니다. Amazon Comprehend API에서는 단일 레이블 모드를 멀티클래스 모드라고 합니다.

    • 멀티레이블 모드: 문서에 여러 범주를 동시에 적용할 수 있고 각 문서에 하나 이상의 레이블을 할당하도록 분류기를 학습시키려는 경우 이 모드를 선택합니다.

  10. 멀티레이블 모드를 선택하면 레이블의 구분 기호를 선택할 수 있습니다. 학습 문서에 여러 클래스가 있는 경우 이 구분 기호를 사용하여 레이블을 구분할 수 있습니다. 기본 구분 기호는 파이프 문자입니다.

  11. (선택) 데이터 형식으로 증강 매니페스트를 선택한 경우 증강 매니페스트 파일을 5개까지 입력할 수 있습니다. 각 증강 매니페스트 파일에는 학습 데이터세트 또는 테스트 데이터세트가 들어 있습니다. 최소 하나의 학습 데이터세트를 제공해야 합니다. 테스트 데이터세트는 선택 사항입니다. 다음 단계에 따라 증강 매니페스트 파일을 구성합니다.

    1. 학습 및 테스트 데이터세트에서 입력 위치 패널을 펼칩니다.

    2. 데이터세트 유형에서 학습 데이터 또는 테스트 데이터를 선택합니다.

    3. SageMaker Ground Truth 증강 매니페스트 파일 S3 위치의 경우 매니페스트 파일이 포함된 Amazon S3 버킷의 위치를 입력하거나 Browse S3를 선택하여 해당 위치로 이동합니다. 학습 작업을 위한 액세스 권한에 사용하는 IAM 역할에는 S3 버킷에 대한 읽기 권한이 있어야 합니다.

    4. 속성 이름에는 주석이 포함된 속성의 이름을 입력합니다. 파일에 여러 체인으로 연결된 레이블 작업의 주석이 포함되어 있으면 각 작업에 대한 속성을 추가하십시오.

    5. 다른 입력 위치를 추가하려면 입력 위치 추가를 선택하고 다음 위치를 구성합니다.

  12. (선택) CSV 파일을 데이터 형식으로 선택한 경우 다음 단계를 사용하여 학습 데이터 세트와 선택적 테스트 데이터 세트를 구성합니다.

    1. 학습 데이터세트에서 학습 데이터 CSV 파일이 들어 있는 Amazon S3 버킷의 위치를 입력하거나 S3 찾아보기를 선택하여 해당 버킷으로 이동합니다. 학습 작업을 위한 액세스 권한에 사용하는 IAM 역할에는 S3 버킷에 대한 읽기 권한이 있어야 합니다.

      (선택) 학습 모델 유형으로 네이티브 문서를 선택한 경우 학습 예제 파일이 들어 있는 Amazon S3 폴더의 URL도 제공해야 합니다.

    2. 테스트 데이터 세트에서 Amazon Comprehend가 학습된 모델을 테스트할 수 있도록 추가 데이터를 제공할지 여부를 선택합니다.

      • 자동 분할: 자동 분할은 테스트 데이터로 사용하기 위해 학습 데이터의 10%를 자동으로 선택하여 비축합니다.

      • (선택) 고객 제공: Amazon S3에 있는 테스트 데이터 CSV 파일의 URL을 입력합니다. Amazon S3에서 해당 위치로 이동하여 폴더 선택을 선택할 수도 있습니다.

        (선택) 학습 모델 유형으로 네이티브 문서를 선택한 경우 테스트 파일이 포함된 Amazon S3 폴더의 URL도 제공해야 합니다.

  13. (선택) 문서 읽기 모드에서 기본 텍스트 추출 작업을 우선 지정할 수 있습니다. 이 옵션은 스캔한 문서의 텍스트 추출에 적용되므로 일반 텍스트 모델에는 필요하지 않습니다. 자세한 내용은 텍스트 추출 옵션을 참조하십시오.

  14. (일반 텍스트 모델, 선택) 출력 데이터에 혼동행렬과 같은 학습 출력 데이터를 저장할 Amazon S3 버킷의 위치를 입력합니다. 자세한 내용은 혼동행렬를 참조하십시오.

    (선택) 학습 작업의 출력 결과를 암호화하기로 선택한 경우 암호화를 선택합니다. 그런 다음 현재 계정과 연결된 KMS 키를 사용할지 아니면 다른 계정의 KMS 키를 사용할지 선택합니다.

    • 현재 계정과 연결된 키를 사용하는 경우 KMS 키 ID의 키 별칭을 선택하십시오.

    • 다른 계정과 연결된 키를 사용하는 경우 KMS 키 ID 아래에 키 별칭 또는 ID의 ARN을 입력합니다.

  15. IAM 역할의 경우 기존 IAM 역할 선택을 선택한 다음 학습 문서가 포함된 S3 버킷에 대한 읽기 권한이 있는 기존 IAM 역할을 선택합니다. 역할에는 comprehend.amazonaws.com으로 시작하는 신뢰 정책이 있어야 유효합니다.

    이러한 권한을 가진 IAM 역할이 아직 없는 경우, IAM 역할 생성을 선택하여 역할을 생성하십시오. 이 역할을 부여할 액세스 권한을 선택한 다음 이름 접미사를 선택하여 사용자 계정의 IAM 역할과 이 역할을 구분합니다.

    참고

    암호화된 입력 문서의 경우 사용되는 IAM 역할에도 kms:Decrypt 권한이 있어야 합니다. 자세한 내용은 KMS 암호화를 사용하는 데 필요한 권한을 참조하십시오.

  16. (선택) VPC에서 Amazon Comprehend로 리소스를 시작하려면 VPC 아래에 VPC ID를 입력하거나 드롭다운 목록에서 ID를 선택합니다.

    1. 서브넷에서 서브넷을 선택합니다. 첫 번째 서브넷을 선택한 후 추가 서브넷을 선택할 수 있습니다.

    2. 보안 그룹을 지정한 경우, 보안 그룹에서 사용할 보안 그룹을 선택합니다. 첫 번째 보안 그룹을 선택한 후 추가 보안 그룹을 선택할 수 있습니다.

    참고

    분류 작업에 VPC를 사용하는 경우 생성 및 시작 작업에 사용되는 DataAccessRole은 입력 문서와 출력 버킷에 액세스하는 VPC에 대한 권한이 있어야 합니다.

  17. (선택) 사용자 지정 분류기에 태그를 추가하려면 태그에 키-값 페어를 입력합니다. 태그 추가를 선택합니다. 분류기를 만들기 전에 이 쌍을 제거하려면 태그 제거를 선택합니다. 자세한 내용은 리소스에 태그 지정을 참조하십시오.

  18. 생성을 선택합니다.

콘솔에 분류기 페이지가 표시됩니다. 새 분류기가 테이블에 나타나고 Submitted으로 상태가 표시됩니다. 분류기가 학습 문서를 처리하기 시작하면 상태가 Training으로 바뀝니다. 분류기를 사용할 준비가 되면 상태가 Trained또는 Trained with warnings으로 변경됩니다. 상태가 TRAINED_WITH_WARNINGS인 경우 분류기 학습 출력에서 건너뛴 파일 폴더를 검토하십시오.

Amazon Comprehend에서 생성 또는 학습 중에 오류가 발생한 경우 상태가 In error로 변경됩니다. 표에서 분류기 작업을 선택하여 오류 메시지를 포함하여 분류기에 대한 추가 정보를 얻을 수 있습니다.

사용자 지정 분류기 목록.