사용자 정의 인식기 학습 (콘솔) - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

사용자 정의 인식기 학습 (콘솔)

Amazon Comprehend 콘솔을 사용하여 사용자 정의 개체 인식기를 생성할 수 있습니다. 이 단원에서는 사용자 정의 개체 인식기 생성과 학습 방법을 보여줍니다.

주제

    사용자 정의 개체 인식기를 만들려면 먼저 모델을 학습시킬 데이터 세트를 제공해야 합니다. 이 데이터 세트를 이용하여 주석이 달린 문서 세트 또는 개체 목록 및 유형 레이블로 구성된 세트와 해당 개체가 포함된 문서 세트를 포함시킵니다. 자세한 정보는 사용자 지정 개체 인식을 참조하십시오.

    CSV 파일을 사용하여 사용자 정의 개체 인식기를 학습시키려면
    1. AWS Management Console 로그인하고 https://console.aws.amazon.com/comprehend/ 에서 Amazon Comprehend 콘솔을 엽니다.

    2. 왼쪽 메뉴에서 사용자 정의을 선택한 다음 사용자 정의 개체 인식을 선택합니다.

    3. 새 모델 생성을 선택합니다.

    4. 인식기에 이름을 지정합니다. 이 이름은 리전과 계정 내에서 고유한 이름이어야 합니다.

    5. 언어를 선택합니다.

    6. 사용자 정의 개체 유형에 인식기가 데이터 세트에서 찾을 수 있도록 하려는 사용자 정의 레이블을 입력합니다.

      개체 유형은 대문자여야 하며, 두 개 이상의 단어로 구성된 경우 밑줄로 단어를 분리해야 합니다.

    7. 유형 추가를 선택합니다.

    8. 추가 개체 유형을 추가하려면 해당 유형을 입력한 다음 유형 추가를 선택합니다. 추가한 개체 유형 중 하나를 제거하려면 유형 제거를 선택한 다음 목록에서 제거할 개체 유형을 선택합니다. 최대 25개의 개체 유형을 나열할 수 있습니다.

    9. 학습 작업을 암호화하려면 인식기 암호화를 선택한 다음 현재 계정과 연결된 KMS 키를 사용할지 아니면 다른 계정의 KMS 키를 사용할지 선택합니다.

      • 현재 계정과 연결된 키를 사용하는 경우 KMS 키 ID에서 키 ID를 선택합니다.

      • 다른 계정과 연결된 키를 사용하는 경우 KMS 키 ARN에 키 ID의 ARN을 입력합니다.

      참고

      KMS 키와 관련 암호화의 생성 및 사용에 대한 자세한 내용은 AWS Key Management Service를 참조하세요.

    10. 데이터 사양에서 학습 문서 형식을 선택합니다.

      • CSV 파일 - 학습 문서를 보완하는 CSV 파일입니다. CSV 파일에는 학습된 모델이 탐지할 사용자 정의 개체에 대한 정보가 들어 있습니다. 필요한 파일 형식은 주석 제공인지 아니면 개체 목록 제공인지에 따라 달라집니다.

      • 증강 매니페스트 — Amazon Ground Truth에서 생성한 레이블이 지정된 데이터 세트입니다. SageMaker 이 파일은 JSON 라인 형식입니다. 각 라인은 학습 문서와 해당 레이블이 포함된 완전한 JSON 객체입니다. 각 레이블은 학습 문서에 이름이 지정된 개체를 주석에 답니다. 증강 매니페스트 파일은 5개까지 제공할 수 있습니다.

      사용 가능한 형식 및 예제에 대한 자세한 내용은 사용자 지정 개체 인식기 모델 학습를 참조하세요.

    11. 학습 유형에서 사용할 학습 유형을 선택합니다.

      • 주석 및 학습 문서 사용하기

      • 개체 목록 및 학습 문서 사용하기

      주석을 선택하였다면 Amazon S3에 주석 파일의 URL을 입력합니다. 또한 주석 파일이 있는 Amazon S3의 버킷 또는 폴더로 이동하여 Browse S3를 선택할 수도 있습니다.

      개체 목록을 선택하였다면 Amazon S3에 개체 목록의 URL을 입력합니다. 개체 목록이 있는 Amazon S3의 버킷 또는 폴더로 이동한 다음 Browse S3를 선택할 수도 있습니다.

    12. Amazon S3의 학습 문서가 들어 있는 입력 데이터 세트의 URL을 입력합니다. 학습 문서가 있는 Amazon S3의 버킷 또는 폴더로 이동하여 폴더 선택을 선택할 수도 있습니다.

    13. 테스트 데이터 세트에서 학습된 모델 성능 평가 방법을 선택합니다. 주석 및 개체 목록 학습 유형 모두에 대해 이 작업을 수행할 수 있습니다.

      • 자동 분할: 자동 분할은 제공된 학습 데이터의 10%를 테스트 데이터로 자동으로 사용할 있도록 자동으로 선택합니다.

      • (선택 사항) 고객 제공: 고객 제공을 선택하면 사용자가 정확히 어떤 테스트 데이터를 사용할지 지정할 수 있습니다.

    14. 고객 제공 테스트 데이터 세트를 선택하였다면 Amazon S3에 주석 파일의 URL을 입력합니다. 주석 파일이 있는 Amazon S3의 버킷 또는 폴더로 이동한 다음 폴더 선택을 선택할 수 있습니다.

    15. IAM 역할 선택 섹션에서 기존 IAM 역할을 선택하거나 새로운 IAM 역할을 생성합니다.

      • 기존 IAM 역할 선택 — 입력 및 출력 Amazon S3 버킷에 액세스할 권한이 있는 IAM 역할이 있으면 이 옵션을 선택합니다.

      • 새 IAM 역할 생성 — Amazon Comprehend가 입력 및 출력 버킷에 액세스할 수 있는 적절한 권한을 가진 새 IAM 역할을 생성하려면 이 옵션을 선택합니다.

        참고

        입력 문서가 암호화된 경우 사용된 IAM 역할은 kms:Decrypt 권한을 가지고 있어야 합니다. 자세한 내용은 KMS 암호화를 사용하는 데 필요한 권한을 참조하십시오.

    16. (선택) VPC에서 Amazon Comprehend로 리소스를 시작하려면 VPC 아래에 VPC ID를 입력하거나 드롭다운 목록에서 ID를 선택합니다.

      1. 서브넷에서 서브넷을 선택합니다. 첫 번째 서브넷을 선택한 후 추가 서브넷을 선택할 수 있습니다.

      2. 보안 그룹을 지정한 경우, 보안 그룹에서 사용할 보안 그룹을 선택합니다. 첫 번째 보안 그룹을 선택한 후 추가 보안 그룹을 선택할 수 있습니다.

      참고

      사용자 정의 개체 인식 작업에 VPC를 사용한다면 생성 및 시작 작업에 사용한 DataAccessRole은 입력 문서와 출력 버킷에 액세스할 수 있는 VPC 권한을 가지고 있어야 합니다.

    17. (선택 사항) 사용자 정의 개체 인식기에 태그를 추가하려면 태그 에 키-값 페어를 입력합니다. 태그 추가를 선택합니다. 인식기 생성 전에 이 페어를 제거하려면 태그 제거를 선택합니다.

    18. 학습을 선택합니다.

    그러면 새 인식기가 목록에 나타나고 그 상태가 표시됩니다. 처음에는 Submitted으로 표시됩니다. 그러면 Training 학습 문서를 처리 중인 분류기, Trained 사용 준비가 된 분류기, In error오류가 있는 분류기를 표시합니다. 작업을 클릭하면 오류 메시지를 포함하여 인식기에 대한 자세한 정보를 얻을 수 있습니다.

    일반 텍스트, PDF 또는 워드 문서를 사용하여 사용자 정의 개체 인식기를 학습시키려면
    1. 에 AWS Management Console 로그인하고 아마존 Comprehend 콘솔을 엽니다.

    2. 왼쪽 메뉴에서 사용자 정의을 선택한 다음 사용자 정의 개체 인식을 선택합니다.

    3. 인식기 학습을 선택합니다.

    4. 인식기에 이름을 지정합니다. 이 이름은 리전과 계정 내에서 고유한 이름이어야 합니다.

    5. 언어를 선택합니다. 참고: PDF 또는 Word 문서를 학습하는 경우 영어가 지원 언어입니다.

    6. 사용자 정의 개체 유형에 인식기가 데이터 세트에서 찾을 수 있도록 하려는 사용자 정의 레이블을 입력합니다.

      개체 유형은 대문자여야 하며, 두 개 이상의 단어로 구성된 경우 밑줄로 단어를 분리해야 합니다.

    7. 유형 추가를 선택합니다.

    8. 추가 개체 유형을 추가하려면 해당 유형을 입력한 다음 유형 추가를 선택합니다. 추가한 개체 유형 중 하나를 제거하려면 유형 제거를 선택한 다음 목록에서 제거할 개체 유형을 선택합니다. 최대 25개의 개체 유형을 나열할 수 있습니다.

    9. 학습 작업을 암호화하려면 인식기 암호화를 선택한 다음 현재 계정과 연결된 KMS 키를 사용할지 아니면 다른 계정의 KMS 키를 사용할지 선택합니다.

      • 현재 계정과 연결된 키를 사용하는 경우 KMS 키 ID에서 키 ID를 선택합니다.

      • 다른 계정과 연결된 키를 사용하는 경우 KMS 키 ARN에 키 ID의 ARN을 입력합니다.

      참고

      KMS 키와 관련 암호화의 생성 및 사용에 대한 자세한 내용은 AWS Key Management Service를 참조하세요.

    10. 학습 데이터에서 증강 매니페스트를 데이터 형식으로 선택합니다.

      • 증강 매니페스트 — Amazon Ground Truth에서 생성한 레이블이 지정된 데이터 세트입니다. SageMaker 이 파일은 JSON 라인 형식입니다. 파일의 각 라인은 학습 문서와 해당 레이블이 포함된 완전한 JSON 객체입니다. 각 레이블은 학습 문서에 이름이 지정된 개체를 주석에 답니다. 증강 매니페스트 파일은 5개까지 제공할 수 있습니다. 학습 데이터로 PDF 문서를 사용하는 경우 증강 매니페스트를 선택해야 합니다. 증강 매니페스트 파일은 5개까지 제공할 수 있습니다. 각 파일에 학습 데이터로 사용할 속성을 최대 5개까지 지정할 수 있습니다.

      사용 가능한 형식 및 예제에 대한 자세한 내용은 사용자 지정 개체 인식기 모델 학습를 참조하세요.

    11. 학습 모델 유형을 선택합니다.

      일반 텍스트 문서를 선택한 경우 입력 위치에 Amazon SageMakerGround Truth 증강 매니페스트 파일의 Amazon S3URL 파일을 입력합니다. 또한 증강 매니페스트가 있는 Amazon S3의 버킷 또는 폴더로 이동하여 폴더 선택을 선택할 수도 있습니다.

    12. 속성 이름에 주석이 포함된 속성의 이름을 입력합니다. 파일에 여러 체인으로 연결된 레이블 작업의 주석이 포함되어 있으면 각 작업에 대한 속성을 추가하십시오. 이 경우 각 속성에는 레이블이 지정된 작업의 주석 세트가 포함됩니다. 참고: 각 파일에는 최대 5개의 속성 이름을 제공할 수 있습니다.

    13. 추가 선택.

    14. 입력 위치에서 PDF, Word 문서를 선택한 경우 Amazon SageMaker Ground Truth 증강 매니페스트 파일의 Amazon S3URL 파일을 입력하십시오. 또한 증강 매니페스트가 있는 Amazon S3의 버킷 또는 폴더로 이동하여 폴더 선택을 선택할 수도 있습니다.

    15. 주석 데이터 파일의 S3 접두사를 입력합니다. 레이블을 지정한 PDF 문서입니다.

    16. 소스 문서의 S3 접두사를 입력합니다. 이는 레이블 제작 작업을 위해 Ground Truth에 제공한 원본 PDF 문서 (데이터 개체) 입니다.

    17. 주석이 포함된 속성 이름을 입력합니다. 참고: 각 파일에는 최대 5개의 속성 이름을 제공할 수 있습니다. 사용자가 파일에 지정하지 않은 속성은 모두 무시됩니다.

    18. IAM 역할 선택 섹션에서 기존 IAM 역할을 선택하거나 새로운 IAM 역할을 생성합니다.

      • 기존 IAM 역할 선택 — 입력 및 출력 Amazon S3 버킷에 액세스할 권한이 있는 IAM 역할이 있으면 이 옵션을 선택합니다.

      • 새 IAM 역할 생성 — Amazon Comprehend가 입력 및 출력 버킷에 액세스할 수 있는 적절한 권한을 가진 새 IAM 역할을 생성하려면 이 옵션을 선택합니다.

        참고

        입력 문서가 암호화된 경우 사용된 IAM 역할은 kms:Decrypt 권한을 가지고 있어야 합니다. 자세한 내용은 KMS 암호화를 사용하는 데 필요한 권한을 참조하십시오.

    19. (선택) VPC에서 Amazon Comprehend로 리소스를 시작하려면 VPC 아래에 VPC ID를 입력하거나 드롭다운 목록에서 ID를 선택합니다.

      1. 서브넷에서 서브넷을 선택합니다. 첫 번째 서브넷을 선택한 후 추가 서브넷을 선택할 수 있습니다.

      2. 보안 그룹을 지정한 경우, 보안 그룹에서 사용할 보안 그룹을 선택합니다. 첫 번째 보안 그룹을 선택한 후 추가 보안 그룹을 선택할 수 있습니다.

      참고

      사용자 정의 개체 인식 작업에 VPC를 사용한다면 생성 및 시작 작업에 사용한 DataAccessRole은 입력 문서와 출력 버킷에 액세스할 수 있는 VPC 권한을 가지고 있어야 합니다.

    20. (선택 사항) 사용자 정의 개체 인식기에 태그를 추가하려면 태그 에 키-값 페어를 입력합니다. 태그 추가를 선택합니다. 인식기 생성 전에 이 페어를 제거하려면 태그 제거를 선택합니다.

    21. 학습을 선택합니다.

    그러면 새 인식기가 목록에 나타나고 그 상태가 표시됩니다. 처음에는 Submitted으로 표시됩니다. 그러면 Training 학습 문서를 처리 중인 분류기, Trained 사용 준비가 된 분류기, In error오류가 있는 분류기를 표시합니다. 작업을 클릭하면 오류 메시지를 포함하여 인식기에 대한 자세한 정보를 얻을 수 있습니다.