カスタムレコグナイザーをトレーニングする (コンソール) - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

カスタムレコグナイザーをトレーニングする (コンソール)

カスタムエンティティレコグナイザーは、Amazon Comprehend コンソールを使用して作成することができます。このセクションでは、カスタムエンティティレコグナイザーを作成してトレーニングする方法を示します。

トピック

    カスタムエンティティレコグナイザーを作成するには、最初にモデルをトレーニングするためのデータセットを用意します。このデータセットには、アノテーション付き文書一式を含めるか、エンティティのリストとそのタイプラベル、それらエンティティを含む文書一式を含めます。詳細については、「カスタムエンティティ認識」を参照してください。

    CSV ファイルを使用してカスタムエンティティレコグナイザーをトレーニングする
    1. にサインイン AWS Management Console し、https://console.aws.amazon.com/comprehend/ で Amazon Comprehend コンソールを開きます。

    2. 左側のメニューから [カスタマイズ] を選択し、[カスタムエンティティ認識] を選択します。

    3. [モデルの作成] を選択します。

    4. レコグナイザーに名前を付けます。名前は、 リージョンおよびアカウント内で一意である必要があります。

    5. 言語を選択します。

    6. [カスタムエンティティタイプ] でカスタムラベルを入力します。レコグナイザーは、このカスタムレベルを使用してデータセットからエンティティタイプを検索します。

      エンティティタイプは大文字でなければならず、複数の単語で構成されている場合は、単語をアンダースコアで区切ります。

    7. [Add type (タイプを追加)] を選択します。

    8. 別のエンティティタイプを追加する場合は、そのエンティティタイプを入力し、[タイプを追加] を選択します。追加したエンティティタイプの 1 つを削除する場合は、[タイプを削除] を選択し、リストから削除するエンティティタイプを選択します。最大 25 個のエンティティタイプを一覧表示できます。

    9. トレーニングジョブを暗号化するには、[Recognizer encryption (レコグナイザーの暗号化)] を選択し、現在のアカウントに関連付けられている KMS キーを使用するか、別のアカウントの KMS キーを使用するか選択します。

      • 現在のアカウントに関連付けられているキーを使用する場合は、[KMS キー ID] でキー ID を選択します。

      • 別のアカウントに関連付けられているキーを使用する場合は、[KMS キーの ARN] でキー ID の ARN を入力します。

      注記

      KMS キーの作成と使用、および関連する暗号化の詳細については、「AWS Key Management Service」を参照してください。

    10. データ仕様」で、トレーニングドキュメントの形式を選択します。

      • CSV ファイル — トレーニングドキュメントを補完する CSV ファイル。CSV ファイルには、トレーニングを受けたモデルが検出するカスタムエンティティに関する情報が含まれます。必要なファイルの形式は、アノテーションを提供するのか、エンティティリストを提供するのかによって異なります。

      • 拡張マニフェスト — Amazon SageMaker Ground Truth によって生成されるラベル付きデータセット。このファイルは JSON 行形式です。各行は、トレーニングドキュメントとそのラベルを含む完全な JSON オブジェクトで構成します。各ラベルは、トレーニングドキュメント内の名前付きエンティティに対するアノテーションです。拡張マニフェストファイルは最大 5 つ指定できます。

      使用可能な形式の詳細については、「カスタムエンティティレコグナイザーモデルのトレーニング」を参照してください。

    11. [トレーニングタイプ]で、使用するトレーニングタイプを選択します。

      • アノテーションとトレーニングドキュメントを使用

      • エンティティリストとトレーニングドキュメントを使用

      アノテーションを選択する場合は、Amazon S3 上のアノテーションファイルの URL を入力します。アノテーションファイルがあるAmazon S3 上のバケットまたはフォルダに移動して、[Browse S3] を選択することもできます。

      エンティティリストを選択する場合は、Amazon S3 上のエンティティリストの URL を入力します。エンティティリストがある Amazon S3 上のバケットまたはフォルダに移動して、[Browse S3] を選択することもできます。

    12. トレーニングドキュメントを含む Amazon S3 上の入力データセットの URL を入力します。トレーニングドキュメントがある Amazon S3 上のバケットまたはフォルダに移動して、[フォルダの選択] を選択することもできます。

    13. [テストデータセット] で、トレーニング済みモデルのパフォーマンスを評価する方法を選択します。これは、アノテーションとエンティティリストトレーニングタイプの両方で行うことができます。

      • Autosplit: Autosplit は、テスト用データとして提供されているトレーニングデータの 10% を自動的に選択して使用します。

      • (オプション) お客様指定:お客様指定を選択すると、使用するテスト用データを正確に指定できます。

    14. [お客様指定のテストデータセット] を選択した場合は、Amazon S3 上のアノテーションファイルの URL を入力します。アノテーションファイルがある Amazon S3 上のバケットまたはフォルダに移動して、[Select folder (フォルダの選択)] を選択することもできます。

    15. [IAM ロールを選択] セクションで、既存の IAM ロールを選択するか、新しい IAM ロールを作成します。

      • 既存の IAM ロールを選択 — 入出力の Amazon S3 バケットへのアクセス許可を持つ IAM ロールがすでにある場合は、このオプションを選択します。

      • 新しい IAM ロールの作成 — Amazon Comprehend が入出力バケットに対する適切なアクセス許可を持つ新しい IAM ロールを作成する場合は、このオプションを選択します。

        注記

        入力ドキュメントが暗号化されている場合、使用する IAM ロールには kms:Decrypt アクセス許可が必要です。詳細については、「KMS 暗号化を使用するために必要なアクセス許可」を参照してください。

    16. (オプション) VPC から Amazon Comprehend にリソースを起動するには、VPC の下に VPC ID を入力するか、ドロップダウンリストから ID を選択します。

      1. [サブネット] でサブネットを選択します。最初のサブネットを選択すると、追加のサブネットを選択できます。

      2. セキュリティグループを指定した場合は、[セキュリティグループ] で、使用するセキュリティグループを選択します。最初のセキュリティグループを選択すると、追加のセキュリティグループを選択できます。

      注記

      カスタムエンティティ認識ジョブで VPC を使用する場合、Create および Start オペレーションに使用する DataAccessRole には、入力ドキュメントと出力バケットへのアクセスに使用する VPC へのアクセス許可が必要です。

    17. (オプション) カスタムエンティティレコグナイザーにタグを追加するには、[タグ ] でキーと値のペアを入力します。[Add tag] (タグを追加) を選択します。レコグナイザーを作成する前にこのペアを削除するには、[タグを削除] を選択します。

    18. [Train] を選択します。

    ステータスと共に新しいレコグナイザーがリストに表示されます。最初は Submitted と表示されます。続いて、トレーニングドキュメントを処理している分類子には Training、使用できる分類子には Trained、エラーがある分類子には In error が表示されます。ジョブをクリックすると、エラーメッセージなど、レコグナイザーに関する詳細情報を取得できます。

    プレーンテキスト、PDF、または Word ドキュメントを使用してカスタムエンティティレコグナイザーをトレーニングする
    1. にサインイン AWS Management Console し、Amazon Comprehend コンソールを開きます。

    2. 左側のメニューから [カスタマイズ] を選択し、[カスタムエンティティ認識] を選択します。

    3. [レコグナイザーをトレーニング] を選択します。

    4. レコグナイザーに名前を付けます。名前は、 リージョンおよびアカウント内で一意である必要があります。

    5. 言語を選択します。注: PDF または Word ドキュメントでトレーニングする場合、サポートされている言語は英語だけです。

    6. [カスタムエンティティタイプ] でカスタムラベルを入力します。レコグナイザーは、このカスタムレベルを使用してデータセットからエンティティタイプを検索します。

      エンティティタイプは大文字でなければならず、複数の単語で構成されている場合は、単語をアンダースコアで区切ります。

    7. [Add type (タイプを追加)] を選択します。

    8. 別のエンティティタイプを追加する場合は、そのエンティティタイプを入力し、[タイプを追加] を選択します。追加したエンティティタイプの 1 つを削除する場合は、[タイプを削除] を選択し、リストから削除するエンティティタイプを選択します。最大 25 個のエンティティタイプを一覧表示できます。

    9. トレーニングジョブを暗号化するには、[Recognizer encryption (レコグナイザーの暗号化)] を選択し、現在のアカウントに関連付けられている KMS キーを使用するか、別のアカウントの KMS キーを使用するか選択します。

      • 現在のアカウントに関連付けられているキーを使用する場合は、[KMS キー ID] でキー ID を選択します。

      • 別のアカウントに関連付けられているキーを使用する場合は、[KMS キーの ARN] でキー ID の ARN を入力します。

      注記

      KMS キーの作成と使用、および関連する暗号化の詳細については、「AWS Key Management Service」を参照してください。

    10. [トレーニングデータ] で、データ形式として拡張マニフェストを選択します。

      • 拡張マニフェスト — は、Amazon SageMaker Ground Truth によって生成されるラベル付きデータセットです。このファイルは JSON 行形式です。ファイル内の各行は、トレーニングドキュメントとそのラベルを含む完全な JSON オブジェクトで構成します。各ラベルは、トレーニングドキュメント内の名前付きエンティティに対するアノテーションです。拡張マニフェストファイルは最大 5 つ指定できます。トレーニング用データに PDF ドキュメントを使用する場合は、拡張マニフェストを選択する必要があります。拡張マニフェストファイルは最大 5 つ指定できます。トレーニングデータとして使用する属性は、1 つのファイルにつき 5 つまで指定することができます。

      使用可能な形式の詳細については、「カスタムエンティティレコグナイザーモデルのトレーニング」を参照してください。

    11. トレーニングモデルタイプを選択します。

      プレーンテキストドキュメント を選択した場合は、入力場所 で、Amazon SageMakerGround Truth 拡張マニフェストファイルの Amazon S3URL を入力します。拡張マニフェストがある Amazon S3 上のバケットまたはフォルダに移動して、[フォルダの選択] を選択することもできます。

    12. [属性名] で、アノテーションを含んでいる属性の名前を入力します。ファイルに複数のチェーンラベリングジョブのアノテーションが含まれている場合は、ジョブごとに属性を追加します。この場合、各属性にはラベリングジョブのアノテーション一式が含まれます。注: ファイルごと 5 つまで属性名を指定できます。

    13. [追加] を選択します。

    14. PDF、Word ドキュメントを入力場所 で選択した場合は、Amazon SageMaker Ground Truth 拡張マニフェストファイルの Amazon S3URL を入力します。拡張マニフェストがある Amazon S3 上のバケットまたはフォルダに移動して、[フォルダの選択] を選択することもできます。

    15. アノテーションデータファイルの S3 プレフィックスを入力します。これらは、ラベル付けした PDF ドキュメントです。

    16. ソースドキュメントの S3 プレフィックスを入力します。これらは、ラベリングジョブ用に Ground Truth に指定した元の PDF 文書(データオブジェクト)です。

    17. アノテーションを含む属性名を入力します。注: ファイルごと 5 つまで属性名を指定できます。ファイルにあって指定されなかった属性は無視されます。

    18. IAM ロールのセクションで、既存の IAM ロールを選択するか、新しい IAM ロールを作成します。

      • 既存の IAM ロールを選択 — 入出力の Amazon S3 バケットへのアクセス許可を持つ IAM ロールがすでにある場合は、このオプションを選択します。

      • 新しい IAM ロールの作成 — Amazon Comprehend が入出力バケットに対する適切なアクセス許可を持つ新しい IAM ロールを作成する場合は、このオプションを選択します。

        注記

        入力ドキュメントが暗号化されている場合、使用する IAM ロールには kms:Decrypt アクセス許可が必要です。詳細については、「KMS 暗号化を使用するために必要なアクセス許可」を参照してください。

    19. (オプション) VPC から Amazon Comprehend にリソースを起動するには、VPC の下に VPC ID を入力するか、ドロップダウンリストから ID を選択します。

      1. [サブネット] でサブネットを選択します。最初のサブネットを選択すると、追加のサブネットを選択できます。

      2. セキュリティグループを指定した場合は、[セキュリティグループ] で、使用するセキュリティグループを選択します。最初のセキュリティグループを選択すると、追加のセキュリティグループを選択できます。

      注記

      カスタムエンティティ認識ジョブで VPC を使用する場合、Create および Start オペレーションに使用する DataAccessRole には、入力ドキュメントと出力バケットへのアクセスに使用する VPC へのアクセス許可が必要です。

    20. (オプション) カスタムエンティティレコグナイザーにタグを追加するには、[タグ ] でキーと値のペアを入力します。[Add tag] (タグを追加) を選択します。レコグナイザーを作成する前にこのペアを削除するには、[タグを削除] を選択します。

    21. [Train] を選択します。

    ステータスと共に新しいレコグナイザーがリストに表示されます。最初は Submitted と表示されます。続いて、トレーニングドキュメントを処理している分類子には Training、使用できる分類子には Trained、エラーがある分類子には In error が表示されます。ジョブをクリックすると、エラーメッセージなど、レコグナイザーに関する詳細情報を取得できます。