Amazon Kendra ウェブクローラーコネクタ v1.0 - Amazon Kendra

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Kendra ウェブクローラーコネクタ v1.0

Amazon Kendra Web Crawler を使用して、ウェブページをクロールおよびインデックス作成できます。

クロールできるのは、公開ウェブサイトと、安全な通信プロトコルである Hypertext Transfer Protocol Secure (HTTPS) を使用するウェブサイトのみです。ウェブサイトをクロールするときにエラーが発生した場合は、ウェブサイトのクロールがブロックされている可能性があります。内部ウェブサイトをクロールするには、ウェブプロキシを設定できます。ウェブプロキシは公開されている必要があります。

インデックス作成するウェブサイトを選択するときは、Amazon 利用規定ポリシーおよびその他の Amazon 規約のすべてに準拠している必要があります。Web Crawler Amazon Kendra は、独自のウェブページ、またはインデックス作成の権限を持つウェブページのインデックス作成にのみ使用する必要があることに注意してください。 Amazon Kendra Web Crawler によるウェブサイトのインデックス作成を停止する方法については、「」を参照してくださいAmazon Kendra Web Crawler 用の robots.txt ファイルの設定

注記

Web Amazon Kendra Crawler を使用して、所有していないウェブサイトやウェブページを積極的にクロールすることは、許容できる使用とは見なされません

Amazon Kendra ウェブクローラーデータソースコネクタのトラブルシューティングについては、「」を参照してくださいデータソースのトラブルシューティング

サポートされている機能

  • ウェブプロキシ

  • 包含/除外フィルター

前提条件

Amazon Kendra を使用してウェブサイトのインデックスを作成する前に、ウェブサイトと AWS アカウントの詳細を確認してください。

ウェブサイトについて、以下を確認してください。

  • インデックス作成するウェブサイトのシードまたはサイトマップ URL をコピーしました。

  • 基本認証を必要とするウェブサイトの場合: ユーザー名とパスワードを書き留め、ウェブサイトのホスト名とポート番号をコピーしました。

  • オプション:ウェブプロキシを使用して、クロールする内部ウェブサイトに接続する場合に、ウェブサイトのホスト名とポート番号をコピーしました。ウェブプロキシは公開されている必要があります。 Amazon Kendra では、基本認証によってバックアップされたウェブプロキシサーバーへの接続がサポートされています。認証なしで接続することもできます。

  • インデックスを作成する各ドキュメントが一意であり、同じインデックスに使用する予定の他のデータソース間で一意であることを確認しました。インデックスに使用する各データソースには、データソース全体に同じドキュメントが含まれていてはなりません。ドキュメント ID はインデックス全体に適用され、インデックスごとに一意である必要があります。

AWS アカウントで、以下があることを確認します。

  • Amazon Kendra インデックスを作成し、API を使用している場合はインデックス ID を記録しました。

  • データソースの IAM ロールを作成し、 API を使用している場合は、 IAM ロールの ARN を記録しました。

    注記

    認証タイプと認証情報を変更する場合は、 IAM ロールを更新して正しい AWS Secrets Manager シークレット ID にアクセスする必要があります。

  • 認証を必要とするウェブサイトの場合、または認証でウェブプロキシを使用する場合は、 が認証情報を AWS Secrets Manager シークレットに保存し、API を使用する場合は、シークレットの ARN を記録しました。

    注記

    認証情報とシークレットは、定期的に更新またはローテーションすることをお勧めします。セキュリティに必要なアクセスレベルのみを提供してください。認証情報とシークレットを、データソース、コネクタバージョン 1.0 と 2.0 (該当する場合) で再利用することは推奨しません

既存の IAM ロールまたはシークレットがない場合は、web crawlerデータソースを に接続するときに、コンソールを使用して新しい IAM ロールと Secrets Manager シークレットを作成できます Amazon Kendra。API を使用している場合は、既存の IAM ロールと Secrets Manager シークレットの ARN とインデックス ID を指定する必要があります。

接続手順

web crawler データソース Amazon Kendra に接続するには、 がweb crawlerデータ Amazon Kendra にアクセスできるように、データソースの必要な詳細を入力する必要があります。をまだ設定していない場合は、web crawler Amazon Kendra 「」を参照してください前提条件

Console

Amazon Kendra に接続するには web crawler

  1. にサインイン AWS Management Console し、Amazon Kendra コンソール を開きます。

  2. 左側のナビゲーションペインで、[インデックス] を選択し、インデックスのリストから使用するインデックスを選択します。

    注記

    [インデックスの設定] で、[ユーザーアクセスコントロール] 設定を設定または編集できます。

  3. [使用開始] ページで、[データソースを追加] を選択します。

  4. データソースの追加ページで、ウェブクローラーコネクタ を選択し、コネクタの追加 を選択します。バージョン 2 (該当する場合) を使用している場合は、「V2.0」タグが付いたウェブクローラーコネクタを選択します。

  5. [データソースの詳細を指定] ページで、次の情報を入力します。

    1. [名前と説明][データソース名] に、データソースの名前を入力します。ハイフン (-) は使用できますが、スペースは使用できません。

    2. (オプション) [説明] - オプションで、データソースの説明を入力します。

    3. デフォルト言語 - ドキュメントをフィルタリングしてインデックスを作成する言語を選択します。特に指定しない限り、言語はデフォルトで英語に設定されます。ドキュメントのメタデータで指定された言語は、選択した言語よりも優先されます。

    4. タグ で、新しいタグを追加 — リソースを検索およびフィルタリングしたり、 AWS コストを追跡したりするためのオプションのタグを含めます。

    5. [次へ] をクリックします。

  6. [アクセスとセキュリティの定義] ページで、次の情報を入力します。

    1. [ソース] では、ユースケースに応じて [ソース URL][ソースサイトマップ] を選択し、それぞれの値を入力します。

      ソース URL は 10 個まで、サイトマップは 3 個まで追加できます。

      注記

      サイトマップをクロールする場合は、ベース URL またはルート URL がサイトマップページに記載されている URL と同じであることを確認してください。例えば、サイトマップ URL が https://example.com/sitemap-page.html の場合、このサイトマップページに記載されている URL にもベース URL "https://example.com/" を使用する必要があります。

    2. (オプション) [ウェブプロキシ] - 次の情報を入力します。

      1. [ホスト名] - ウェブプロキシを必要とするホスト名。

      2. [ポート番号] - ホスト URL トランスポートプロトコルが使用するポート。ポート番号は 0~65535 の数字である必要があります。

      3. ウェブプロキシ認証情報の場合 - ウェブプロキシ接続で認証が必要な場合は、既存のシークレットを選択するか、認証情報を保存する新しいシークレットを作成します。新しいシークレットの作成を選択すると、 AWS Secrets Manager シークレットウィンドウが開きます。

      4. [ AWS Secrets Manager Secrets Manager シークレットウィンドウを作成] に次の情報を入力します。

        1. [シークレット名] - シークレットの名前。シークレット名に、プレフィックス「AmazonKendra-WebCrawler-」が自動的に追加されます。

        2. [ユーザー名][パスワード] - ウェブサイトの基本認証情報を入力します。

        3. [保存] を選択します。

    3. (オプション) [認証済みのホスト] - 選択すると、認証付きのホストをさらに追加できます

    4. IAM ロール — 既存の IAM ロールを選択するか、新しい IAM ロールを作成してリポジトリ認証情報にアクセスし、コンテンツにインデックスを作成します。

      注記

      IAM インデックスに使用される ロールは、データソースには使用できません。インデックスやよくある質問に既存のロールが使用されているかどうかが不明な場合は、エラーを避けるため、[新しいロールを作成] を選択してください。

    5. [次へ] をクリックします。

  7. [同期設定の構成] ページで、次の情報を入力します。

    1. [クロール範囲] - クロールするウェブページの種類を選択します。

    2. クロール深度 — クロール Amazon Kendra するシード URL からレベルの数を選択します。

    3. [クロールの詳細設定] および [追加設定] - 次の情報を入力します。

      1. [最大ファイルサイズ] - クロールするウェブページまたは添付ファイルの最大サイズ。最小 0.000001 MB (1 バイト)。最大 50 MB。

      2. 1 ページあたりの最大リンク数 - 1 ページあたりにクロールされるリンクの最大数。リンクは表示順にクロールされます。1 ページあたり最小 1 リンク。1 ページあたり最大 1000 リンク。

      3. 最大スロットリング - ホスト名ごとにクロールされる URL の、1 分あたりの最大数。ホスト名ごとに 1 分あたり最小 1 URL。ホスト名ごとに 1 分あたり最大 300 URL。

      4. [正規表現パターン] - 特定の URL を含めるまたは除外する正規表現パターンを追加します。最大 100 のパターンを追加できます。

    4. 同期実行スケジュール で、頻度 — Amazon Kendra がデータソースと同期する頻度を選択します。

    5. [次へ] をクリックします。

  8. [確認と作成] ページで、入力した情報が正しいことを確認し、[データソースを追加] を選択します。このページで情報の編集を選択することもできます。データソースが正常に追加されると、データソースが [データソース] ページに表示されます。

API

Amazon Kendra に接続するには web crawler

WebCrawlerConfiguration API を使用して以下を指定する必要があります。

  • URL - SeedUrlConfigurationSiteMapsConfiguration を使用して、ウェブサイトのシード URL または開始ポイント URL、または、クロールするウェブサイトのサイトマップ URL を指定します。

    注記

    サイトマップをクロールする場合は、ベース URL またはルート URL がサイトマップページに記載されている URL と同じであることを確認してください。例えば、サイトマップ URL が https://example.com/sitemap-page.html の場合、このサイトマップページに記載されている URL にもベース URL "https://example.com/" を使用する必要があります。

  • シークレットの Amazon リソースネーム (ARN) - ウェブサイトが基本認証を使用する場合は、ホスト名、ポート番号、および、ユーザー名とパスワードの基本認証情報を保存するシークレットを指定します。AuthenticationConfiguration API を使用してシークレット ARN を指定します。シークレットは、次のキーを含む JSON 構造に保存されます。

    { "username": "user name", "password": "password" }

    AWS Secrets Manager シークレットを使用してウェブプロキシ認証情報を指定することもできます。ProxyConfiguration API を使用して、ウェブサイトのホスト名とポート番号、およびウェブプロキシ認証情報を保存するシークレットを指定します。

  • IAM role — を呼び出しCreateDataSourceて、 シー Secrets Manager クレットにアクセスするためのアクセス許可を IAM ロールに提供し、ウェブクローラーコネクタ と に必要なパブリック APIs を呼び出すRoleArnタイミングを指定します Amazon Kendra。詳細については、「IAM roles for web crawler data sources」を参照してください。

オプションで、次の機能を追加することもできます。

  • クロールモード –ウェブサイトのホスト名のみをクロールするか、サブドメインを含むホスト名をクロールするか、ウェブページのリンク先となる他のドメインもクロールするかを選択します。

  • 深さ、またはシードレベルからクロールするレベルの数。例えば、シード URL ページは深度 1 で、このページ上でクロールされるハイパーリンクはすべて深度 2 です。

  • クロールする単一ウェブページの URL の最大数。

  • クロールするウェブページの最大サイズ (MB 単位)。

  • 1 分あたりウェブサイトホストごとにクロールされる URL の最大数。

  • 内部ウェブサイトに接続してクロールするウェブプロキシのホストとポート番号。例えば、https://a.example.com/page1.html のホスト名は 「a.example.com」で、ポート番号は HTTPS の標準ポートである 443 です。ウェブサイトホストへの接続にウェブプロキシ認証情報が必要な場合は、認証情報を保存する AWS Secrets Manager を作成できます。

  • ユーザー認証を必要とするウェブサイトにアクセスしてクロールするための認証情報。

  • カスタムドキュメントエンリッチメントツールを使用して、HTML メタタグをフィールドとして抽出できます。詳細については、取り込みプロセス中のドキュメントのメタデータのカスタマイズを参照してください。HTML メタタグの抽出例については、「CDE サンプル」を参照してください。

  • 包含フィルターと除外フィルター - 特定の URL を含めるか除外するかを指定します。

    注記

    ほとんどのデータソースは、フィルターと呼ばれる包含または除外パターンである正規表現パターンを使用しています。包含フィルターを指定すると、包含フィルターに一致するコンテンツのみのインデックスが作成されます。包含フィルターに一致しないドキュメントのインデックスは作成されません。包含フィルターと除外フィルターを指定した場合、除外フィルターに一致するドキュメントは、包含フィルターと一致してもインデックスは作成されません。

詳細はこちら

Amazon Kendra とデータソースの統合の詳細についてはweb crawler、以下を参照してください。