ウェブクローラーの統合 - Amazon Quick Suite

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ウェブクローラーの統合

Amazon Quick Suite での Web Crawler 統合を使用すると、ウェブページをクロールしてインデックスを作成することで、ウェブサイトコンテンツからナレッジベースを作成できます。この統合は、ユーザー層に基づいて異なる認証オプションを持つデータ取り込み機能をサポートします。

できること

Web Crawler ユーザーは、ウェブサイトやウェブページに保存されているコンテンツについて質問できます。たとえば、ユーザーはドキュメントサイトやナレッジベースについて問い合わせたり、複数のウェブページで特定の情報を検索したりできます。この統合により、ユーザーは場所やタイプに関係なく、ウェブコンテンツからの情報にすばやくアクセスして理解し、公開日、変更履歴、ページの所有権などのコンテキストの詳細を提供できます。これらはすべて、情報検出の効率化と情報に基づいた意思決定に役立ちます。

注記

Web Crawler 統合は、データ取り込みのみをサポートします。ウェブサイトやウェブサービスを管理するためのアクション機能は提供されていません。

[開始する前に]

Web Crawler 統合を設定する前に、以下があることを確認してください。

  • クロールとインデックスを作成するウェブサイト URLs。

  • Amazon Quick Suite Enterprise サブスクリプション

  • クロールするウェブサイトは公開されている必要があり、ファイアウォールの背後に存在したり、接続に特別なブラウザプラグインを必要としたりすることはできません。

ウェブサイトのアクセスと認証を準備する

Amazon Quick Suite で統合を設定する前に、ウェブサイトのアクセス認証情報を準備します。Web Crawler 統合は、ユーザーロールに基づいてさまざまな認証方法をサポートします。

認証なし

すべてのユーザーが使用できます。認証を必要としないパブリックウェブサイトのクロールに使用します。

基本認証

保護されたウェブサイトの標準 HTTP 基本認証。HTTP 基本認証は、ユーザー名とパスワードを要求してウェブリソースを保護する簡単な方法です。基本認証を使用して保護されたサイトにアクセスすると、ブラウザに認証情報を尋ねるポップアップダイアログボックスが表示されます。

必要な認証情報:

  • ログインページの URL - ログインページの URL

  • Username - 基本的な認証ユーザー名

  • パスワード - 基本的な認証パスワード

フォーム認証

HTML フォームベースのログインページを使用するウェブサイトの場合。

フォームは、XPath を指定するために に設定されます。XPath (XML パス言語) は、HTML または XML ドキュメント内の要素と属性をナビゲートするために使用されるクエリ言語です。ウェブページ要素の XPath を識別するには、ブラウザの開発者ツールを使用できます。通常は、目的の要素を右クリックし、「Inspect」を選択するか、F12 を押します。デベロッパーツールで 要素が強調表示されると、ユーザーは対応する HTML コードを右クリックして「コピー」を選択し、サブメニューからXPath のコピー」を選択できます。これにより、ドキュメント構造内の要素の正確な場所を識別する一意のパスが生成されます。結果の XPath は、//input[@id='username'] または //button[@type='submit'] のようになります。ここで、二重スラッシュ (//) は、ドキュメント内の任意の場所でパスを開始できることを示します。角括弧には、特定の要素を識別するのに役立つ属性が含まれています。

必要な情報:

  • ログインページの URL - ログインフォームの URL (例: https://example.com/login)

  • ユーザー名 - ログインユーザー名

  • パスワード - ログインパスワード

  • Username フィールド XPath - XPath to username input フィールド (例: //input[@id='username'])

  • ユーザー名ボタン XPath (オプション) - XPath to username ボタンフィールド (例: //input[@id='username_button'])

  • パスワードフィールド XPath - XPath to password 入力フィールド (例: //input[@id='password'])

  • パスワードボタン XPath - XPath to password ボタン (例: //button[@type='password'])

SAML 認証

SAML ベースのシングルサインオン認証を使用するウェブサイトの場合。

SAML (Security Assertion Markup Language) 認証は、認証情報を各アプリケーションに直接入力するのではなく、一元化された ID プロバイダーを介して認証できるようにすることで、シングルサインオン (SSO) を可能にするフェデレーション ID 標準です。ユーザーがユーザー名とパスワードをアプリケーションのログインページのフィールドに入力する従来のフォーム認証とは異なり、SAML はユーザーを組織の ID プロバイダー (Microsoft Azure AD や Okta など) にリダイレクトして認証し、安全なトークンをアプリケーションに渡し、アクセスを許可します。このアプローチは、複数のアプリケーションにわたるシームレスなユーザーエクスペリエンス、IT 管理者向けの一元化されたユーザー管理、多要素認証などの機能によるセキュリティの強化を提供しますが、フォーム認証にはアプリケーションごとに個別の認証情報管理が必要です。

必要な情報:

  • ログインページの URL - SAML ログインページの URL

  • ユーザー名 - SAML ユーザー名

  • パスワード - SAML パスワード

  • ユーザー名フィールド XPath - ユーザー名入力フィールドへの XPath (例: //input[@id='username'])

  • ユーザー名ボタン XPath (オプション) - XPath to username ボタンフィールド (例: //input[@id='username_button'])

  • パスワードフィールド XPath - XPath to password 入力フィールド (例: //input[@id='password'])

  • パスワードボタン XPath - XPath to password ボタン (例: //button[@type='password'])

XPath 設定の例

フォームと SAML 認証を設定するには、次の XPath の例を使用します。

Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]

Web Crawler 統合をセットアップする

ウェブサイトのアクセス要件を準備したら、Amazon Quick Suite で Web Crawler 統合を作成します。

  1. Amazon Quick Suite コンソールで、統合を選択します。

  2. 統合オプションからウェブクローラーを選択し、追加ボタン (プラス「+」ボタン) をクリックします。

  3. Web Crawler からデータにアクセスするを選択します。ウェブクローラー統合はデータアクセスのみをサポートします。アクションの実行はウェブクロールでは使用できません。

  4. 統合の詳細と認証方法を設定し、必要に応じてナレッジベースを作成します。

    1. ウェブクローラー統合の認証タイプを選択します。

    2. 選択した認証方法に基づいて、必要な詳細を入力します。

    3. 作成して続行を選択します。

    4. ナレッジベースの名前と説明を入力します。

    5. クロールするコンテンツ URLs を追加します。

    6. [作成] を選択します。

create をクリックすると、データ同期が自動的に開始されます。

クローリングを設定する

クロールするウェブサイトとページ、およびコンテンツのフィルタリング方法を設定できます。

URLsとコンテンツソースを設定する

クロールするウェブサイトとページを設定します。

直接 URLs

クロールする個々の URLs を指定します。

https://example.com/docs https://example.com/blog https://example.com/support

制限: データセットあたり最大 10 URLs

コンテンツフィルターとクロール設定

スコープ設定をクロールする

これらの設定を表示するには、まずナレッジベースをセットアップしてから、詳細設定オプションを調べる必要があります。

クロール深度
  • 範囲: 0~10 (デフォルト: 1)

  • 0 = 指定された URLs

  • 1 = リンクされたページを 1 レベル深く含める

  • 値が大きいほど、サイト内のリンクが深くなります。

ページあたりの最大リンク数
  • デフォルト: 1000

  • 最大: 1,000

  • 各ページからフォローするリンクの数を制御します

待機時間
  • デフォルト: 1

  • ページが「ページ準備完了」状態になった後、ウェブクローラーが各ページを待機する時間。これは、ページにメインテンプレートのロード後にロードされるコンテンツブロックがある動的 javascript ロード特性を持つページに便利です。視覚的にリッチなコンテンツがある場合や、ロード時間が長くなることが予想される場合は、待機時間を増やします。

ナレッジベースの管理

Web Crawler 統合を設定したら、クロールされたウェブサイトコンテンツからナレッジベースを作成および管理できます。

既存のナレッジベースを編集する

既存の Web Crawler ナレッジベースを変更できます。

  1. Amazon Quick Suite コンソールで、ナレッジベースを選択します。

  2. リストから Web Crawler ナレッジベースを選択します。

  3. アクションで 3 つのドットのアイコンを選択し、ナレッジベースの編集を選択します。

  4. 必要に応じて設定を更新し、保存を選択します。

追加のナレッジベースを作成する

同じ Web Crawler 統合から複数のナレッジベースを作成できます。

  1. Amazon Quick Suite コンソールで、統合を選択し、データタブを選択します。

  2. リストから既存の Web Crawler 統合を選択します。

  3. アクションの下にある 3 つのドットのアイコンを選択し、ナレッジベースの作成を選択します。

  4. ナレッジベース設定を設定し、作成を選択します。

ナレッジベース設定オプションの詳細については、「」を参照してください一般的な設定

添付ファイルとファイルのクローリング

システムがウェブページからリンクされたファイルと添付ファイルを処理するかどうかを制御します。

  • ファイル添付ファイルのクロールを有効にする - このオプションを選択すると、PDF、ドキュメント、メディアファイルなどのPDFs。

クローリング動作と同期設定

Web Crawler 統合は、次のクローリングプラクティスに従います。

  • 増分同期モデル: 最初の同期はフルクロールを実行し、それ以降の同期は変更のみをキャプチャします

  • 自動再試行: 失敗したリクエストの組み込み再試行ロジック

  • 重複処理: URLs の自動検出と処理

  • クローラ識別: リクエストヘッダーの user-agent 文字列aws-quick-on-behalf-of-<UUID>」で自身を識別します

Robots.txt のコンプライアンス

Web Crawler は robots.txt プロトコルを尊重し、ユーザーエージェントおよび許可/禁止ディレクティブを尊重します。これにより、クローラがサイトにアクセスする方法を制御できます。

robots.txt チェックの仕組み
  • ホストレベルのチェック: Web Crawler は、robots.txt ファイルをホストレベルで読み取ります (例: example.com/robots.txt)

  • 複数ホストのサポート: 複数のホストを持つドメインの場合、Web Crawler はホストごとにロボットルールを個別に尊重します。

  • フォールバック動作: ウェブクローラーがブロック、解析エラー、またはタイムアウトのために robots.txt を取得できない場合、robots.txt が存在しないかのように動作し、サイトをクロールします。

サポートされている robots.txt フィールド

Web Crawler は、これらの robots.txt フィールドを認識します (フィールド名では大文字と小文字が区別されず、値は大文字と小文字が区別されます)。

user-agent

ルールが適用されるクローラを識別します

allow

クロールできる URL パス

disallow

クロールできない URL パス

sitemap

サイトマップの完全な URL

crawl-delay

ウェブサイトへのリクエスト間の指定された待機時間 (秒単位)

メタタグのサポート

Web Crawler は、データの使用方法を制御するために使用できるページレベルのロボットメタタグをサポートしています。HTML ページまたは HTTP ヘッダーにメタタグを含めることで、ページレベルの設定を指定できます。

サポートされているメタタグ
noindex

ページのインデックスを作成しないでください。このルールを指定しない場合、ページはインデックス化され、エクスペリエンスに表示される可能性があります。

nofollow

このページのリンクは参照しないでください。このルールを指定しない場合、Web Crawler はページのリンクを使用してリンクされたページを検出できます。

カンマを使用して複数の値を組み合わせることができます (例: "noindex, nofollow")。

注記

メタタグを検出するには、Web Crawler がページにアクセスする必要があるため、robots.txt でページをブロックしないでください。これにより、ページが復元されなくなります。

トラブルシューティング

このセクションを使用して、Web Crawler 統合の一般的な問題を解決します。

認証の失敗

症状:

  • 「認証できません」エラーメッセージ

  • 401/403 HTTP レスポンス

  • ログインページのリダイレクトループ

  • セッションタイムアウトエラー

解決手順:

  1. Amazon Quick Suite インスタンスが設定されている AWS リージョンからサイトにアクセスできることを確認します。

  2. 認証情報の精度を検証し、有効期限が切れていないことを確認する

  3. 認証エンドポイントの可用性とアクセシビリティを確認する

  4. ブラウザ開発者ツールでテストして XPath 設定を検証する

  5. ブラウザネットワークログを確認して認証フローを理解する

  6. ログインページの URL が正しく、アクセス可能であることを確認します。

  7. 同じ認証情報を使用して認証を手動でテストする

アクセスと接続の問題

症状:

  • 接続タイムアウトとネットワークエラー

  • ネットワークに到達できないエラー

  • DNS 解決の失敗

解決手順:

  1. ターゲットウェブサイトへのネットワーク接続を検証する

  2. サイトのアクセシビリティを検証する:

    • ターゲットドメインの DNS 解決を確認する

    • SSL/TLS 設定と証明書を検証する

    • 可能であれば、さまざまなネットワークからのアクセスをテストする

クロールとコンテンツの問題

症状:

  • 欠落または不完全なコンテンツ

  • 不完全なクロールまたは早期終了

  • レート制限エラー (429 レスポンス)

  • コンテンツが適切にインデックス化されていない

解決手順:

  1. robots.txt の制限を確認します。

    • robots.txt ファイルでクロールの制限を確認する

    • クローラがターゲットパスにアクセスできることを確認する

    • robots.txt コンプライアンスがコンテンツをブロックしていないことを確認する

  2. レート制限とスロットリングを確認します。

    • レート制限情報のレスポンスヘッダーをモニタリングする

    • 適切なクロール遅延を実装する

  3. URL パターンとフィルターを確認します。

    • 正規表現パターンの精度をテストする

    • URL の形式と構造を確認する

    • 包含/除外パターンロジックを検証する

  4. コンテンツの制限を確認します。

    • ページで noindex メタタグをチェックする

    • コンテンツタイプのサポートを確認する

    • コンテンツサイズが制限内であることを確認する

  5. クローラーがクロールを試みる前にコンテンツがページにロードされるように、待機時間を適切な値に更新します。

既知の制限事項

Web Crawler の統合には、次の制限があります。

  • URL 制限: 最大 10 URLs、サイトマップはサポートされていません

  • クロール深度: 最大クロール深度は 10 レベル

  • セキュリティ要件: ウェブプロキシ設定に必要な HTTPS