지식 기반의 웹 페이지 크롤링

Amazon Bedrock에서 제공하는 웹 크롤러는 Amazon Bedrock 지식 기반에서 사용하기 위해 선택한 URL을 연결하여 크롤링합니다. 선택한 URL에 대해 설정된 범위나 제한에 따라 웹사이트 페이지를 크롤링할 수 있습니다. AWS Amazon Bedrock용 관리 콘솔 또는 CreateDataSource API를 사용하여 웹 사이트 페이지를 크롤링할 수 SDKs 및 AWS CLI 참조). 현재는 Amazon OpenSearch Serverless 벡터 저장소만 이 데이터 소스와 함께 사용할 수 있습니다.

참고

웹 크롤러 데이터 소스 커넥터는 미리 보기 릴리스 중이며 변경될 수 있습니다.

크롤링할 웹 사이트를 선택할 때 Amazon 이용 목적 제한 방침과 기타 모든 Amazon 약관을 준수해야 합니다. 웹 크롤러를 사용하여 자체 웹 페이지 또는 크롤링 권한이 있는 웹 페이지를 인덱싱하고 robots.txt 구성을 준수해야 합니다.

웹 크롤러는 RFC 9309에 따라 robots.txt를 준수합니다.

크롤링할 수 있는 웹 페이지 콘텐츠 항목 수와 콘텐츠 항목당 MB 크기에는 제한이 있습니다. Quotas for knowledge bases를 참조하세요.

지원 기능

웹 크롤러는 시드 URL에서 시작해 HTML 페이지를 연결하여 크롤링하고, 동일한 상위 기본 도메인 및 경로 아래에 있는 모든 하위 링크를 탐색합니다. HTML 페이지 중 지원되는 문서를 참조하는 경우 웹 크롤러는 이러한 문서가 동일한 상위 기본 도메인에 있는지 여부와 관계없이 해당 문서를 가져옵니다. 크롤링 구성을 변경하여 크롤링 동작을 수정할 수 있습니다. 연결 구성 섹션을 참조하세요.

다음과 같은 작업을 수행할 수 있습니다.

여러 소스 URLs 선택하여 크롤링하고 URLs 범위를 설정하여 호스트만 크롤링하거나 하위 도메인도 포함합니다.
소스 URLs.
사용자 지정 사용자 에이전트 접미사를 지정하여 자체 크롤러에 대한 규칙을 설정합니다.
필터 패턴과 일치하는 특정 URLs을 포함하거나 제외합니다.
'허용' 및 '허용 안 함'과 같은 표준 robots.txt 지침을 준수합니다.
URLs의 범위를 크롤링하도록 제한하고 선택적으로 필터 패턴과 일치하는 URL의 범위를 제외합니다.
URLs 크롤링 속도와 크롤링할 최대 페이지 수를 제한합니다.
Amazon CloudWatch에서 크롤링된 URLs의 상태 보기

사전 조건

웹 크롤러를 사용하려면 다음을 수행해야 합니다.

소스 URL을 크롤링할 권한이 있는지 확인합니다.
소스 URL에 해당하는 robots.txt 경로가 URL 크롤링을 차단하지 않는지 확인하세요. 웹 크롤러는 robots.txt의 표준을 준수합니다. 웹사이트에서 robots.txt가 발견되지 않으면 기본적으로 disallow가 적용됩니다. 웹 크롤러는 RFC 9309에 따라 robots.txt를 준수합니다. 사용자 지정 사용자 에이전트 헤더 접미사를 지정하여 자체 크롤러에 대한 규칙을 설정할 수도 있습니다. 자세한 내용은이 페이지의 연결 구성 지침에서 웹 크롤러 URL 액세스를 참조하세요.
CloudWatch Logs 전송을 활성화하고 웹 크롤러 로그의 예제에 따라 웹 콘텐츠를 수집하기 위한 데이터 수집 작업의 상태와 특정 URLs 검색할 수 없는지 확인합니다.

참고

크롤링할 웹 사이트를 선택할 때 Amazon 이용 목적 제한 방침과 기타 모든 Amazon 약관을 준수해야 합니다. 웹 크롤러를 사용하여 웹 페이지를 인덱싱하거나 인덱싱 권한이 있는 웹 페이지만 사용해야 한다는 점을 기억하세요.

연결 구성

아래에서 URL 크롤링 동기화 범위, 포함/제외 필터, URL 액세스, 증분 동기화 및 작동 방식에 대한 자세한 내용을 자세히 알아보세요.

각 페이지 URL과 시드 URL의 구체적인 관계를 기준으로 크롤링할 URL의 범위를 제한할 수 있습니다. 크롤링 속도를 높이려면 시드 URL과 동일한 호스트 및 초기 URL 경로를 갖는 URL로 제한할 수 있습니다. 더 광범위한 크롤링의 경우 동일한 호스트 내의 URL 또는 시드 URL의 하위 도메인 내의 URL을 크롤링하도록 선택할 수 있습니다.

다음 옵션 중에서 선택할 수 있습니다.

기본값: 기본값: 동일한 호스트에 속하고 동일한 초기 URL 경로를 사용하는 웹 페이지로 크롤링을 제한합니다. 예를 들어, ‘https://aws.amazon.com/bedrock/’이라는 시드 URL이 있으면 이 경로와 이 경로에서 확장되는 웹 페이지만 크롤링됩니다(예: https://aws.amazon.com/bedrock/agents/). ‘https://aws.amazon.com/ec2/’ 같은 형제 URL은 크롤링되지 않습니다.
호스트만 해당: 크롤링을 동일한 호스트에 속한 웹 페이지로 제한합니다. 예를 들어, 시드 URL이 ‘https://aws.amazon.com/bedrock/’인 경우, ‘https://aws.amazon.com’이 포함된 웹 페이지도 ‘https://aws.amazon.com/ec2’처럼 크롤링됩니다.
하위 도메인: 시드 URL과 동일한 기본 도메인을 갖는 모든 웹 페이지를 크롤링합니다. 예를 들어, 시드 URL이 ‘https://aws.amazon.com/bedrock/’인 경우 ‘amazon.com’(하위 도메인)이 포함된 모든 웹 페이지가 ‘https://www.amazon.com’처럼 크롤링됩니다.

참고

과도한 웹 페이지 크롤링이 발생하지 않도록 하세요. 필터나 범위 제한 없이 wikipedia.org 같은 대규모 웹 사이트를 크롤링하는 것은 권장되지 않습니다. 대규모 웹 사이트를 크롤링하는 데는 시간이 매우 오래 걸립니다.

지원되는 파일 유형은 범위에 관계없이 크롤링되며 파일 유형에 대한 제외 패턴이 없는 경우에도 크롤링됩니다.

웹 크롤러는 정적 웹 사이트를 지원합니다.

URLs 크롤링 속도를 제한하여 크롤링 속도의 제한을 제어할 수도 있습니다. 호스트당 분당 크롤링되는 최대 URLs 수를 설정합니다. 또한 크롤링할 총 웹 페이지의 최대 수(최대 25,000개)를 설정할 수도 있습니다. 소스 URLs의 총 웹 페이지 수가 설정된 최대값을 초과하면 데이터 소스 동기화/수집 작업이 실패합니다.

범위에 따라 특정 URL을 포함하거나 제외할 수 있습니다. 지원되는 파일 유형은 범위에 관계없이 크롤링되며 파일 유형에 대한 제외 패턴이 없는 경우에도 크롤링됩니다. 포함 및 제외 필터를 지정하고 두 필터가 모두 URL과 일치하는 경우 제외 필터가 우선하며 해당 웹 콘텐츠는 크롤링되지 않습니다.

중요

치명적인 역추적 및 예측으로 이어지는 문제가 있는 정규식 패턴 필터는 거부됩니다.

‘.pdf’로 끝나는 URL이나 PDF 웹 페이지 첨부 파일을 제외하기 위한 정규식 필터 패턴의 예: ‘.*\.pdf$’

웹 크롤러를 사용하여 크롤링할 권한이 있는 웹 사이트의 페이지를 크롤링할 수 있습니다.

웹 크롤러는 RFC 9309에 따라 robots.txt를 준수합니다.

특정 사용자 에이전트 봇을 지정하여 사용자 에이전트가 소스 URLs을 크롤링하도록 '허용' 또는 '허용'할 수 있습니다. 웹 사이트의 robots.txt 파일을 수정하여 웹 크롤러가 소스 URLs을 크롤링하는 방법을 제어할 수 있습니다. 크롤러는 먼저 robots.txt 파일에서 bedrockbot-UUID 규칙을 찾은 다음 일반 bedrockbot 규칙을 찾습니다.

봇 보호 시스템에서 크롤러를 허용 목록에 추가하는 데 사용할 수 있는 사용자 에이전트 접미사를 추가할 수도 있습니다. 이 접미사는 아무도 User Agent 문자열을 가장할 수 없도록 robots.txt 파일에 추가할 필요가 없습니다. 예를 들어 웹 크롤러가 모든 웹 사이트 콘텐츠를 크롤링하고 다른 로봇에 대한 크롤링을 허용하지 않도록 하려면 다음 명령을 사용합니다.


User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages

웹 크롤러가 실행될 때마다 범위 및 필터에 일치하는 소스 URL에서 연결할 수 있는 모든 URL의 콘텐츠를 검색합니다. 모든 콘텐츠의 첫 번째 동기화 후에 이루어지는 증분 동기화의 경우 Amazon Bedrock은 지식 기반을 새 콘텐츠 및 수정된 콘텐츠로 업데이트하고 더 이상 존재하지 않는 이전 콘텐츠를 제거합니다. 가끔 크롤러가 웹사이트에서 콘텐츠가 삭제되었는지 확인하지 못할 수도 있습니다. 이런 경우 크롤러는 지식 기반에 있는 오래된 콘텐츠를 보존하는 쪽으로 조치를 취합니다.

데이터 소스를 지식 기반과 동기화하려면 StartIngestionJob API를 사용하거나 콘솔에서 지식 기반을 선택하고 데이터 소스 개요 섹션에서 동기화를 선택합니다.

중요

데이터 소스에서 동기화하는 모든 데이터는 데이터를 검색할 수 있는 bedrock:Retrieve 권한이 있는 모든 사용자에게 제공됩니다. 여기에는 제어된 데이터 소스 권한이 있는 모든 데이터가 포함될 수 있습니다. 자세한 내용은 Knowledge base permissions를 참조하세요.

Console

웹 크롤러 데이터 소스를 지식 기반에 연결

의 단계를 Amazon Bedrock 지식 기반에서 데이터 소스에 연결하여 지식 기반 생성 따르고 웹 크롤러를 데이터 소스로 선택합니다.
데이터 소스의 이름과 선택적 설명을 제공합니다.
크롤링하려는 URL의 소스 URL을 제공합니다. 소스 URL 추가를 선택하여 최대 9개의 URL을 추가할 수 있습니다. 소스 URL을 제공하면 해당 도메인을 크롤링할 권한이 있음을 확인하는 것입니다.
고급 설정 섹션에서 선택적으로 다음을 구성할 수 있습니다.
- 임시 데이터 스토리지용 KMS 키입니다. - 데이터를 기본 AWS 관리형 키 또는 자체 KMS 키를 사용하여 임베딩으로 변환하는 동안 임시 데이터를 암호화할 수 있습니다. 자세한 내용은 데이터 모으기 중 임시 데이터 스토리지의 암호화 단원을 참조하십시오.
- 데이터 삭제 정책 - 기본적으로 벡터 저장소에 저장된 데이터 소스의 벡터 임베딩을 삭제하거나 벡터 저장소 데이터를 보존하도록 선택할 수 있습니다.
(선택 사항) 웹 서버에 액세스할 때 크롤러 또는 봇을 식별하는 bedrock-UUID-용 사용자 에이전트 접미사를 제공합니다.
동기화 범위 섹션에서 다음을 구성합니다.
1. 소스 URLs을 크롤링할 웹 사이트 도메인 범위를 선택합니다.
  - 기본값: 기본값: 동일한 호스트에 속하고 동일한 초기 URL 경로를 사용하는 웹 페이지로 크롤링을 제한합니다. 예를 들어, ‘https://aws.amazon.com/bedrock/’이라는 시드 URL이 있으면 이 경로와 이 경로에서 확장되는 웹 페이지만 크롤링됩니다(예: https://aws.amazon.com/bedrock/agents/). ‘https://aws.amazon.com/ec2/’ 같은 형제 URL은 크롤링되지 않습니다.
  - 호스트만 해당: 크롤링을 동일한 호스트에 속한 웹 페이지로 제한합니다. 예를 들어, 시드 URL이 ‘https://aws.amazon.com/bedrock/’인 경우, ‘https://aws.amazon.com’이 포함된 웹 페이지도 ‘https://aws.amazon.com/ec2’처럼 크롤링됩니다.
  - 하위 도메인: 시드 URL과 동일한 기본 도메인을 갖는 모든 웹 페이지를 크롤링합니다. 예를 들어, 시드 URL이 ‘https://aws.amazon.com/bedrock/’인 경우 ‘amazon.com’(하위 도메인)이 포함된 모든 웹 페이지가 ‘https://www.amazon.com’처럼 크롤링됩니다.
  참고
  과도한 웹 페이지 크롤링이 발생하지 않도록 하세요. 필터나 범위 제한 없이 wikipedia.org 같은 대규모 웹 사이트를 크롤링하는 것은 권장되지 않습니다. 대규모 웹 사이트를 크롤링하는 데는 시간이 매우 오래 걸립니다.
  지원되는 파일 유형은 범위에 관계없이 크롤링되며 파일 유형에 대한 제외 패턴이 없는 경우에도 크롤링됩니다.
2. 크롤링 속도의 최대 스로틀링을 입력합니다. 호스트당 1분에 1~300개의 URL을 수집합니다. 크롤링 속도가 높을수록 부하가 증가하지만 시간이 덜 소요됩니다.
3. 1~25,000 사이의 데이터 소스 동기화를 위한 최대 페이지를 입력합니다. 소스 URLs. 웹 페이지가이 수를 초과하면 데이터 소스 동기화가 실패하고 웹 페이지가 수집되지 않습니다.
4. URL Regex 패턴(선택 사항)의 경우 상자에 정규식 패턴을 입력하여 포함 패턴 또는 제외 패턴을 추가할 수 있습니다. 새 패턴 추가를 선택하여 최대 25개의 포함 필터 및 25개의 제외 필터 패턴을 추가할 수 있습니다. 포함 및 제외 패턴은 범위에 따라 크롤링됩니다. 충돌이 있는 경우 제외 패턴이 우선합니다.
(선택 사항) 콘텐츠 구문 분석 및 청킹 섹션에서 데이터를 구문 분석하고 청크하는 방법을 사용자 지정할 수 있습니다. 이러한 사용자 지정에 대해 자세히 알아보려면 다음 리소스를 참조하세요.
- 구문 분석 옵션에 대한 자세한 내용은 섹션을 참조하세요데이터 소스에 대한 구문 분석 옵션.
- 청킹 전략에 대한 자세한 내용은 섹션을 참조하세요지식 기반에서 콘텐츠 청킹의 작동 방식.
  
  주의
  데이터 소스에 연결한 후에는 청킹 전략을 변경할 수 없습니다.
- Lambda 함수를 사용하여 데이터 청킹 및 메타데이터 처리를 사용자 지정하는 방법에 대한 자세한 내용은 섹션을 참조하세요사용자 지정 변환 Lambda 함수를 사용하여 데이터 수집 방법 정의.
임베딩 모델 및 벡터 스토어를 계속 선택합니다. 나머지 단계를 보려면 로 돌아가서 데이터 소스를 연결한 후 단계를 Amazon Bedrock 지식 기반에서 데이터 소스에 연결하여 지식 기반 생성 계속합니다.

API

WebCrawler를 사용하여 지식 기반을 데이터 소스에 연결하려면 Agents for Amazon Bedrock 빌드 타임 엔드포인트를 사용하여 CreateDataSource 요청을 보내고 DataSourceConfiguration의 WEB type 필드에를 지정하고 webConfiguration 필드를 포함합니다. 다음은 Amazon Bedrock 지식 기반에 대한 웹 크롤러 구성의 예제입니다.


{
    "webConfiguration": {
        "sourceConfiguration": {
            "urlConfiguration": {
                "seedUrls": [{
                    "url": "https://www.examplesite.com"
                }]
            }
        },
        "crawlerConfiguration": {
            "crawlerLimits": {
                "rateLimit": 50,
                "maxPages": 100
            },
            "scope": "HOST_ONLY",
            "inclusionFilters": [
                "https://www\.examplesite\.com/.*\.html"
            ],
            "exclusionFilters": [
                "https://www\.examplesite\.com/contact-us\.html"
            ],
            "userAgent": "CustomUserAgent"
        }
    },
    "type": "WEB"
}

선택적 vectorIngestionConfiguration 필드를 포함하여 수집에 적용할 수 있는 사용자 지정에 대해 알아보려면 섹션을 참조하세요데이터 소스에 대한 수집 사용자 지정.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Salesforce

사용자 지정(Custom)

지식 기반의 웹 페이지 크롤링

참고

주제

지원 기능

사전 조건

참고

연결 구성

참고

중요

중요

웹 크롤러 데이터 소스를 지식 기반에 연결

참고

주의