기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Kendra 웹 크롤러 커넥터 v1.0
Amazon Kendra 웹 크롤러를 사용하여 웹 페이지를 크롤링하고 인덱싱할 수 있습니다.
보안 통신 프로토콜인 HTTPS(Hypertext Transfer Protocol Secure)를 사용하는 웹사이트와 공개 웹 사이트만 크롤링할 수 있습니다. 웹 사이트를 크롤링할 때 오류가 발생하면 웹 사이트가 크롤링되지 않도록 차단되었을 수 있습니다. 내부 웹 사이트를 크롤링하기 위해 웹 프록시를 설정할 수 있습니다. 이 웹 프록시는 공개용이어야 합니다.
인덱싱할 웹 사이트를 선택할 때 Amazon 이용 정책
참고
Amazon Kendra 웹 크롤러를 남용하여 소유하지 않은 웹 사이트 또는 웹 페이지를 공격적으로 크롤링하는 것은 허용 가능한 사용으로 간주되지 않습니다.
Amazon Kendra 웹 크롤러 데이터 소스 커넥터 문제 해결은 섹션을 참조하세요데이터 소스 문제 해결.
지원 기능
-
웹 프록시
-
포함/제외 필터
사전 조건
Amazon Kendra 를 사용하여 웹 사이트를 인덱싱하려면 먼저 웹 사이트 및 AWS 계정의 세부 정보를 확인하세요.
웹 사이트의 경우 다음이 있어야 합니다.
-
인덱싱하려는 웹 사이트의 시드 또는 사이트맵 URL을 복사했습니다.
-
기본 인증이 필요한 웹 사이트의 경우: 사용자 이름과 암호를 기록하고 웹 사이트의 호스트 이름과 포트 번호를 복사했습니다.
-
선택 사항: 웹 프록시를 사용하여 크롤링하려는 내부 웹 사이트에 연결하려는 경우 웹 사이트의 호스트 이름과 포트 번호를 복사했습니다. 이 웹 프록시는 공용이어야 합니다. Amazon Kendra 에서는 기본 인증으로 뒷받침되는 웹 프록시 서버 또는 인증 없이 연결할 수 있는 웹 프록시 서버에 연결할 수 있습니다.
-
인덱싱하려는 각 웹 페이지 문서가 고유한지, 동일한 인덱스에 사용할 다른 데이터 소스 전체를 확인했습니다. 인덱스에 사용하려는 각 데이터 소스에는 데이터 소스 전체에서 동일한 문서가 포함되어서는 안 됩니다. 문서 ID는 인덱스 전체에 적용되며 인덱스별로 고유해야 합니다.
AWS 계정에 다음이 있는지 확인합니다.
-
Amazon Kendra 인덱스를 생성하고 API를 사용하는 경우 인덱스 ID를 기록했습니다.
-
데이터 소스에 대한 IAM 역할을 생성하고 API를 사용하는 경우 IAM 역할의 ARN을 기록했습니다.
참고
인증 유형과 자격 증명을 변경하는 경우 올바른 AWS Secrets Manager 보안 암호 ID에 액세스하도록 IAM 역할을 업데이트해야 합니다.
-
인증이 필요한 웹 사이트의 경우 또는 인증과 함께 웹 프록시를 사용하는 경우는 보안 AWS Secrets Manager 암호에 인증 자격 증명을 저장하고 API를 사용하는 경우 보안 암호의 ARN을 기록했습니다.
참고
보안 인증 정보와 보안 암호를 정기적으로 새로 고치거나 교체하는 것이 좋습니다. 보안을 위해 필요한 액세스 수준만 제공하세요. 데이터 소스, 커넥터 버전 1.0 및 2.0(해당하는 경우) 간에 보안 인증 정보와 보안 암호를 재사용하지 않는 것이 좋습니다.
기존 IAM 역할이나 보안 암호가 없는 경우 web crawler 데이터 소스를 연결할 때 콘솔을 사용하여 새 IAM 역할 및 Secrets Manager 보안 암호를 생성할 수 있습니다 Amazon Kendra. API를 사용하는 경우 기존 IAM 역할 및 Secrets Manager 보안 암호의 ARN과 인덱스 ID를 제공해야 합니다.
연결 지침
web crawler 데이터 소스 Amazon Kendra 에 연결하려면가 web crawler 데이터에 액세스할 Amazon Kendra 수 있도록 데이터 소스에 필요한 세부 정보를 제공해야 합니다. 아직에 web crawler 대해를 구성하지 않은 경우 섹션을 Amazon Kendra 참조하세요사전 조건.
Amazon Kendra 에 연결하려면 web crawler
-
에 로그인 AWS Management Console 하고 Amazon Kendra 콘솔
을 엽니다. -
왼쪽 탐색 창에서 인덱스를 선택한 다음 인덱스 목록에서 사용할 인덱스를 선택합니다.
참고
인덱스 설정에서 사용자 액세스 제어 설정을 구성하거나 편집할 수 있습니다.
-
시작하기 페이지에서 데이터 소스 추가를 선택합니다.
-
데이터 소스 추가 페이지에서 웹 크롤러 커넥터를 선택한 다음 커넥터 추가를 선택합니다. 버전 2(해당하는 경우)를 사용하는 경우 "V2.0" 태그가 있는 웹 크롤러 커넥터를 선택합니다.
-
데이터 소스 세부 정보 지정 페이지에서 다음 정보를 입력합니다.
-
이름 및 설명에서 데이터 소스 이름에 데이터 소스의 이름을 입력합니다. 하이픈은 포함할 수 있지만 공백은 포함할 수 없습니다.
-
(선택 사항) 설명 - 데이터 소스에 대한 선택적 설명을 입력합니다.
-
기본 언어 - 문서를 인덱스로 필터링할 언어를 선택합니다. 달리 지정하지 않는 한, 언어는 영어로 기본 설정됩니다. 문서 메타데이터에 지정된 언어가 선택한 언어보다 우선합니다.
-
태그에서 새 태그 추가 - 리소스를 검색 및 필터링하거나 AWS 비용을 추적하는 선택적 태그를 포함합니다.
-
Next(다음)를 선택합니다.
-
-
액세스 및 보안 정의 페이지에서 다음 정보를 입력합니다.
-
소스의 경우 사용 사례에 따라 소스 URL과 소스 사이트맵 중에서 선택하고 각 값을 입력합니다.
최대 10개의 소스 URL과 3개의 사이트맵을 추가할 수 있습니다.
참고
사이트맵을 크롤링하려면 기본 또는 루트 URL이 사이트맵 페이지에 나열된 URL과 동일한지 확인하세요. 예를 들어 사이트맵 URL이 https://example.com/sitemap-page.html인 경우 이 사이트맵 페이지에 나열된 URL도 기본 URL “https://example.com/”을 사용해야 합니다.
-
(선택 사항) 웹 프록시의 경우 다음 정보를 입력합니다.
-
호스트 이름 - 웹 프록시가 필요한 호스트 이름입니다.
-
포트 번호 - 호스트 URL 전송 프로토콜에서 사용하는 포트입니다. 포트 번호는 0에서 65535 사이의 숫자 값이어야 합니다.
-
웹 프록시 보안 인증의 경우 - 웹 프록시 연결에 인증이 필요한 경우 기존 보안 암호를 선택하거나 보안 인증 정보를 저장할 새 보안 암호를 생성합니다. 새 암호를 만들기로 선택하면 AWS Secrets Manager 보안 암호 창이 열립니다.
-
AWS Secrets Manager Secrets Manager 보안 암호 생성 창에 다음 정보를 입력합니다.
-
보안 암호 이름 - 보안 암호의 이름. 'AmazonKendra-WebCrawler-'라는 접두사가 보안 암호 이름에 자동으로 추가됩니다.
-
사용자 이름 및 암호의 경우 - 웹 사이트의 기본 보안 인증 정보를 입력합니다.
-
저장(Save)을 선택합니다.
-
-
-
(선택 사항) 인증 받은 호스트 - 인증 받은 호스트를 더 추가하려면 선택합니다.
-
IAM 역할 - 기존 IAM 역할을 선택하거나 새 IAM 역할을 생성하여 리포지토리 자격 증명 및 인덱스 콘텐츠에 액세스합니다.
참고
IAM 인덱스에 사용되는 역할은 데이터 소스에 사용할 수 없습니다. 기존 역할을 인덱스나 FAQ에 사용하는지 확실하지 않은 경우 새 역할 생성을 선택하여 오류를 방지하세요.
-
Next(다음)를 선택합니다.
-
-
동기화 설정 구성 페이지에 다음 정보를 입력합니다.
-
크롤링 범위 - 크롤링하려는 웹 페이지의 종류를 선택합니다.
-
크롤링 깊이 - 크롤링 Amazon Kendra 해야 하는 시드 URL의 레벨 수를 선택합니다.
-
고급 크롤링 설정 및 추가 구성은 다음 정보를 입력합니다.
-
최대 파일 크기 - 크롤링할 최대 웹 페이지 또는 첨부 파일 크기입니다. 최소 0.000001MB(1바이트). 최대 50MB.
-
페이지당 최대 링크 수 - 페이지당 크롤링된 최대 링크 수입니다. 링크는 표시되는 순서대로 크롤링됩니다. 페이지당 최소 1개 링크. 페이지당 최대 1000개의 링크.
-
최대 제한 - 1분간 호스트 이름당 크롤링되는 최대 URL 수입니다. 분당 호스트 이름당 최소 1개 URL. 분당 호스트 이름당 최대 300개 URL.
-
정규식 패턴 - 특정 URL을 포함하거나 제외하기 위한 정규 표현식 패턴을 추가합니다. 최대 100개의 패턴을 추가할 수 있습니다.
-
-
동기화 실행 일정에서 빈도 - Amazon Kendra 가 데이터 소스와 동기화하는 빈도를 선택합니다.
-
Next(다음)를 선택합니다.
-
-
검토 및 생성 페이지에서 입력한 정보가 정확한지 확인한 다음 데이터 소스 추가를 선택합니다. 이 페이지에서 정보를 편집하도록 선택할 수도 있습니다. 데이터 소스가 성공적으로 추가된 후 데이터 소스 페이지에 데이터 소스가 표시됩니다.
자세히 알아보기
를 web crawler 데이터 소스 Amazon Kendra 와 통합하는 방법에 대한 자세한 내용은 다음을 참조하세요.