벡터 수집 - Amazon OpenSearch Service

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

벡터 수집

벡터 수집을 사용하면 OpenSearch 도메인 및 OpenSearch Serverless 컬렉션을 빠르게 수집하고 인덱싱할 수 있습니다. 서비스는 도메인 또는 컬렉션을 검사하고 사용자를 대신하여 수집 파이프라인을 생성하여 OpenSearch에 데이터를 로드합니다. 도메인 또는 컬렉션의 수집 및 인덱싱은 벡터 수집을 통해 관리됩니다.

벡터 인덱싱을 위한 GPU 가속화자동 최적화 기능을 활성화하여 인덱싱 프로세스를 가속화하고 최적화할 수 있습니다. 벡터 수집을 사용하면 벡터 데이터베이스 인덱싱 및 수집을 지원하기 위해 기본 인프라, 패치 소프트웨어 또는 스케일 클러스터를 관리할 필요가 없습니다. 이를 통해 필요에 맞게 벡터 데이터베이스를 빠르게 구축할 수 있습니다.

작동 방식

벡터 수집은 도메인 또는 컬렉션과 인덱스를 검사합니다. 벡터 인덱스 필드를 수동으로 구성하거나 OpenSearch가 자동 구성을 사용하도록 허용할 수 있습니다.

벡터 수집은 OpenSearch Ingestion(OSI)을 Amazon S3와 OpenSearch 간의 데이터 파이프라인으로 사용합니다. 이 서비스는 벡터를 병렬로 처리하여 수집 속도를 최적화하는 동시에 OSI와 OpenSearch 모두의 조정 제한을 준수합니다.

OpenSearch 벡터 수집 요금

파이프라인을 통해 흐르는 데이터가 있는지 여부에 관계없이 파이프라인에 할당된 벡터 수집 OCUs 수에 대해서만 특정 시간에 비용을 지불합니다. OpenSearch 벡터 수집은 사용량에 따라 파이프라인 용량을 늘리거나 줄여 워크로드를 즉시 수용합니다.

전체 요금 세부 정보는 Amazon OpenSearch Service 요금을 참조하세요.

사전 조건

벡터 수집을 사용하기 전에 다음 리소스가 있는지 확인합니다.

  • Parquet 형식의 OpenSearch JSON 문서가 포함된 Amazon S3 버킷

  • OpenSearch 리소스 - 도메인 또는 컬렉션

  • OpenSearch 버전 2.19 이상(통합 자동 최적화에 필요)

벡터 데이터베이스 생성

벡터 수집 작업 생성 워크플로를 사용하여 자동화된 벡터 인덱스 튜닝을 설정하고 대규모 인덱스 빌드를 가속화합니다.

참고

이 섹션의 절차 콘텐츠는 사용자 인터페이스가 완료됨에 따라 변경될 수 있습니다. 워크플로는 최신 콘솔 환경을 반영하도록 향후 릴리스에서 업데이트될 수 있습니다.

벡터 주입 작업을 생성하려면
  1. 벡터 수집 작업 세부 정보 섹션의 이름에 수집 작업의 이름을 입력합니다.

  2. 데이터 소스 섹션에서 다음을 구성합니다.

    1. Amazon S3 URI에 OpenSearch Service JSON 문서가 포함된 Amazon S3 버킷 위치를 입력합니다.

    2. Amazon S3 찾아보기를 선택하여 사용 가능한 버킷 중에서 선택하거나 보기를 선택하여 버킷 콘텐츠를 미리 봅니다.

    3. 콘텐츠 유형에서 다음 중 하나를 선택합니다.

      • 벡터 - 문서에는 이미 벡터가 포함되어 있으며 추가 벡터 임베딩 생성이 필요하지 않습니다.

      • 텍스트, 이미지 또는 오디오 - 문서에는 벡터 임베딩으로 인코딩해야 하는 텍스트, 이미지 또는 오디오 바이트와 같은 콘텐츠가 포함되어 있습니다.

  3. 데이터 소스 권한 섹션에서 액세스 권한을 구성합니다.

    1. IAM 역할의 경우, 다음 중 하나를 선택합니다.

      • 새 역할 생성

      • 기존 역할 사용

    2. IAM 역할 이름에 역할 이름을 입력합니다.

  4. 대상 섹션에서 OpenSearch Service 엔드포인트를 구성합니다.

    1. 엔드포인트에서 옵션 선택을 선택하여 현재 리전의 호환 도메인 또는 컬렉션 중에서 선택합니다.

    2. 다음을 선택하여 선택한 엔드포인트로 진행합니다.

  5. 다음을 선택하여 다음 단계로 진행하거나 취소를 선택하여 저장하지 않고 종료합니다.

벡터 수집은 다음 Amazon OpenSearch Service 기능과 함께 작동하여 벡터 데이터베이스 성능을 최적화합니다.

벡터 인덱싱을 위한 GPU 가속화

GPU 가속화는 벡터 인덱스를 생성, 업데이트 및 삭제하는 데 필요한 시간을 줄입니다. 벡터 수집과 함께 사용하면 대규모 벡터 데이터베이스의 수집 및 인덱싱 프로세스를 크게 가속화할 수 있습니다.

자동 최적화

자동 최적화는 검색 지연 시간, 품질 및 메모리 요구 사항 간의 최적의 균형을 자동으로 검색합니다. 벡터 수집은 수집 프로세스 중에 자동 최적화 권장 사항을 적용하여 벡터 인덱스가 최적으로 구성되도록 할 수 있습니다.

최상의 결과를 얻으려면 벡터 수집을 사용하여 대규모 벡터 데이터베이스를 구축할 때 GPU 가속화와 자동 최적화를 모두 활성화하는 것이 좋습니다.