S3 Vectors 및 벡터 버킷 작업
참고
Amazon S3 Vectors는 Amazon Simple Storage Service의 미리 보기 릴리스이며 변경될 수 있습니다.
Amazon S3 Vectors란 무엇인가요?
Amazon S3 Vectors는 시맨틱 검색 및 AI 애플리케이션을 위해 특별히 구축되고 비용 최적화된 벡터 스토리지를 제공합니다. 1초 미만의 쿼리 성능으로 벡터 데이터세트를 저장하기 위한 Amazon S3 수준의 탄력성과 내구성을 갖춘 S3 Vectors는 벡터 인덱스를 구축하고 확장해야 하는 애플리케이션에 적합합니다. 인프라를 프로비저닝하지 않고도 벡터 데이터에 대한 유사성 쿼리를 저장, 액세스 및 수행할 수 있는 전용 API 작업 세트가 제공됩니다. S3 Vectors는 함께 작동하는 몇 가지 주요 구성 요소로 구성됩니다.
-
벡터 버킷 - 벡터를 저장하고 쿼리하기 위해 특별히 구축된 새 버킷 유형입니다.
-
벡터 인덱스 - 벡터 버킷 내에서 벡터 인덱스 내 벡터 데이터를 구성할 수 있습니다. 벡터 인덱스 내에서 벡터 데이터에 대한 유사성 쿼리를 수행합니다.
-
벡터 - 벡터 인덱스에 벡터를 저장합니다. 유사성 검색 및 AI 애플리케이션의 경우, 벡터는 콘텐츠(예: 텍스트, 이미지 또는 오디오) 간의 시맨틱 관계를 보존하는 숫자 표현인 벡터 임베딩으로 만들어지므로 유사한 항목이 서로 더 가깝게 배치됩니다. S3 Vectors는 수학적으로 벡터가 서로 얼마나 가까운지를 비교하여 정확히 일치시키는 대신 시맨틱 의미를 기반으로 유사성 검색을 수행할 수 있습니다. 벡터 인덱스에 벡터 데이터를 추가할 때 조건 세트(예: 타임스탬프, 범주 및 사용자 기본 설정)를 기반으로 향후 필터링 쿼리를 위한 메타데이터를 연결할 수도 있습니다.
S3 Vectors에 대한 쓰기는 강력히 일관되므로 가장 최근에 추가된 데이터에 즉시 액세스할 수 있습니다. 시간이 지남에 따라 벡터를 작성, 업데이트 및 삭제하면 S3 Vectors는 데이터세트가 확장 및 발전하더라도 벡터 스토리지에 대해 가능한 최상의 가격 대비 성능을 달성하도록 벡터 데이터를 자동으로 최적화합니다. 버킷 및 IAM 정책을 비롯한 Amazon S3의 기존 액세스 제어 메커니즘을 사용하여 벡터 데이터에 대한 액세스를 제어할 수 있습니다. 버킷당 벡터 인덱스 제한 및 인덱스당 벡터 제한에 대한 자세한 내용은 한계 및 제한 섹션을 참조하세요.
사용 사례: 대규모 데이터세트 간 유사성 검색
유사성 검색을 사용하면 정확한 키워드 일치가 아닌 벡터 표현을 기반으로 개념적으로 서로 관련된 항목을 찾을 수 있습니다. 이러한 검색은 정확한 단어나 시각적 요소가 다른 경우에도 유사한 의미나 특성을 가진 콘텐츠를 식별합니다.
S3 Vectors를 사용한 유사성 검색의 일반적인 사용 사례는 다음과 같습니다.
-
의료 영상 - 진단 및 치료 계획에 도움이 되는 의료 이미지 수백만 개의 유사성 찾기
-
저작권 침해 - 대규모 미디어 라이브러리에서 잠재적으로 파생되었을 수 있는 콘텐츠 식별
-
이미지 중복 제거 - 대용량 이미지 컬렉션에서 중복되거나 거의 중복되는 이미지 감지 및 제거
-
비디오 이해 - 비디오 자산 내에서 특정 장면 또는 콘텐츠 검색
-
엔터프라이즈 문서 검색 - 회사 문서 간에 시맨틱 검색을 활성화하여 의미를 기반으로 관련 정보 찾기
-
개인 맞춤 - 유사한 항목을 찾아 맞춤형 추천 제공
1초 미만의 검색 시간으로 비용 효과적인 벡터 검색 및 에이전틱 AI 애플리케이션을 구축하려면 S3 Vectors를 사용해야 합니다. 벡터 버킷을 사용하면 사용한 만큼만 비용을 지불하고 벡터 임베딩 업로드, 저장 및 쿼리 비용을 절감할 수 있습니다. 요금에 대한 자세한 내용은 Amazon S3 요금
S3 Vectors의 기능
벡터용으로 특별히 구축된 스토리지
S3 Vectors는 벡터를 저장하고 쿼리할 목적으로 클라우드에 구축된 최초의 객체 스토리지입니다. 벡터 버킷은 벡터 데이터를 위한 비용 효과적이고 탄력적이며 내구성 있는 스토리지를 제공하도록 설계되었습니다.
벡터 임베딩은 의료 이미지 전반의 유사성을 감지하고, 수천 시간의 비디오 영상에서 이상을 찾고, 대규모 코드 베이스를 탐색하고, 특정 법적 문제와 가장 관련성이 높은 판례법을 식별하는 등 고객이 비정형 데이터를 사용하고 검색하는 방법을 혁신하고 있습니다. 이러한 새로운 애플리케이션은 임베딩 모델과 결합되어 데이터의 시맨틱 의미(예: 텍스트, 이미지, 비디오, 코드)를 숫자 벡터 임베딩으로 인코딩합니다.
벡터 버킷 내에서 인프라를 프로비저닝하지 않고 벡터 인덱스 내 벡터 데이터를 구성합니다. 시간이 지남에 따라 벡터를 작성, 업데이트 및 삭제하면 S3 Vectors는 데이터세트가 확장 및 발전하더라도 벡터 스토리지에 대해 가능한 최상의 가격 대비 성능을 달성하도록 벡터 데이터를 자동으로 최적화합니다. 버킷당 벡터 인덱스 제한 및 인덱스당 벡터 제한에 대한 자세한 내용은 한계 및 제한 섹션을 참조하세요.
유사성 쿼리 수행
S3 Vectors를 사용하면 효율적인 유사성 쿼리를 수행하여 1초 미만의 응답 시간으로 쿼리 벡터와 가장 유사한 벡터를 찾을 수 있습니다. S3 Vectors는 쿼리 빈도가 낮은 워크로드에 적합합니다.
메타데이터 필터링
메타데이터(예: 연도, 작성자, 장르 및 위치)를 키-값 페어로 벡터에 연결할 수 있습니다. 필터링 불가능으로 명시적으로 지정하지 않는 한 기본적으로 모든 메타데이터를 필터링할 수 있습니다. 필터링 가능한 메타데이터를 사용하여 특정 속성을 기반으로 쿼리 결과를 필터링하여 쿼리의 관련성을 높일 수 있습니다. 벡터 인덱스는 메타데이터의 문자열, 숫자, 부울 및 목록 유형을 지원합니다. 벡터당 메타데이터 크기 제한 및 벡터당 필터링 가능한 메타데이터 크기 제한에 대한 자세한 내용은 한계 및 제한 섹션을 참조하세요.
액세스 관리 및 보안
AWS Organizations의 IAM 및 서비스 제어 정책을 사용하여 벡터 버킷의 리소스에 대한 액세스를 관리할 수 있습니다. S3 Vectors는 Amazon S3와 다른 서비스 네임스페이스인 s3vectors
네임스페이스를 사용합니다. 따라서 S3 Vectors 서비스 및 해당 리소스에 대한 정책을 구체적으로 설계할 수 있습니다. 개별 벡터 인덱스, 벡터 버킷 내의 모든 벡터 인덱스 또는 계정의 모든 벡터 버킷에 대한 액세스 권한을 부여하는 정책을 설계할 수 있습니다. 모든 Amazon S3 Block Public Access 설정은 벡터 버킷에 대해 항상 활성화되며 비활성화할 수 없습니다.
AWS 서비스와 통합
S3 Vectors는 다른 AWS 서비스와 통합되어 벡터 처리 기능을 개선합니다.
-
Amazon OpenSearch Service
- OpenSearch API 작업을 계속 사용하면서 벡터 스토리지 비용을 최적화합니다. 이는 하이브리드 검색, 집계, 고급 필터링, 패싯된 검색과 같은 고급 검색 기능이 필요한 워크로드에 적합합니다. 높은 QPS 및 짧은 지연 시간 벡터 검색을 위해 S3 벡터 인덱스의 스냅샷을 Amazon OpenSearch Serverless로 내보낼 수도 있습니다. -
Amazon Bedrock 지식 기반
- 검색 증강 생성(RAG) 애플리케이션의 스토리지 비용을 절약하려면 S3 Vectors에서 벡터 인덱스를 벡터 스토어로 선택합니다. -
SageMaker Unified Studio의 Amazon Bedrock
- S3 Vectors를 벡터 스토어로 사용하여 지식 기반을 개발하고 테스트합니다.