스토리지 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

스토리지

질문

응답의 예

훈련 데이터는 어디에 저장되나요?

클라우드 스토리지(예: Amazon S3, 파일 스토리지, 블록 스토리지 또는 객체 스토리지), 온프레미스 스토리지 등.

훈련 데이터 및 모델 아티팩트(예: 용량, 내구성, 가용성)의 스토리지 요구 사항은 무엇입니까?

페타바이트 규모의 스토리지, 높은 내구성(99.999999999% 내구성), 고가용성 등.

훈련 데이터 및 모델 아티팩트에 대한 데이터 보존 및 백업 요구 사항은 무엇입니까?

x년, 일별 백업, 오프사이트 백업 등의 데이터 보존.

AI 훈련 데이터 세트를 저장하는 데 주로 사용되는 파일 형식(예: CSV, JSON, Parquet, HDF5)은 무엇입니까?

정형 데이터용 Parquet 파일과 이미지 및 텍스트와 같은 대형 다차원 배열 및 비정형 데이터용 HDF5. TFRecord와 같은 특수 형식을 사용하여 훈련 중에 데이터 로드를 최적화합니다.

개별 파일, 데이터베이스 또는 특수 AI 데이터 형식 사용 등 훈련 데이터 세트는 어떻게 구성되어 있습니까?

중소 규모 데이터 세트는 유연성을 위해 객체 스토리지에 개별 Parquet 파일로 저장됩니다. 대규모 데이터 세트는 분산 데이터베이스(Cassandra)에 저장되어 규모를 처리합니다.

생성형 AI 훈련 데이터에 특히 데이터 압축 또는 인코딩 기술을 사용하십니까?

테이블 형식 데이터의 경우 Parquet에서 사용할 수 있는 사전 인코딩 및 비트 패키징 기술을 사용합니다. 이미지의 경우 모델에 최적화된 품질 설정과 함께 손실된 JPEG 압축을 사용합니다.

다양한 교육 데이터 세트 반복의 버전 관리 및 저장을 어떻게 처리하나요? 이는 전체 스토리지 요구 사항에 어떤 영향을 미칩니까?

ML 플랫폼과 통합된 데이터 버전 관리 시스템(DVC)을 사용합니다.