기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
스토리지
질문 |
응답의 예 |
---|---|
훈련 데이터는 어디에 저장되나요? |
클라우드 스토리지(예: Amazon S3, 파일 스토리지, 블록 스토리지 또는 객체 스토리지), 온프레미스 스토리지 등. |
훈련 데이터 및 모델 아티팩트(예: 용량, 내구성, 가용성)의 스토리지 요구 사항은 무엇입니까? |
페타바이트 규모의 스토리지, 높은 내구성(99.999999999% 내구성), 고가용성 등. |
훈련 데이터 및 모델 아티팩트에 대한 데이터 보존 및 백업 요구 사항은 무엇입니까? |
x년, 일별 백업, 오프사이트 백업 등의 데이터 보존. |
AI 훈련 데이터 세트를 저장하는 데 주로 사용되는 파일 형식(예: CSV, JSON, Parquet, HDF5)은 무엇입니까? |
정형 데이터용 Parquet 파일과 이미지 및 텍스트와 같은 대형 다차원 배열 및 비정형 데이터용 HDF5. TFRecord와 같은 특수 형식을 사용하여 훈련 중에 데이터 로드를 최적화합니다. |
개별 파일, 데이터베이스 또는 특수 AI 데이터 형식 사용 등 훈련 데이터 세트는 어떻게 구성되어 있습니까? |
중소 규모 데이터 세트는 유연성을 위해 객체 스토리지에 개별 Parquet 파일로 저장됩니다. 대규모 데이터 세트는 분산 데이터베이스(Cassandra)에 저장되어 규모를 처리합니다. |
생성형 AI 훈련 데이터에 특히 데이터 압축 또는 인코딩 기술을 사용하십니까? |
테이블 형식 데이터의 경우 Parquet에서 사용할 수 있는 사전 인코딩 및 비트 패키징 기술을 사용합니다. 이미지의 경우 모델에 최적화된 품질 설정과 함께 손실된 JPEG 압축을 사용합니다. |
다양한 교육 데이터 세트 반복의 버전 관리 및 저장을 어떻게 처리하나요? 이는 전체 스토리지 요구 사항에 어떤 영향을 미칩니까? |
ML 플랫폼과 통합된 데이터 버전 관리 시스템(DVC)을 사용합니다. |