데이터 전략 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 전략

질문

응답의 예

생성형 AI 워크로드에 중요한 특정 데이터 유형은 무엇이며,이 중 현재 액세스할 수 있는 데이터 유형은 몇 퍼센트입니까?

고객 통화 로그 및 제품 리뷰 데이터는 매우 중요합니다. 현재 이러한 데이터 유형의 85%는 생성형 AI 프로젝트에 액세스할 수 있습니다.

데이터의 품질을 어떻게 보장하고 측정하나요?

완전성, 정확성, 일관성 및 적시성을 포함한 데이터 품질 지표를 구현했습니다. 자동화된 도구를 사용하여 이러한 지표를 정기적으로 평가하고 데이터 정리 및 보강을 위한 전담 팀이 있습니다.

생성형 AI 사용에 대한 품질 표준을 충족하는 데이터의 비율은 얼마나 됩니까?

현재 데이터의 78%가 품질 표준을 충족합니다. 데이터 정리 프로세스를 개선하여 향후 12개월 이내에 95%를 목표로 하고 있습니다.

이해관계자 간에 생성형 AI의 데이터 사용에 대한 신뢰를 구축하려면 어떻게 해야 하나요?

AI 위원회를 구현하고, AI 결정에 대한 명확한 설명을 제공하고, 투명성과 공정성을 보장하기 위해 분기별 AI 감사를 수행하고 있습니다.

데이터 소스 및 계보에 대한 설명서는 얼마나 포괄적입니까?

오리진, 업데이트 빈도 및 사용량을 포함하여 모든 데이터 소스에 대한 메타데이터가 포함된 세부 데이터 카탈로그를 유지합니다. 데이터 계보 도구를 사용하여 시스템 전반의 데이터 흐름 및 변환 방식을 추적합니다.

AI 모델의 편향을 방지하기 위해 데이터 세트의 다양성을 보장하려면 어떻게 해야 하나요?

다양한 인구 집단에서 데이터를 적극적으로 소싱하고 데이터세트에 표현 편향이 있는지 정기적으로 감사합니다. 또한 합성 데이터 생성 기술을 사용하여 과소 대표된 범주의 균형을 맞춥니다.

중요한 생성형 AI 모델의 데이터 새로 고침 빈도는 얼마이며이 빈도를 어떻게 결정하나요?

중요 모델은 매주 새로 고쳐집니다. 이 빈도는 A/B 테스트 성능 지표에 따라 결정되며 새로 고침 간 성능 저하를 2% 이하로 줄이는 것을 목표로 합니다.

얼마나 많은 버전의 중요 데이터 세트를 유지 관리하며 얼마나 오래 유지 관리하나요?

각 중요한 데이터 세트의 마지막 5개 버전을 유지하며, 각 버전에 대해 보존 기간은 18개월입니다.

생성형 AI 이니셔티브에 참여하고 데이터에 액세스할 수 있는 부서 간 팀은 몇 명입니까?

3개의 부서 간 팀이 있습니다. 각 팀에는 데이터 과학자, 도메인 전문가, 민족학자 및 비즈니스 분석가가 포함됩니다.

어떤 데이터 거버넌스 정책 및 관행이 마련되어 있습니까?

데이터 정책을 감독하는 부서 간 데이터 거버넌스 위원회가 있습니다. 거버넌스 프레임워크 준수를 보장하기 위해 역할 기반 액세스 제어, 데이터 분류 체계 및 정기 감사를 구현했습니다.

데이터 프라이버시를 보장하고, 적절한 동의를 얻고, 기밀성을 유지하기 위해 어떤 조치가 마련되어 있습니까?

GDPR 및 CCPA와 일치하는 포괄적인 데이터 프라이버시 프레임워크를 구현했습니다. 여기에는 데이터 사용에 대한 명시적 동의 획득, 데이터 익명화 기법 구현, 정기적인 개인 정보 영향 평가가 포함됩니다.

지난 분기에 편향에 대해 감사를 받은 AI 훈련 데이터 세트의 비율은 얼마나 됩니까?

지난 분기에 AI 훈련 데이터 세트의 70%가 편향에 대해 감사를 받았습니다. 100% 분기별 감사를 달성하기 위해 자동화된 편향 감지 도구를 구현하고 있습니다.

현재 데이터 처리 용량은 얼마이며 향후 생성형 AI 워크로드에 얼마나 필요할 것으로 예상하십니까?

현재 용량은 10TB/일입니다. 1년 내에 30TB/일이 필요할 것으로 예상되며이 수요에 맞게 인프라를 확장하고 있습니다.

생성형 AI 모델의 데이터 요구 사항과 데이터 프라이버시의 균형을 맞추기 위한 전략은 무엇입니까?

고급 익명화 기법과 합성 데이터 생성을 구현하고 있습니다. 목표는 내년에 개인 정보 보호 위험을 60% 줄이면서 AI에 사용할 수 있는 데이터를 40% 늘리는 것입니다.

기계 학습(ML) 데이터 세트의 몇 퍼센트에 정확하게 레이블이 지정되어 있으며 목표 정확도는 얼마입니까?

현재 ML 데이터 세트의 85%에 정확하게 레이블이 지정되어 있습니다. 인적 레이블 지정 기법과 자동화된 레이블 지정 기법을 모두 사용하여 다음 분기 내에 95%의 정확도를 목표로 합니다.