기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
데이터 전략
질문 |
응답의 예 |
---|---|
생성형 AI 워크로드에 중요한 특정 데이터 유형은 무엇이며,이 중 현재 액세스할 수 있는 데이터 유형은 몇 퍼센트입니까? |
고객 통화 로그 및 제품 리뷰 데이터는 매우 중요합니다. 현재 이러한 데이터 유형의 85%는 생성형 AI 프로젝트에 액세스할 수 있습니다. |
데이터의 품질을 어떻게 보장하고 측정하나요? |
완전성, 정확성, 일관성 및 적시성을 포함한 데이터 품질 지표를 구현했습니다. 자동화된 도구를 사용하여 이러한 지표를 정기적으로 평가하고 데이터 정리 및 보강을 위한 전담 팀이 있습니다. |
생성형 AI 사용에 대한 품질 표준을 충족하는 데이터의 비율은 얼마나 됩니까? |
현재 데이터의 78%가 품질 표준을 충족합니다. 데이터 정리 프로세스를 개선하여 향후 12개월 이내에 95%를 목표로 하고 있습니다. |
이해관계자 간에 생성형 AI의 데이터 사용에 대한 신뢰를 구축하려면 어떻게 해야 하나요? |
AI 위원회를 구현하고, AI 결정에 대한 명확한 설명을 제공하고, 투명성과 공정성을 보장하기 위해 분기별 AI 감사를 수행하고 있습니다. |
데이터 소스 및 계보에 대한 설명서는 얼마나 포괄적입니까? |
오리진, 업데이트 빈도 및 사용량을 포함하여 모든 데이터 소스에 대한 메타데이터가 포함된 세부 데이터 카탈로그를 유지합니다. 데이터 계보 도구를 사용하여 시스템 전반의 데이터 흐름 및 변환 방식을 추적합니다. |
AI 모델의 편향을 방지하기 위해 데이터 세트의 다양성을 보장하려면 어떻게 해야 하나요? |
다양한 인구 집단에서 데이터를 적극적으로 소싱하고 데이터세트에 표현 편향이 있는지 정기적으로 감사합니다. 또한 합성 데이터 생성 기술을 사용하여 과소 대표된 범주의 균형을 맞춥니다. |
중요한 생성형 AI 모델의 데이터 새로 고침 빈도는 얼마이며이 빈도를 어떻게 결정하나요? |
중요 모델은 매주 새로 고쳐집니다. 이 빈도는 A/B 테스트 성능 지표에 따라 결정되며 새로 고침 간 성능 저하를 2% 이하로 줄이는 것을 목표로 합니다. |
얼마나 많은 버전의 중요 데이터 세트를 유지 관리하며 얼마나 오래 유지 관리하나요? |
각 중요한 데이터 세트의 마지막 5개 버전을 유지하며, 각 버전에 대해 보존 기간은 18개월입니다. |
생성형 AI 이니셔티브에 참여하고 데이터에 액세스할 수 있는 부서 간 팀은 몇 명입니까? |
3개의 부서 간 팀이 있습니다. 각 팀에는 데이터 과학자, 도메인 전문가, 민족학자 및 비즈니스 분석가가 포함됩니다. |
어떤 데이터 거버넌스 정책 및 관행이 마련되어 있습니까? |
데이터 정책을 감독하는 부서 간 데이터 거버넌스 위원회가 있습니다. 거버넌스 프레임워크 준수를 보장하기 위해 역할 기반 액세스 제어, 데이터 분류 체계 및 정기 감사를 구현했습니다. |
데이터 프라이버시를 보장하고, 적절한 동의를 얻고, 기밀성을 유지하기 위해 어떤 조치가 마련되어 있습니까? |
GDPR 및 CCPA와 일치하는 포괄적인 데이터 프라이버시 프레임워크를 구현했습니다. 여기에는 데이터 사용에 대한 명시적 동의 획득, 데이터 익명화 기법 구현, 정기적인 개인 정보 영향 평가가 포함됩니다. |
지난 분기에 편향에 대해 감사를 받은 AI 훈련 데이터 세트의 비율은 얼마나 됩니까? |
지난 분기에 AI 훈련 데이터 세트의 70%가 편향에 대해 감사를 받았습니다. 100% 분기별 감사를 달성하기 위해 자동화된 편향 감지 도구를 구현하고 있습니다. |
현재 데이터 처리 용량은 얼마이며 향후 생성형 AI 워크로드에 얼마나 필요할 것으로 예상하십니까? |
현재 용량은 10TB/일입니다. 1년 내에 30TB/일이 필요할 것으로 예상되며이 수요에 맞게 인프라를 확장하고 있습니다. |
생성형 AI 모델의 데이터 요구 사항과 데이터 프라이버시의 균형을 맞추기 위한 전략은 무엇입니까? |
고급 익명화 기법과 합성 데이터 생성을 구현하고 있습니다. 목표는 내년에 개인 정보 보호 위험을 60% 줄이면서 AI에 사용할 수 있는 데이터를 40% 늘리는 것입니다. |
기계 학습(ML) 데이터 세트의 몇 퍼센트에 정확하게 레이블이 지정되어 있으며 목표 정확도는 얼마입니까? |
현재 ML 데이터 세트의 85%에 정확하게 레이블이 지정되어 있습니다. 인적 레이블 지정 기법과 자동화된 레이블 지정 기법을 모두 사용하여 다음 분기 내에 95%의 정확도를 목표로 합니다. |