資料策略 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料策略

問題

回應範例

哪些特定資料類型對您的生成式 AI 工作負載至關重要,以及目前可存取這些類型的多少百分比?

客戶通話日誌和產品檢閱資料至關重要。目前,85% 的這些資料類型可供我們的生成式 AI 專案存取。

如何確保和測量資料的品質?

我們已實作資料品質指標,包括完整性、準確性、一致性和及時性。我們使用自動化工具定期評估這些指標,並擁有專用的團隊來清理資料和擴充資料。

有多少百分比的資料符合生成式 AI 使用的品質標準?

目前,78% 的資料符合我們的品質標準。透過改善資料清理程序,我們的目標是在未來 12 個月內達到 95%。

您打算如何在利益相關者之間建立對生成式 AI 中資料用量的信任?

我們正在實作 AI 道德委員會、提供 AI 決策的明確說明,以及每季進行 AI 稽核,以確保透明度和公平性。

資料來源和譜系的文件有多完整?

我們會維護詳細的資料目錄,其中包含所有資料來源的中繼資料,包括原始伺服器、更新頻率和用量。我們使用資料譜系工具來追蹤資料如何在系統中流動和轉換。

如何確保資料集的多樣性,以防止 AI 模型中的偏差?

我們主動從各種人口統計資訊中取得資料,並定期稽核資料集是否有代表性偏差。我們也使用合成資料產生技術來平衡代表性不足的類別。

關鍵生成式 AI 模型的資料重新整理率是多少,以及如何判斷此頻率?

每週重新整理關鍵模型。此頻率由 A/B 測試效能指標決定,我們的目標是在重新整理之間不會降解超過 2%。

您維護多少個關鍵資料集版本以及保留多久?

我們維護每個關鍵資料集的最後五個版本,每個版本的保留期間為 18 個月。

您的生成式 AI 計畫涉及多少個跨職能團隊,並且可以存取您的資料?

我們有三個跨職能團隊。每個團隊都包含資料科學家、網域專家、道德專家和商業分析師。

您有哪些資料控管政策和實務?

我們有一個跨功能資料管理委員會,負責監督我們的資料政策。我們已實作以角色為基礎的存取控制、資料分類機制和定期稽核,以確保符合我們的控管架構。

您採取哪些措施來確保資料隱私權、取得適當同意,以及維護機密性?

我們已實作符合 GDPR 和 CCPA 的完整資料隱私權架構。這包括取得資料用量的明確同意、實作資料匿名化技術,以及定期隱私權影響評估。

上個季度稽核了多少百分比的 AI 訓練資料集是否有偏差?

上個季度稽核了 70% 的 AI 訓練資料集是否有偏差。我們正在實作自動化偏差偵測工具,以達到 100% 每季稽核。

您目前的資料處理容量是多少,您預計未來生成式 AI 工作負載需要多少?

我們目前的容量為每天 10 TB。我們預計在一年內每天需要 30 TB,並且正在擴展我們的基礎設施以滿足此需求。

在資料隱私權與生成式 AI 模型的資料需求之間取得平衡的策略是什麼?

我們正在實作進階匿名化技術和合成資料產生。我們的目標是將 AI 的可用資料增加 40%,同時將明年的隱私權風險降低 60%。

準確標記機器學習 (ML) 資料集的百分比是多少?目標準確度是多少?

目前,85% 的 ML 資料集已正確標記。我們採用人工和自動化標記技術,以下一季 95% 的準確性率為目標。