飛輪資料湖 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

飛輪資料湖

當您建立飛輪時,Amazon Comprehend 會在您的帳戶中建立一個資料湖,以包含所有飛輪資料,例如模型版本所需的輸入和輸出資料。

Amazon Comprehend 會在您建立飛輪時指定的 Amazon S3 位置建立資料湖。您可以將該位置指定為 Amazon S3 儲存貯體或 Amazon S3 儲存貯體中的新資料夾。

資料湖資料夾結構

當 Amazon Comprehend 建立資料湖時,會在 Amazon S3 位置設定下列資料夾結構。

警告

亞馬遜管理資料湖資料夾的組織和內容。請務必使用 Amazon Comprehend API 操作來修改資料湖資料夾,否則您的飛輪可能無法正常運作。

Document Pool Annotations Pool Staging Model Datasets (data for each version of the model) VersionID-1 Training Test ModelStats VersionID-2 Training Test ModelStats

若要檢視模型版本的訓練評量,請執行下列步驟:

  1. 在資料湖的根層級開啟名為「模型資料集」的資料夾。此資料夾包含每個模型版本的子資料夾。

  2. 開啟感興趣的模型版本的資料夾。

  3. 開啟名為的資料夾ModelStats以檢視模型的統計資料。

資料湖管理

Amazon Comprehend 會執行下列任務,以代表您管理資料湖:

  • 定義資料湖的資料夾結構,並將資料集內嵌到適當的資料夾中。

  • 管理訓練模型所需的輸入文件 (例如文字檔案和註釋檔案)。

  • 管理與每個模型版本相關聯的訓練和評估輸出資料。

  • 管理儲存在資料湖中之檔案的加密。

Amazon Comprehend 會執行資料湖的所有資料建立和更新作業。您可以保留對資料湖中資料的完整存取權。例如:

  • 您可以完整存取資料湖的內容。

  • 刪除飛輪後,資料湖仍然可用。

  • 您可以為包含資料湖的 Amazon S3 儲存貯體設定存取日誌。

  • 您可以為資料提供加密金鑰。您可以在建立飛輪時指定這些項目。

建議遵循下列最佳實務:

  • 請勿手動將自己的資料夾或檔案新增至資料湖。請勿修改或刪除資料湖中的任何檔案。

  • 請務必使用 Amazon Comprehend 建立和更新操作來新增或修改資料湖中的資料。例如,用於CreateDataset提供訓練或測試資料,StartFlywheelIteration以及產生模型版本的評估資料。

  • 資料湖結構可能會隨著時間的推移而發展。請勿建立明確依賴資料湖結構的下游指令碼或程式。

  • 當您為飛輪提供資料湖位置時,我們建議您為與所有飛輪相關的資料建立一個共同字首,或為每個飛輪使用不同的字首。我們不建議使用一個飛輪的完整資料湖路徑作為另一個飛輪的前置詞。