データセットを更新します。 - アマゾン SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データセットを更新します。

最初のデータセットを Amazon にインポートした後 SageMaker Canvas では、データセットに追加したいデータが他にもあるかもしれません。たとえば、データセットに追加したいインベントリデータを毎週の終わりに取得するとします。データを複数回インポートする代わりに、既存のデータセットを更新してファイルを追加または削除できます。

注記

ローカルアップロードまたは Amazon S3 を通じてインポートしたデータセットのみを更新できます。

データセットは手動でも自動でも更新できます。自動更新では、Canvas が指定した頻度でファイルをチェックする場所を指定します。更新中に新しいファイルをインポートする場合、ファイルのスキーマは既存のデータセットと完全に一致する必要があります。

データセットを更新するたびに、Canvas はデータセットの新しいバージョンを作成します。モデルの構築や予測の生成には、最新バージョンのデータセットのみを使用できます。データセットのバージョン履歴表示の詳細については、「」を参照してください。データセットの詳細の表示

データセットの更新を自動バッチ予測とともに使用することもできます。これにより、データセットを更新するたびにバッチ予測ジョブが開始されます。詳細については、「バッチ予測を行う」を参照してください。

以下のセクションでは、データセットの手動更新と自動更新を行う方法について説明します。

データセットの手動更新

手動アップデートを行うには、次の操作を行います。

  1. からのの使用 SageMaker キャンバスアプリケーション

  2. 左のナビゲーションペインの [Dataset] (データセット) を選択します。

  3. データセットのリストから、更新するデータセットを選択します。

  4. を選択します。データセットを更新ドロップダウンメニューと選択手動更新演算子。データのインポートワークフローに移動します。

  5. からのデータソースドロップダウンメニュー、次のいずれかを選択します。ローカルアップロードまたはAmazon S3

  6. このページには、データのプレビューが表示されます。ここから、データセットのファイルを追加または削除できます。表形式のデータをインポートする場合、新しいファイルのスキーマ (列名とデータ型) は既存のファイルのスキーマと一致する必要があります。さらに、新しいファイルは、データセットの最大サイズまたはファイルサイズを超えてはなりません。これらの制限についての詳細はデータセットをインポートする

    注記

    データセット内の既存のファイルと同じ名前のファイルを追加すると、新しいファイルが古いバージョンのファイルを上書きします。

  7. 変更を保存する準備ができたら、[データセットの更新]

これで、データセットの新しいバージョンができたはずです。

上にデータセットページでは、バージョン履歴タブをクリックすると、データセットのすべてのバージョンと、行った手動更新と自動更新の両方の履歴が表示されます。

データセットの自動更新を設定します。

自動更新とは、データセットを特定の頻度で更新するようにCanvasの設定を行うことです。データセットに追加したい新しいデータファイルを定期的に受け取る場合は、このオプションを使用することをおすすめします。

auto 更新設定を設定するときは、ファイルをアップロードする Amazon S3 の場所と、Canvas が場所を確認してファイルをインポートする頻度を指定します。データセットを更新する Canvas の各インスタンスは、「」と呼ばれます。ジョブ。Canvas は、ジョブごとに Amazon S3 ロケーションにあるすべてのファイルをインポートします。データセット内の既存のファイルと同じ名前の新しいファイルがある場合、Canvas は古いファイルを新しいファイルで上書きします。

データセットを自動更新する場合、Canvas はスキーマの検証を行いません。自動更新中にインポートされたファイルのスキーマが既存のファイルのスキーマと一致しないか、サイズ制限を超えている場合 (を参照)。データセットをインポートするファイルサイズ制限のテーブルの場合)、ジョブの実行時にエラーが発生します。

注記

Canvas アプリケーションでは、最大 20 件の自動構成しか設定できません。さらに、CanvasはCanvasアプリケーションにログインしている間のみ自動更新を行います。Canvas アプリケーションからログアウトすると、ログインし直すまで自動更新は一時停止します。

データセットの自動更新を設定するには、以下を実行します。

  1. からのの使用 SageMaker キャンバスアプリケーション

  2. 左のナビゲーションペインの [Dataset] (データセット) を選択します。

  3. データセットのリストから、更新するデータセットを選択します。

  4. を選択します。データセットを更新ドロップダウンメニューと選択自動更新。次の方法について説明します。自動アップデートデータセットのタブ。

  5. を使用したクイックセットアップ自動更新アクセス許可トグル。

  6. にとってデータソースをインストールで、定期的にファイルをアップロードする予定のフォルダへの Amazon S3 パスを入力します。

  7. の場合周波数を選択してください、の選択1 時間ごと毎週、または毎日

  8. にとって開始時間を指定してください、カレンダーとタイムピッカーを使用して、最初のauto 更新ジョブを開始するタイミングを選択します。

  9. auto 更新設定を作成する準備ができたら、[保存]

Canvasは、指定された開始時間にauto 更新頻度の最初のジョブを開始します。

auto 更新ジョブの履歴を表示する方法や、auto 更新の設定を変更する方法の詳細については、自動化Canvas アプリケーションのページ、を参照してください。自動化を管理します。

以下のセクションでは、自動更新設定を表示、更新、削除する方法について説明します。データセットCanvas アプリケーションのページ。

データセットの自動更新ジョブを表示します。

データセットの自動更新のジョブ履歴を表示するには、データセットの詳細ページで次の項目を選択します。自動アップデートタブ

データセットが自動更新されるたびに、にジョブとして表示されます。自動アップデート以下のタブJob 履歴セクション。各ジョブについて、次の情報を持ちます。

  • Job が作成されました— Canvas がデータセットの更新を開始したときのタイムスタンプ。

  • ファイル— データセット内のファイル数。

  • セル (列 x 行)— データセット内の列と行の数

  • ステータス— 更新後のデータセットのステータス ジョブが成功した場合、ステータスは準備完了。何らかの理由でジョブが失敗した場合、ステータスは失敗、ステータスにカーソルを合わせると詳細が表示されます。

データセットの自動更新設定を編集します。

更新頻度の変更など、データセットauto 更新設定を変更したい場合があります。また、自動更新の設定をオフにして、データセットの更新を一時停止したい場合もあります。

データセットauto 更新設定を変更するには、自動アップデートデータセットのタブを選択し、[編集]構成に変更を加える。

データセットの更新を一時停止するには、自動設定をオフにします。auto 更新をオフにするには、自動アップデートデータセットのタブを開き、auto 更新を有効にするオフに切り替えます。このトグルをオンに戻すと、いつでも更新スケジュールを再開できます。

データセットの自動更新設定を削除します。

設定を取り込む方法を説明します。自動設定を削除する。