AWS Glue コンソールでの機械学習変換の使用 - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue コンソールでの機械学習変換の使用

AWS Glue に使用して、データの最適化に使用できるカスタム機械学習変換を作成できます。これらの変換は、AWS Glue コンソールでのジョブの作成時に使用できます。

機械学習変換の作成方法の詳細については、「次のレコードのマッチングAWS Lake FormationFindMatches」を参照してください。

変換のプロパティ

既存の機械学習変換を表示するには、AWS Management Consoleをクリックし、AWS Glueコンソール ()https://console.aws.amazon.com/glue/。次に [] を選択します。ML 変換左側のナビゲーションメニューから [] を選択します。

-機械学習変換リストには、各変換の次のプロパティが表示されます。

変換名

変換の作成時に付けた一意の変換名。

変換 ID

変換の一意の識別子。

タイプ

機械学習変換のタイプ (一致するレコードの検索など)。

[ラベル数]

変換をトレーニングするために役立つラベリングファイル内のラベルの数。

ステータス

変換がであるかどうかを示します。準備完了またはトレーニングが必要。ジョブで機械学習変換を正常に実行するには、ジョブが準備完了

作成日

変換の作成日。

最終更新日時

変換が最後に更新された日付。

説明

トランスフォーム用に指定された説明(指定されている場合)。

一致の検索変換を作成する場合は、次の設定情報を指定します。

主キー

ソーステーブルの行を一意に識別する列の名前。

タイプ

機械学習変換のタイプ (一致の検索など)。

機械学習変換の追加と編集

AWS Glue コンソールで変換の表示、削除、セットアップ、トレーニング、および調整を行うことができます。リストの変換の横にあるチェックボックスをオンにし、 [アクション] を選択して、実行するアクションを選択します。

新しい機械学習変換を追加するには、 [ジョブ] タブ、[ジョブの追加] の順に選択します。[ジョブの追加] ウィザードの手順に従って、ジョブに機械学習変換 (FindMatches など) を追加します。詳細については、「」を参照してください次のレコードのマッチングAWS Lake FormationFindMatches

Machine Learning 変換でのデータ暗号化の使用

機械学習変換をAWS Glueでは、データソースまたはデータターゲットに関連付けられたセキュリティ構成をオプションで指定できます。データの格納に使用される Amazon S3 バケットがセキュリティ設定で暗号化されている場合は、トランスフォームの作成時に同じセキュリティ設定を指定します。

でサーバー側の暗号化を使用することを選択することもできます。AWS KMS(SSE-KMS) を使用してモデルとラベルを暗号化し、許可されていない人が検査するのを防ぎます。このオプションを選択する場合は、[AWS KMS keyを名前で指定するか、キー ARN を入力します。。KMS キーの ARN を入力することを選択した場合、KMS キー ARN を入力できる 2 番目のフィールドが表示されます。

変換の詳細の確認

変換の詳細には、変換の作成時に定義した情報が含まれます。変換の詳細を確認するには、機械学習変換のリストで変換を選択し、以下のタブの情報を確認します。

  • 履歴

  • 詳細

  • 品質の推定

History

[履歴] タブには、変換のタスク実行の履歴が表示されます。変換をトレーニングするには、複数のタイプのタスクを実行します。タスクごとに、実行メトリクスとして以下が含まれます。

  • [実行 ID] は、このタスクの実行ごとに AWS Glue によって作成される識別子です。

  • [Task type (タスクタイプ)] は、タスク実行のタイプを示します。

  • [実行ステータス] は、各タスクの成功した実行を一覧表示します。最新の実行が一番上に表示されます。

  • [Error (エラー)] には、実行が正常に行われなかった場合のエラーメッセージの詳細が表示されます。

  • [開始時刻] は、タスクの開始日時 (現地時間) を示します。

  • [実行時間] は、ジョブ実行でリソースを消費した時間を示します。ジョブ実行でリソースの消費を開始した時点から終了した時点までの時間が計算されます。

  • [最終更新日時] は、タスクが最後に変更された日時 (現地時間) を示します。

  • [ログ] は、このジョブ実行の stdout に書き込まれたログにリンクされています。

    -ログ[Amazon CloudWatch Logs] のリンク先はです。このリンク先では、AWS Glue Data Catalog で作成されたテーブルと、発生したエラーに関する詳細を確認できます。ログの保持期間は、CloudWatch コンソールで管理できます。デフォルトのログ保持期間は Never Expire です。保持期間を変更する方法の詳細については、」CloudWatch Logs でのログデータ保管期間の変更()Amazon CloudWatch Logs ユーザーガイド

  • [エラーログ] は、このタスク実行の stderr に書き込まれたログにリンクされています。

    このリンクをクリックすると CloudWatch Logs に移動し、発生したエラーに関する詳細を表示できます。ログの保持期間は、CloudWatch コンソールで管理できます。デフォルトのログ保持期間は Never Expire です。保持期間を変更する方法の詳細については、」CloudWatch Logs でのログデータ保管期間の変更()Amazon CloudWatch Logs ユーザーガイド

  • ラベルファイルのダウンロードに、生成されたラベリングファイルの Amazon S3 へのリンクを示します。

Details

[詳細] タブには、ジョブの属性が含まれています。変換定義に関する詳細として、以下の内容が表示されます。

  • [変換名] は変換の名前を示します。

  • [タイプ] は変換のタイプを一覧表示します。

  • [ステータス] は、変換がスクリプトまたはジョブで使用可能かどうかを示します。

  • [Force output to match labels (出力をラベルに一致させる)] は、ユーザーから提供されたラベルに出力を一致させるかどうかを示します。

  • Spark バージョンに関連している。AWS Glueで選択したタスクの実行プロパティ変換を追加するときに使用します。AWS Glueほとんどのお客様に、1.0 および Spark 2.4 が推奨されます。詳細については、「」を参照してください。AWS Glueバージョン

品質の推定

[Estimate Quality (品質の推定)] タブは、変換の品質を測定するために使用するメトリクスを示します。推定値は、ラベル付きデータのサブセットを使用して、指定したラベルに変換一致予測を比較することによって計算されます。これらの見積もりは概算です。このタブから Estimate quality (品質の見積り)タスクの実行を呼び出すことができます。

Estimate quality タブには、次のプロパティを含む最後の Estimate quality の実行のメトリクスが表示されます。

  • Precision-Recall 曲線の下にある領域は、変換の全体的な品質の上限を推定する単一の数値です。これは適合率-再現率パラメータ用に行った選択とは関係ありません。値が高いほど、適合率と再現率のトレードオフが適切であることを示します。

  • 適合率は、変換が一致を推定して、その推定が正確である度合いを見積もります。

  • 再現率の上限は、実際の一致件数に対して、変換が推定した一致件数の割合の見積もりです。

  • 最大の F1 は、変換の精度 (1~ 0) を示します。値 1 は最適な精度の見積もりです。詳細については、Wikipedia の「F1 スコア」を参照してください。

  • -列の重要性テーブルには、各列の列名と重要度スコアが表示されます。列の重要度は、レコード内のどの列がマッチングを行うために最も使用されているかを識別することで、列がモデルにどのように貢献しているかを理解するのに役立ちます。このデータは、列の重要度を上げたり下げたりするために、ラベルセットに追加したり変更したりするように促すことがあります。

    [重要度] 列には、各列の数値スコアが 1.0 以下の 10 進数で示されます。

品質の推定と真の品質の比較については、「 品質の推定とエンドツーエンド (真の) 品質の比較」を参照してください。

変換の調整の詳細については、「AWS Glue での機械学変換の調整」を参照してください。

品質の推定とエンドツーエンド (真の) 品質の比較

FindMatches 機械学習変換の場合、AWS Glue は変換の品質を推定するために、内部の機械学習モデルに対してレコードのペアをいくつか提示します。これらのレコードは、ユーザーが指定したラベルに一致するレコードとします。ただし、モデルにとっては初見のものとします。これらの品質の推定は、機械学習モデルの品質の関数です (モデルは、ユーザーが変換を「トレーニング」するためにラベル付けするレコードの数から影響を受けます)。エンドツーエンド、つまり真のリコール (FindMatches 変換によって自動的に計算されない) は、 FindMatches 機械学習モデルに対してさまざまなマッチングを提案するフィルタリングメカニズムの影響を受けます。

このフィルタリング方法を調整するには、主に低コスト-精度スライダーを使用します。このスライダーを精度に近づけるほど、システムは一致候補のレコードのペアをより深く、広く検索します。機械学習モデルに取り込まれるレコードのペアが増え、FindMatches 変換のエンドツーエンドまたは真の再現率が推定の再現率メトリクスに近づきます。その結果、マッチングのコスト/精度のトレードオフの変更によるマッチングのエンドツーエンドの品質の変更は、通常、品質の見積りには反映されません。