neptune-export ツールまたは Neptune-Export サービスを使用して Neptune ML 用に Neptune からデータをエクスポートする - Amazon Neptune

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

neptune-export ツールまたは Neptune-Export サービスを使用して Neptune ML 用に Neptune からデータをエクスポートする

Neptune ML では、ディープグラフライブラリ (DGL) にトレーニングデータを提供して、モデルを作成および評価する必要があります。

Neptune-Export サービス または neptune-export ユーティリティのいずれかの方法で、Neptune からデータをエクスポートできます。。サービスとコマンドラインツールの両方は、Amazon S3 サーバー側の暗号化 (SSE-S3) により暗号化された Amazon Simple Storage Service (Amazon S3) に CSV 形式でデータを公開します。「Neptune-Export と neptune-export でエクスポートされたファイル」を参照してください。

さらに、Neptune ML のトレーニングデータのエクスポートを構成すると、エクスポートジョブは、エクスポートされたデータとともに暗号化されたモデルトレーニング構成ファイルを作成し、発行します。デフォルトでは、このファイルには training-data-configuration.json という名前が付けられます。

Neptune-Export サービスを使用してトレーニングデータをNeptune ML へエクスポートする例

このリクエストは、ノード分類タスクのプロパティグラフトレーニングデータをエクスポートします。

curl \ (your NeptuneExportApiUri) \ -X POST \ -H 'Content-Type: application/json' \ -d '{ "command": "export-pg", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "node": "Movie", "property": "genre", "type": "classification" } ] } } }'

このリクエストは、ノード分類タスクの RDF トレーニングデータをエクスポートします。

curl \ (your NeptuneExportApiUri) \ -X POST \ -H 'Content-Type: application/json' \ -d '{ "command": "export-rdf", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "node": "http://aws.amazon.com/neptune/csv2rdf/class/Movie", "predicate": "http://aws.amazon.com/neptune/csv2rdf/datatypeProperty/genre", "type": "classification" } ] } } }'

トレーニングデータをエクスポートするとき params オブジェクトで設定するフィールド

エクスポートリクエストの params オブジェクトには、params ドキュメンテーションで説明されているように、さまざまなフィールドを含めることができます。次のものは、機械学習トレーニングデータのエクスポートに最も関連性があります。

  • endpointendpoint を使用してエクスポートプロセスでクエリを実行してデータを抽出できる DB クラスター内の Neptune インスタンスのエンドポイントを指定します。

  • profileparams オブジェクト内の profile フィールドは neptune-ml に設定する必要があります。

    これにより、エクスポートプロセスでは、エクスポートされたデータが Neptune ML モデルトレーニング、プロパティグラフデータ用の CSV 形式、または RDF データの場合は N トリプルとして適切にフォーマットされます。また、エクスポートされたトレーニングデータと同じ Amazon S3 の場所にファイル training-data-configuration.json が作成されび書き込まれます。

  • cloneClustertrue に設定されている場合、エクスポートプロセスによって DB クラスターのクローンが作成され、クローンからエクスポートされ、完了するとクローンが削除されます。

  • useIamAuth — DB クラスターが IAM 認証有効となっている場合は、このフィールドを true に設定する必要があります。

エクスポートプロセスでは、エクスポートするデータをフィルタリングする方法もいくつかあります (これらの例を参照)。

モデルトレーニング情報のエクスポートを調整する additionalParams オブジェクトの使用

additionalParams オブジェクトには、トレーニング目的で機械学習クラスのラベルと特徴を指定し、トレーニングデータ設定ファイルの作成をガイドするために使用できるフィールドが含まれています。

エクスポートプロセスでは、トレーニング用の例として使用するために、機械学習クラスラベルにするノードとエッジプロパティを自動的に推論することはできません。また、数値、カテゴリ、およびテキストプロパティの最適な特徴エンコーディングを自動的に推論することもできないため、additionalParams オブジェクトのフィールドを使用してこれらを指定するか、デフォルトのエンコーディングを上書きします。

プロパティグラフデータの場合、エクスポートリクエストにおける additionalParams の最上位構造は次のとおりです。

{ "command": "export-pg", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ (an array of node and edge class label targets) ], "features": [ (an array of node feature hints) ] } } }

RDF データの場合、最上位の構造は次のようになります。

{ "command": "export-rdf", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ (an array of node and edge class label targets) ] } } }

また、jobs フィールドを使用して複数のエクスポート設定を指定することもできます。

{ "command": "export-pg", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams" : { "neptune_ml" : { "version": "v2.0", "jobs": [ { "name" : "(training data configuration name)", "targets": [ (an array of node and edge class label targets) ], "features": [ (an array of node feature hints) ] }, { "name" : "(another training data configuration name)", "targets": [ (an array of node and edge class label targets) ], "features": [ (an array of node feature hints) ] } ] } } }

additionalParamsneptune_ml フィールド内の最上位要素

neptune_mlversion 要素

生成するトレーニングデータ設定のバージョンを指定します。

(オプション)、タイプ: 文字列、デフォルト値:"v2.0"。

version を含める場合、それを v2.0 に設定します。

neptune_mljobs フィールド

トレーニングデータ構成オブジェクトの配列を格納し、それぞれがデータ処理ジョブを定義し、以下を含みます。

  • name — 作成するトレーニングデータ構成の名前。

    たとえば、「job-number-1」 という名前のトレーニングデータ構成では、job-number-1.json という名前のトレーニングデータ構成ファイルが作成されます。

  • targets — トレーニング用の機械学習クラスラベルを表すノードおよびエッジクラスラベルターゲットの JSON 配列。「neptune_ml オブジェクトの targets フィールド」を参照してください。

  • features — ノードプロパティ特徴の JSON 配列。「neptune_ml の features フィールド」を参照してください。