Amazon ML のデータ形式について - Amazon Machine Learning

Amazon Machine Learning サービスの更新や、その新しいユーザーの受け入れは行っていません。このドキュメントは既存のユーザー向けに提供されていますが、更新は終了しています。詳細については、「Amazon Machine Learning とは」を参照してください。

Amazon ML のデータ形式について

入力データは、データソースの作成に使用するデータです。入力データは、カンマ区切り値 (.csv) 形式で保存する必要があります。csv ファイルの各行は、単一のデータレコードまたは観測データです。.csv ファイルの各列には、観測の属性が含まれています。たとえば、次の図は、それぞれが独自の行に 4 つの観測値を持つ .csv ファイルの内容を示しています。各観測には、コンマで区切られた 8 つの属性が含まれています。属性は、customerId、jobId、教育、住宅、ローン、キャンペーン、期間、willRespondToCampaign のような、観察によって表される各個人に関する以下の情報を表します。

属性

Amazon ML では各属性の名前が必要です。属性名は次のように指定できます。

  • 入力データとして使用する .csv ファイルの最初の行 (ヘッダー行とも呼ばれます) に属性名を含める

  • 入力データと同じ S3 バケットにある別のスキーマファイルに属性名を含める

スキーマファイルの使用の詳細については、「データスキーマの作成」を参照してください。

次の .csv ファイルの例には、ヘッダー行の属性の名前が含まれています。

customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign 1,3,basic.4y,no,no,1,261,0 2,1,high.school,no,no,22,149,0 3,1,high.school,yes,no,65,226,1 4,2,basic.6y,no,no,1,151,0

入力ファイル形式の要件

入力データを含む .csv ファイルは、次の要件を満たしている必要があります。

  • ASCII、Unicode、EBCDIC などの文字セットを使用したプレーンテキストでなければなりません。

  • 観測値で構成され、1 行に 1 つの観測値があります。

  • 観測ごとに、属性値をコンマで区切る必要があります。

  • 属性値にコンマ (区切り文字) が含まれている場合は、属性値全体を二重引用符で囲む必要があります。

  • 各観測は、行の終わりを示す特殊文字または一連の文字である行末文字で終了する必要があります。

  • 属性値が二重引用符で囲まれていても、属性値に行末文字を含めることはできません。

  • すべての観測は、同じ数の属性と一連の属性を持っていなければなりません。

  • 各観測値は 100 KB 以下でなければなりません。Amazon ML は、処理中に 100 KB を超えるすべての観測を拒否します。Amazon ML が 10,000 を超える観測を拒否すると、.csv ファイル全体が拒否されます。

Amazon ML へのデータ入力として複数のファイルを使用する

Amazon ML に入力を単一のファイルとして提供することも、ファイルの集合として提供することもできます。コレクションは次の条件を満たす必要があります。

  • すべてのファイルに同じデータスキーマが必要です。

  • すべてのファイルは同じ Amazon Simple Storage Service (Amazon S3) プレフィックスに存在し、コレクションに指定するパスはスラッシュ (/) で終わらなければなりません。

たとえば、データファイルの名前が input1.csv、input2.csv、および input3.csv で、S3 バケット名が s3://examplebucket の場合、ファイルパスは次のようになります。

s3://examplebucket/path/to/data/input1.csv

s3://examplebucket/path/to/data/input2.csv

s3://examplebucket/path/to/data/input3.csv

次の S3 の場所を Amazon ML の入力として提供します。

's3://examplebucket/path/to/data/'

CSV 形式の行末文字

.csv ファイルを作成すると、各観測は特殊な行末文字で終了します。この文字は表示されませんが、Enter キーまたは Return キーを押すと、各観測の最後に自動的に含まれます。行末を表す特殊文字は、オペレーティングシステムによって異なります。Linux や OS X などの Unix システムでは、\n (10 進数の ASCII コード 10 または 16 進数の 0x0a) で示されるラインフィード文字を使用します。Microsoft Windows では、\r\n (10 進数の ASCII コード 13 および 10、または 16 進数では 0x0d および 0x0a) で示される改行およびラインフィードと呼ばれる 2 つの文字を使用します。

OS X および Microsoft Excel を使用して .csv ファイルを作成する場合は、次の手順を実行します。正しい形式が選択されていることを確認してください。

OS X および Excel を使用して .csv ファイルを保存するには

  1. .csv ファイルを保存するときは、[形式] を選択し、[Windows カンマ区切り (.csv)] を選択します。

  2. [Save (保存)] を選択します。

    重要

    Amazon ML が読み込めないため、カンマ区切りの値 (.csv) または MS-DOS カンマ区切り (.csv) 形式を使用して .csv ファイルを保存しないでください。