第 1 步:將文檔添加到 Amazon S3 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

第 1 步:將文檔添加到 Amazon S3

在您的資料集上執行 Amazon Comprehend 實體分析任務之前,請先建立 Amazon S3 儲存貯體來託管資料、中繼資料和 Amazon Comprehend 實體分析輸出。

下載範例資料集

Amazon Comprehend 才能對您的資料執行實體分析任務,您必須先下載並擷取資料集,然後將其上傳到 S3 儲存貯體。

  1. 在您的設備上下載 tutorial-dataset.zip 文件夾。

  2. 解壓縮資tutorial-dataset料夾以存取data資料夾。

  1. 若要下載tutorial-dataset,請在終端機視窗上執行下列命令:

    Linux
    curl -o path/tutorial-dataset.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/tutorial-dataset.zip

    其中:

    • path/ 是指向您要儲存 zip 資料夾之位置的本機檔案路徑。

    macOS
    curl -o path/tutorial-dataset.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/tutorial-dataset.zip

    其中:

    • path/ 是指向您要儲存 zip 資料夾之位置的本機檔案路徑。

    Windows
    curl -o path/tutorial-dataset.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/tutorial-dataset.zip

    其中:

    • path/ 是指向您要儲存 zip 資料夾之位置的本機檔案路徑。

  2. 要從 zip 文件夾中提取數據,請在終端機窗口中運行以下命令:

    Linux
    unzip path/tutorial-dataset.zip -d path/

    其中:

    • path/ 是儲存之 zip 資料夾的本機檔案路徑。

    macOS
    unzip path/tutorial-dataset.zip -d path/

    其中:

    • path/ 是儲存之 zip 資料夾的本機檔案路徑。

    Windows
    tar -xf path/tutorial-dataset.zip -C path/

    其中:

    • path/ 是儲存之 zip 資料夾的本機檔案路徑。

在此步驟結束時,您應該將提取的文件放在名為tutorial-dataset的解壓縮文件夾中。此資料夾包含一個包含 Apache 2.0 開放原始碼歸因的README檔案,以及一個名為包data含本教學課程資料集的資料夾。資料集由 100 個副檔.story名的檔案組成。

建立 Amazon S3 儲存貯體

下載並擷取範例資料資料夾後,您可以將其存放在 Amazon S3 儲存貯體中。

重要

Amazon S3 儲存貯體的名稱在所有儲存貯體中都必須是唯一的 AWS。

  1. 登入 AWS Management Console 並開啟 Amazon S3 主控台,位於https://console.aws.amazon.com/s3/

  2. 在「值區」中選擇「建立值區」。

  3. 對於 Bucket name (儲存貯體名稱),輸入一個唯一名稱。

  4. 在「區域」中,選擇您要建立值 AWS 區的區域。

    注意

    您必須選擇同時支援亞馬遜和亞馬 Amazon Kendra 的區域。建立值區之後,就無法變更該值區的區域。

  5. 保留此值區、值區版本控制標籤的「封鎖公開存取」設定的預設設定。

  6. 對於預設加密,請選擇停用

  7. 保留「進階」設定的預設設定

  8. 檢閱值區組態,然後選擇 [建立值區]。

  1. 若要建立 S3 儲存貯體,請在下列項目中使用建立儲存貯體命令: AWS CLI

    Linux
    aws s3api create-bucket \ --bucket amzn-s3-demo-bucket \ --region aws-region \ --create-bucket-configuration LocationConstraint=aws-region

    其中:

    • amzn-S3-演示桶是你的水桶名稱,

    • aws-region 是您要在其中建立值區的區域。

    macOS
    aws s3api create-bucket \ --bucket amzn-s3-demo-bucket \ --region aws-region \ --create-bucket-configuration LocationConstraint=aws-region

    其中:

    • amzn-S3-演示桶是你的水桶名稱,

    • aws-region 是您要在其中建立值區的區域。

    Windows
    aws s3api create-bucket ^ --bucket amzn-s3-demo-bucket ^ --region aws-region ^ --create-bucket-configuration LocationConstraint=aws-region

    其中:

    • amzn-S3-演示桶是你的水桶名稱,

    • aws-region 是您要在其中建立值區的區域。

    注意

    您必須選擇同時支援亞馬遜和亞馬 Amazon Kendra 的區域。建立值區之後,就無法變更該值區的區域。

  2. 若要確保您的儲存貯體已成功建立,請使用 list 指令:

    Linux
    aws s3 ls
    macOS
    aws s3 ls
    Windows
    aws s3 ls

在 S3 儲存貯體中建立資料和中繼資料資料夾

建立 S3 儲存貯體之後,您可以在其中建立資料和中繼資料夾。

  1. 在開啟 Amazon S3 主控台https://console.aws.amazon.com/s3/

  2. 值區中,按一下值區清單中的值區名稱。

  3. 在「件」標籤中,選擇「建立資料夾」。

  4. 對於新資料夾名稱,請輸入data

  5. 對於加密設定,請選擇 [停用]。

  6. 選擇 Create folder (建立資料夾)。

  7. 重複步驟 3 到 6,建立另一個用於儲存 Amazon Kendra 中繼資料的資料夾,並為步驟 4 metadata 中建立的資料夾命名。

  1. 若要在 S3 儲存貯體中建立data資料夾,請使用下列指令中的 put-object 命令: AWS CLI

    Linux
    aws s3api put-object \ --bucket amzn-s3-demo-bucket \ --key data/

    其中:

    • amzn-S3-演示桶是您的存儲桶名稱。

    macOS
    aws s3api put-object \ --bucket amzn-s3-demo-bucket \ --key data/

    其中:

    • amzn-S3-演示桶是您的存儲桶名稱。

    Windows
    aws s3api put-object ^ --bucket amzn-s3-demo-bucket ^ --key data/

    其中:

    • amzn-S3-演示桶是您的存儲桶名稱。

  2. 若要在 S3 儲存貯體中建立metadata資料夾,請使用下列指令中的 put-object 命令: AWS CLI

    Linux
    aws s3api put-object \ --bucket amzn-s3-demo-bucket \ --key metadata/

    其中:

    • amzn-S3-演示桶是您的存儲桶名稱。

    macOS
    aws s3api put-object \ --bucket amzn-s3-demo-bucket \ --key metadata/

    其中:

    • amzn-S3-演示桶是您的存儲桶名稱。

    Windows
    aws s3api put-object ^ --bucket amzn-s3-demo-bucket ^ --key metadata/

    其中:

    • amzn-S3-演示桶是您的存儲桶名稱。

  3. 若要確保資料夾已成功建立,請使用 list 指令檢查值區的內容:

    Linux
    aws s3 ls s3://amzn-s3-demo-bucket/

    其中:

    • amzn-S3-演示桶是您的存儲桶名稱。

    macOS
    aws s3 ls s3://amzn-s3-demo-bucket/

    其中:

    • amzn-S3-演示桶是您的存儲桶名稱。

    Windows
    aws s3 ls s3://amzn-s3-demo-bucket/

    其中:

    • amzn-S3-演示桶是您的存儲桶名稱。

上傳輸入數據

建立資料和中繼資料資料夾之後,您可以將範例資料集上傳至資料data夾。

  1. 在開啟 Amazon S3 主控台https://console.aws.amazon.com/s3/

  2. 值區中,按一下值區清單中的值區名稱,然後按一下data

  3. 選擇上傳,然後選擇添加文件

  4. 在對話方塊中,導覽至本機裝置中tutorial-dataset資料data夾內的資料夾,選取所有檔案,然後選擇「開啟」。

  5. 保留「的地」、「權限」和「內」的預設設定。

  6. 選擇上傳

  1. 若要將範例資料上傳至資料data夾,請使用下列指令中的 copy 指令 AWS CLI:

    Linux
    aws s3 cp path/tutorial-dataset/data s3://amzn-s3-demo-bucket/data/ --recursive

    其中:

    • path/ 是設備上文件tutorial-dataset夾的文件路徑,

    • amzn-S3-演示桶是您的存儲桶名稱。

    macOS
    aws s3 cp path/tutorial-dataset/data s3://amzn-s3-demo-bucket/data/ --recursive

    其中:

    • path/ 是設備上文件tutorial-dataset夾的文件路徑,

    • amzn-S3-演示桶是您的存儲桶名稱。

    Windows
    aws s3 cp path/tutorial-dataset/data s3://amzn-s3-demo-bucket/data/ --recursive

    其中:

    • path/ 是設備上文件tutorial-dataset夾的文件路徑,

    • amzn-S3-演示桶是您的存儲桶名稱。

  2. 若要確保資料集檔案已成功上傳至資料data夾,請使用下列項目中的 list 指令 AWS CLI:

    Linux
    aws s3 ls s3://amzn-s3-demo-bucket/data/

    其中:

    • AMZN-S3-演示桶是您的 S3 存儲桶的名稱。

    macOS
    aws s3 ls s3://amzn-s3-demo-bucket/data/

    其中:

    • AMZN-S3-演示桶是您的 S3 存儲桶的名稱。

    Windows
    aws s3 ls s3://amzn-s3-demo-bucket/data/

    其中:

    • AMZN-S3-演示桶是您的 S3 存儲桶的名稱。

在此步驟結束時,您會有一個 S3 儲存貯體,其中資料集存放在資料data夾中,以及一個空白資料metadata夾 (用於儲存 Amazon Kendra 中繼資料)。