1단계: Amazon S3에 문서 추가 - Amazon Kendra

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

1단계: Amazon S3에 문서 추가

데이터 세트에 대해 Amazon Comprehend 개체 분석 작업을 실행하기 전에 데이터, 메타데이터 및 Amazon Comprehend 개체 분석 출력을 호스팅할 Amazon S3 버킷을 생성합니다.

샘플 데이터 세트 다운로드

Amazon Comprehend가 데이터에 대한 개체 분석 작업을 실행하려면 먼저 데이터 세트를 다운로드하고 추출한 다음 S3 버킷에 업로드해야 합니다.

  1. 디바이스에 tutorial-dataset.zip 폴더를 다운로드합니다.

  2. tutorial-dataset 폴더를 추출하여 data 폴더에 접근합니다.

  1. tutorial-dataset를 다운로드하려면 터미널 창에서 다음 명령을 실행합니다.

    Linux
    curl -o path/tutorial-dataset.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/tutorial-dataset.zip

    위치:

    • path/ zip 폴더를 저장하려는 위치의 로컬 파일 경로입니다.

    macOS
    curl -o path/tutorial-dataset.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/tutorial-dataset.zip

    위치:

    • path/ zip 폴더를 저장하려는 위치의 로컬 파일 경로입니다.

    Windows
    curl -o path/tutorial-dataset.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/tutorial-dataset.zip

    위치:

    • path/ zip 폴더를 저장하려는 위치의 로컬 파일 경로입니다.

  2. zip 폴더에서 데이터를 추출하려면 터미널 창에서 다음 명령을 실행합니다.

    Linux
    unzip path/tutorial-dataset.zip -d path/

    위치:

    • path/ 저장된 zip 폴더의 로컬 파일 경로입니다.

    macOS
    unzip path/tutorial-dataset.zip -d path/

    위치:

    • path/ 저장된 zip 폴더의 로컬 파일 경로입니다.

    Windows
    tar -xf path/tutorial-dataset.zip -C path/

    위치:

    • path/ 저장된 zip 폴더의 로컬 파일 경로입니다.

이 단계가 끝나면 압축을 푼 파일을 tutorial-dataset라는 이름의 압축 해제 폴더에 저장해야 합니다. 이 폴더에는 Apache 2.0 오픈 소스 속성이 있는 README 파일과 이 자습서의 데이터 세트가 들어 있는 data 폴더가 포함되어 있습니다. 데이터 세트는 .story 확장자를 가진 100개의 파일로 구성되어 있습니다.

Amazon S3 버킷 생성

샘플 데이터 폴더를 다운로드하고 추출한 후 Amazon S3 버킷에 저장합니다.

중요

Amazon S3 버킷의 이름은 모든 AWS에 대해 고유해야 합니다.

  1. 에서 Amazon S3 콘솔에 AWS Management Console 로그인하고 엽니다 https://console.aws.amazon.com/s3/.

  2. 버킷에서 버킷 생성을 선택합니다.

  3. [버킷 이름(Bucket name)]에 고유한 이름을 입력합니다.

  4. 리전의 경우 버킷을 생성할 AWS 리전을 선택합니다.

    참고

    Amazon Comprehend와 Amazon Kendra를 모두 지원하는 리전을 선택해야 합니다. 버킷을 생성한 후에는 버킷의 리전을 변경할 수 없습니다.

  5. 이 버킷의 퍼블릭 액세스 차단 설정, 버킷 버전 관리태그의 기본 설정을 유지하세요.

  6. 기본 암호화의 경우, 비활성화를 선택합니다.

  7. 고급 설정의 기본 설정을 유지합니다.

  8. 버킷 구성을 검토한 다음 버킷 생성을 선택합니다.

  1. S3 버킷을 생성하려면 AWS CLI에서 create-bucket 명령을 사용합니다.

    Linux
    aws s3api create-bucket \ --bucket amzn-s3-demo-bucket \ --region aws-region \ --create-bucket-configuration LocationConstraint=aws-region

    위치:

    • amzn-s3-demo-버킷은 버킷 이름입니다.

    • aws-region 버킷을 만들려는 지역입니다.

    macOS
    aws s3api create-bucket \ --bucket amzn-s3-demo-bucket \ --region aws-region \ --create-bucket-configuration LocationConstraint=aws-region

    위치:

    • amzn-s3-demo-버킷은 버킷 이름입니다.

    • aws-region 버킷을 만들려는 지역입니다.

    Windows
    aws s3api create-bucket ^ --bucket amzn-s3-demo-bucket ^ --region aws-region ^ --create-bucket-configuration LocationConstraint=aws-region

    위치:

    • amzn-s3-demo-버킷은 버킷 이름입니다.

    • aws-region 버킷을 만들려는 지역입니다.

    참고

    Amazon Comprehend와 Amazon Kendra를 모두 지원하는 리전을 선택해야 합니다. 버킷을 생성한 후에는 버킷의 리전을 변경할 수 없습니다.

  2. 버킷이 성공적으로 생성되었는지 확인하려면 list 명령을 사용하세요.

    Linux
    aws s3 ls
    macOS
    aws s3 ls
    Windows
    aws s3 ls

S3 버킷에 데이터 및 메타데이터 폴더 생성

S3 버킷을 생성한 후 그 안에 데이터 및 메타데이터 폴더를 생성합니다.

  1. 에서 Amazon S3 콘솔을 엽니다 https://console.aws.amazon.com/s3/.

  2. 버킷에서 버킷 목록에서 해당하는 버킷의 이름을 클릭합니다.

  3. 객체 탭에서 폴더 생성을 선택합니다.

  4. 새 폴더 이름으로 data을 입력합니다.

  5. 암호화 설정에서 비활성화를 선택합니다.

  6. 폴더 생성을 선택합니다.

  7. 3~6단계를 반복하여 Amazon Kendra 메타데이터를 저장할 다른 폴더를 생성하고 4단계에서 생성한 폴더의 이름을 metadata로 지정합니다.

  1. S3 버킷에 data 폴더를 생성하려면 AWS CLI에서 put-object 명령을 사용합니다.

    Linux
    aws s3api put-object \ --bucket amzn-s3-demo-bucket \ --key data/

    위치:

    • amzn-s3-데모 버킷은 버킷 이름입니다.

    macOS
    aws s3api put-object \ --bucket amzn-s3-demo-bucket \ --key data/

    위치:

    • amzn-s3-데모 버킷은 버킷 이름입니다.

    Windows
    aws s3api put-object ^ --bucket amzn-s3-demo-bucket ^ --key data/

    위치:

    • amzn-s3-데모 버킷은 버킷 이름입니다.

  2. S3 버킷에 metadata 폴더를 생성하려면 AWS CLI에서 put-object 명령을 사용합니다.

    Linux
    aws s3api put-object \ --bucket amzn-s3-demo-bucket \ --key metadata/

    위치:

    • amzn-s3-데모 버킷은 버킷 이름입니다.

    macOS
    aws s3api put-object \ --bucket amzn-s3-demo-bucket \ --key metadata/

    위치:

    • amzn-s3-데모 버킷은 버킷 이름입니다.

    Windows
    aws s3api put-object ^ --bucket amzn-s3-demo-bucket ^ --key metadata/

    위치:

    • amzn-s3-데모 버킷은 버킷 이름입니다.

  3. 폴더가 성공적으로 생성되었는지 확인하려면 list 명령어를 사용하여 버킷의 콘텐츠를 확인하세요.

    Linux
    aws s3 ls s3://amzn-s3-demo-bucket/

    위치:

    • amzn-s3-데모 버킷은 버킷 이름입니다.

    macOS
    aws s3 ls s3://amzn-s3-demo-bucket/

    위치:

    • amzn-s3-데모 버킷은 버킷 이름입니다.

    Windows
    aws s3 ls s3://amzn-s3-demo-bucket/

    위치:

    • amzn-s3-데모 버킷은 버킷 이름입니다.

입력 데이터 로드

데이터 및 메타데이터 폴더를 만든 후 샘플 데이터 세트를 data 폴더에 업로드합니다.

  1. 에서 Amazon S3 콘솔을 엽니다 https://console.aws.amazon.com/s3/.

  2. 버킷에서 버킷 목록에서 버킷의 이름을 클릭한 다음 data를 클릭합니다.

  3. 업로드를 선택한 후 파일 추가를 선택합니다.

  4. 대화 상자에서 로컬 디바이스의 tutorial-dataset 폴더 내 data 폴더로 이동하여 모든 파일을 선택한 다음 열기를 선택합니다.

  5. 대상, 권한속성에 대한 기본 설정을 유지합니다.

  6. 업로드를 선택합니다.

  1. 샘플 데이터를 data 폴더에 업로드하려면 AWS CLI에서 copy 명령어를 사용하세요.

    Linux
    aws s3 cp path/tutorial-dataset/data s3://amzn-s3-demo-bucket/data/ --recursive

    위치:

    • path/ 디바이스에 있는 tutorial-dataset 폴더의 파일 경로입니다.

    • amzn-s3-데모 버킷은 버킷 이름입니다.

    macOS
    aws s3 cp path/tutorial-dataset/data s3://amzn-s3-demo-bucket/data/ --recursive

    위치:

    • path/ 디바이스에 있는 폴더의 파일 경로입니다. tutorial-dataset

    • amzn-s3-데모 버킷은 버킷 이름입니다.

    Windows
    aws s3 cp path/tutorial-dataset/data s3://amzn-s3-demo-bucket/data/ --recursive

    위치:

    • path/ 디바이스에 있는 폴더의 파일 경로입니다. tutorial-dataset

    • amzn-s3-데모 버킷은 버킷 이름입니다.

  2. 데이터 세트 파일이 data 폴더에 성공적으로 업로드되었는지 확인하려면 AWS CLI에서 list 명령어를 사용하세요.

    Linux
    aws s3 ls s3://amzn-s3-demo-bucket/data/

    위치:

    • amzn-s3-데모 버킷은 S3 버킷의 이름입니다.

    macOS
    aws s3 ls s3://amzn-s3-demo-bucket/data/

    위치:

    • amzn-s3-데모 버킷은 S3 버킷의 이름입니다.

    Windows
    aws s3 ls s3://amzn-s3-demo-bucket/data/

    위치:

    • amzn-s3-데모 버킷은 S3 버킷의 이름입니다.

이 단계가 끝나면 data 폴더 내에 데이터 세트가 저장된 S3 버킷과 Amazon Kendra 메타데이터를 저장할 빈 metadata 폴더가 생깁니다.