1단계: Amazon S3에 문서 추가 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

1단계: Amazon S3에 문서 추가

Amazon Comprehend 분석 작업을 시작하기 전에 Amazon Simple Storage Service(Amazon S3)에 샘플 고객 리뷰 데이터 세트를 저장해야 합니다. Amazon S3는 버킷이라는 컨테이너에서 데이터를 호스팅합니다. Amazon Comprehend는 버킷에 저장된 문서를 분석하고 분석 결과를 버킷으로 전송할 수 있습니다. 이 단계에서는 S3 버킷을 생성하고 이 버킷에 입력 및 출력 폴더를 생성하고 이 버킷에 샘플 데이터 세트를 업로드합니다.

필수 조건

시작하기 전에 자습서: Amazon Comprehend 고객 리뷰를 통한 인사이트 분석를 검토하고 필수 조건을 충족해야 합니다.

샘플 데이터 다운로드

다음 샘플 데이터세트에는 “텍스트 분류를 위한 문자 수준 컨볼루션 네트워크”(Xiang Zhang et al., 2015)라는 기사와 함께 게시된 대규모 데이터 세트 “Amazon 리뷰 - 전체”에서 가져온 Amazon 리뷰가 포함되어 있습니다. 데이터세트를 컴퓨터에 다운로드합니다.

샘플 데이터 가져오기
  1. tutorial-reviews-data.zip 파일을 컴퓨터에 다운로드합니다.

  2. 컴퓨터에서 zip 파일을 추출합니다. 두 개의 파일이 있습니다. THIRD_PARTY_LICENSES.txt 파일은 Xiang Zhang 등이 게시한 데이터세트의 오픈 소스 라이선스입니다. amazon-reviews.csv 파일은 자습서에서 분석하는 데이터세트입니다.

Amazon S3 버킷 생성

샘플 데이터세트를 다운로드한 후 Amazon S3 버킷을 생성하여 입력 및 출력 데이터를 저장합니다. Amazon S3 콘솔 또는 AWS Command Line Interface (AWS CLI)를 사용하여 S3 버킷을 생성할 수 있습니다.

Amazon S3 콘솔에서 모든 AWS에 고유한 이름을 가진 버킷을 생성합니다.

S3 버킷 생성(콘솔)
  1. AWS Management Console 로그인하고 https://console.aws.amazon.com/s3/ 에서 Amazon S3 콘솔을 엽니다.

  2. 버킷에서 버킷 생성을 선택합니다.

  3. 버킷 이름에서, 버킷의 용도를 설명하는 전역적으로 고유한 이름을 입력합니다.

  4. 지역의 경우 버킷을 생성할 AWS 지역을 선택합니다. 선택한 리전은 Amazon Comprehend를 지원해야 합니다. 지연 시간을 줄이려면 Amazon Comprehend에서 지원하는 지리적 위치와 가장 가까운 AWS 지역을 선택하십시오. Amazon Comprehend를 지원하는 리전 목록은 글로벌 인프라 안내서리전 표를 참조하세요.

  5. 객체 소유권, 퍼블릭 액세스 차단에 대한 버킷 설정, 버킷 버전 관리태그에 대한 기본 설정은 그대로 두십시오.

  6. 기본 암호화의 경우, 비활성화를 선택합니다.

    작은 정보

    이 자습서에서는 암호화를 사용하지 않지만 중요한 데이터를 분석할 때는 암호화를 사용하는 것이 좋습니다. end-to-end 암호화의 경우, 버킷에 저장된 데이터를 암호화할 수 있으며 분석 작업을 실행할 때도 암호화할 수 있습니다. 를 사용한 AWS암호화에 대한 자세한 내용은 What is AWS Key Management Service? 를 참조하십시오. AWS Key Management Service 개발자 안내서에서

  7. 버킷 구성을 검토한 다음 버킷 생성을 선택합니다.

를 AWS CLI연 후 create-bucket 명령을 실행하여 입력 및 출력 데이터를 저장할 버킷을 만듭니다.

Amazon S3 버킷 생성(AWS CLI)
  1. 버킷을 생성하려면, AWS CLI에서 다음 명령을 실행합니다. DOC-EXAMPLE-BUCKET을 모든 버킷에서 고유한 버킷 이름으로 바꾸십시오. AWS

    aws s3api create-bucket --bucket DOC-EXAMPLE-BUCKET

    기본적으로 이 create-bucket 명령은 지역에 버킷을 만듭니다. us-east-1 AWS us-east-1과 다른 AWS 리전 에 버킷을 생성하려면 LocationConstraint 파라미터를 추가하여 리전을 지정합니다. 예를 들어, 다음 명령은 us-west-2 리전에서 파일 시스템을 생성합니다.

    aws s3api create-bucket --bucket DOC-EXAMPLE-BUCKET --region us-west-2 --create-bucket-configuration LocationConstraint=us-west-2

    단, 특정 리전에서만 Amazon Comprehend를 지원합니다. Amazon Comprehend를 지원하는 리전 목록은 글로벌 인프라 안내서리전 표를 참조하세요.

  2. 버킷이 성공적으로 생성되었는지 확인하려면 다음 명령을 실행합니다. 이 명령은 계정에 연결된 모든 S3 버킷을 나열합니다.

    aws s3 ls

(콘솔 전용) 폴더 생성

다음으로, S3 버킷에 폴더 두 개를 생성합니다. 첫 번째 폴더는 입력 데이터 폴더입니다. 두 번째 폴더는 Amazon Comprehend가 분석 결과를 보내는 곳입니다. Amazon S3 콘솔을 사용하는 경우 폴더를 수동으로 생성해야 합니다. 를 사용하는 경우 샘플 데이터세트를 업로드하거나 분석 작업을 실행할 때 폴더를 만들 수 있습니다. AWS CLI이러한 이유로 콘솔 사용자만을 위한 폴더를 생성하는 절차를 제공합니다. AWS CLI를 사용하는 경우 입력 데이터 업로드3단계: Amazon S3의 문서에 대한 분석 작업 실행에 폴더를 생성합니다.

S3 버킷에서 폴더 생성(콘솔)
  1. https://console.aws.amazon.com/s3/에서 S3 콘솔을 엽니다.

  2. 버킷에서, 버킷 목록 중 해당 버킷을 선택합니다.

  3. 개요 탭에서 폴더 생성을 선택합니다.

  4. 폴더의 새 이름으로 input을 입력합니다.

  5. 암호화 설정에서 없음(버킷 설정 사용)을 선택합니다.

  6. 저장을 선택합니다.

  7. 3~6단계를 반복하여 분석 작업 출력을 위한 또 다른 폴더를 생성하되, 4단계에서 새 폴더 이름 output을 입력합니다.

입력 데이터 업로드

이제 버킷이 생겼으니 샘플 데이터세트 amazon-reviews.csv를 업로드하십시오. Amazon S3 콘솔 또는 AWS CLI를 사용하여 S3 버킷에 데이터를 업로드할 수 있습니다.

Amazon S3 콘솔에서 샘플 데이터 세트 파일을 입력 폴더에 업로드합니다.

샘플 문서 업로드(콘솔)
  1. https://console.aws.amazon.com/s3/에서 S3 콘솔을 엽니다.

  2. 버킷에서, 버킷 목록 중 해당 버킷을 선택합니다.

  3. input 폴더를 선택한 다음 업로드를 선택합니다.

  4. 파일 추가를 선택한 다음 컴퓨터에 있는 amazon-reviews.csv 파일을 선택합니다.

  5. 기타 설정은 기본값을 유지합니다.

  6. 업로드를 선택합니다.

S3 버킷에 입력 폴더를 생성하고 cp 명령을 사용하여 데이터세트 파일을 새 폴더에 업로드합니다.

샘플 문서 업로드(AWS CLI)
  1. amazon-reviews.csv파일을 버킷의 새 폴더에 업로드하려면 다음 AWS CLI 명령어를 실행합니다. DOC-EXAMPLE-BUCKET을 버킷의 이름으로 대체합니다. 끝에 /input/ 경로를 추가하면 Amazon S3는 버킷에 input이라는 새 폴더를 자동으로 생성하고 데이터세트 파일을 해당 폴더에 업로드합니다.

    aws s3 cp amazon-reviews.csv s3://DOC-EXAMPLE-BUCKET/input/
  2. 파일이 성공적으로 업로드되었는지 확인하려면 다음 명령을 실행합니다. 명령어는 버킷 input 폴더의 콘텐츠를 나열합니다.

    aws s3 ls s3://DOC-EXAMPLE-BUCKET/input/

이제 input라는 폴더에 amazon-reviews.csv 파일이 있는 S3 버킷이 생겼습니다. 콘솔을 사용한 경우 버킷에도 output 폴더가 있습니다. 를 사용한 경우 Amazon Comprehend 분석 작업을 실행할 때 출력 폴더를 생성하게 됩니다. AWS CLI