기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
플라이 휠 데이터 레이크
플라이 휠을 생성하면 Amazon Comprehend는 모델 버전에 필요한 입력 및 출력 데이터와 같은 모든 플라이 휠 데이터를 포함하는 데이터 레이크를 사용자 계정에 생성합니다.
Amazon Comprehend에서 데이터 레이크 생성 시 지정한 Amazon S3 위치에 데이터 레이크를 생성합니다. 위치를 Amazon S3 버킷으로 지정하거나 Amazon S3 버킷의 새 폴더로 지정할 수 있습니다.
데이터 레이크 폴더 구조
Amazon Comprehend는 데이터 레이크를 생성할 때 Amazon S3 위치에 다음과 같은 폴더 구조를 설정합니다.
주의
Amazon Comprehend는 데이터 레이크 폴더 구성 및 콘텐츠를 관리합니다. 항상 Amazon Comprehend API 작업을 사용하여 데이터 레이크 폴더를 수정하십시오. 그렇지 않으면 플라이 휠이 제대로 작동하지 않을 수 있습니다.
Document Pool Annotations Pool Staging Model Datasets (data for each version of the model) VersionID-1 Training Test ModelStats VersionID-2 Training Test ModelStats
모델 버전의 학습 평가를 보려면 다음 단계를 수행하십시오.
데이터 레이크의 루트 수준에서 모델 데이터 세트라는 폴더를 엽니다. 이 폴더에는 모델의 각 버전에 대한 하위 폴더가 있습니다.
원하는 모델 버전의 폴더를 엽니다.
라는 ModelStats폴더를 열어 모델에 대한 통계를 확인합니다.
데이터 레이크 관리
Amazon Comprehend에서 다음 작업을 자동으로 수행하여 데이터 레이크를 관리합니다.
데이터 레이크의 폴더 구조를 정의하고 데이터 세트를 적절한 폴더에 집어 넣습니다.
-
모델 학습에 필요한 입력 문서 (예: 텍스트 파일, 주석 파일) 를 관리합니다.
-
모델의 각 버전과 관련된 학습 및 평가 결과 데이터를 관리합니다.
데이터 레이크에 저장된 파일의 암호화를 관리합니다.
Amazon Comprehend는 데이터 레이크에 대한 모든 데이터 생성 및 업데이트 작업을 수행합니다. 데이터 레이크의 데이터에 대한 전체 액세스 권한은 그대로 유지됩니다. 예:
데이터 레이크의 콘텐츠에 완전히 액세스할 수 있습니다.
플라이 휠을 삭제한 후에도 데이터 레이크는 계속 사용할 수 있습니다.
데이터 레이크가 포함된 Amazon S3 버킷의 액세스 로그를 구성할 수 있습니다.
데이터에 대한 암호화 키를 제공할 수 있습니다. 플라이 휠을 생성할 때 이 정보를 지정합니다.
다음 모범 사례를 따르는 것이 좋습니다.
-
자체 폴더나 파일을 데이터 레이크에 수작업으로 추가하지 마십시오. 데이터 레이크에 있는 파일을 수정하거나 삭제하지 마십시오.
데이터 레이크에 데이터를 추가하거나 수정할 때는 항상 Amazon Comprehend 생성 및 업데이트 작업을 사용하십시오. 예를 들어
CreateDataset
을 사용하여 모델 버전 학습 또는 테스트를 하고StartFlywheelIteration
을 사용하여 모델 버전에 대한 평가 데이터를 생성합니다.-
데이터 레이크 구조는 시간이 지나면서 발전할 수 있습니다. 데이터 레이크 구조를 명시적으로 사용하는 다운스트림 스크립트나 프로그램을 만들지 마십시오.
-
플라이 휠에 데이터 레이크 위치를 제공할 때는 모든 플라이 휠과 관련된 데이터에 대한 공통 접두사를 만들거나 플라이 휠마다 다른 접두사를 사용하는 것이 좋습니다. 한 플라이 휠의 전체 데이터 레이크 경로를 다른 플라이 휠의 접두사로 사용하지 않는 것이 좋습니다.