섭취 단계 - AWS 규범적 지침

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

섭취 단계

조직에서 지속적으로 생성되고 (예: 일일 운영 보고서) 형식이 동일하고 데이터를 자동으로 정기적으로 추출해야 하는 PDF 파일 유형을 식별합니다. 이 PDF 파일을 수집하려면 Amazon Simple Storage Service (Amazon S3) 버킷이 필요하며 전용 S3 버킷을 생성하는 것이 좋습니다. 하지만 기존 S3 버킷을 사용할 수도 있습니다. 자세한 내용은 Amazon S3 설명서의 버킷 생성 을 참조하세요.

S3 버킷은 새 PDF 파일이 수집될 때AWS Lambda 함수를 호출합니다. 자세한 내용은 설명서의 Amazon S3 트리거를 사용하여 Lambda 함수 호출 을AWS Lambda 참조하세요.

그러면 Lambda 함수가 PDF 파일을 처리합니다. 이 프로세스는 이 안내서의처리 단계 섹션에 설명되어 있습니다.

수집 단계의 모범 사례

성공적인 PDF 파일 통합을 위해서는 다음 네 가지 모범 사례를 사용하십시오.

  • 이전 PDF 파일에는 대량 수집을 사용하고 새 PDF 파일에는 연속 수집을 사용합니다.

  • 대량 수집의 경우 대량 덤프 (예: 로컬 드라이브에서 PDF 파일 업로드) 를 사용하십시오. PDF 파일 유형이 두 개 이상인 경우 각 유형의 PDF 파일을 보관할 폴더를 서로 다르게 사용하는 것이 좋습니다. 또한 파일에 대해 고유하고 설명이 포함된 이름 지정 표준 (예:) 을 사용하는 것이 좋습니다warehouse_<wharehouse_number>_<mmddyy>_<PDF_file_type>.pdf.

  • 새 PDF 파일을 지속적으로 수집하려면 소스 시스템이 S3 버킷에 연결되어야 합니다. 예를 들어 소스 시스템에서 S3 버킷으로 일일 덤프를 설정할 수 있습니다.

  • PDF 파일의 품질이 우수하고 명확하게 읽을 수 있는지 확인하십시오. 기본 PDF 파일을 사용하는 것이 좋지만 개별 단어가 명확하면 PDF 형식으로 변환된 스캔 문서를 사용할 수도 있습니다. 이에 대한 자세한 내용은AWS Machine Learning 블로그의 Amazon Textract Texttract를 사용한 PDF 파일 전처리: 시각적 탐지 및 제거를 참조하십시오.