수집 단계

조직은 지속적으로 생성되는 PDF 파일 유형(예: 일일 작업 보고서)을 식별하고, 형식이 동일하며, 데이터를 자동으로 정기적으로 추출해야 합니다. 이 PDF 파일을 수집하려면 Amazon Simple Storage Service(Amazon S3) 버킷이 필요하며 전용 S3 버킷을 생성하는 것이 좋습니다. 그러나 기존 S3 버킷을 사용할 수도 있습니다. 이에 대한 자세한 내용은 Amazon S3 설명서의 버킷 생성을 참조하세요.

S3 버킷은 새 PDF 파일을 수집할 때 AWS Lambda 함수를 호출합니다. 이에 대한 자세한 내용은 AWS Lambda 설명서의 Amazon S3 트리거를 사용하여 Lambda 함수 호출을 참조하세요.

그러면 Lambda 함수가 PDF 파일을 처리합니다. 이 프로세스는이 가이드의 처리 단계 섹션에 설명되어 있습니다.

수집 단계의 모범 사례

다음 네 가지 모범 사례를 사용하여 성공적인 PDF 파일 수집을 보장합니다.

기록 PDF 파일에는 대량 수집을 사용하고 새 PDF 파일에는 연속 수집을 사용합니다.
대량 수집의 경우 대량 덤프를 사용합니다(예: 로컬 드라이브에서 PDF 파일 업로드). PDF 파일 유형이 두 개 이상인 경우 다른 폴더를 사용하여 각 유형의 PDF 파일을 보관하는 것이 좋습니다. 또한와 같은 파일에 대해 고유하고 설명적인 이름 지정 표준을 사용하는 것이 좋습니다warehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf.
새 PDF 파일을 지속적으로 수집하려면 소스 시스템이 S3 버킷에 연결되어야 합니다. 예를 들어 소스 시스템에서 S3 버킷으로 일일 덤프를 설정할 수 있습니다.
PDF 파일의 품질이 양호하고 명확하게 읽을 수 있는지 확인합니다. 기본 PDF 파일을 사용하는 것이 좋지만 개별 단어가 명확하면 PDF 형식으로 변환된 스캔된 문서를 사용할 수도 있습니다. 이에 대한 자세한 내용은 AWS Machine Learning 블로그의 Amazon Textract를 사용한 PDF 파일 사전 처리: 시각적 객체 감지 및 제거를 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

솔루션 단계

처리 단계