처리 단계 - AWS 규범적 지침

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

처리 단계

Amazon Textract Textract는 다운스트림 애플리케이션 (예: 숫자를 집계하여 통계 생성) 에서 직접 사용할 수 없는 문자열로 PDF 파일 콘텐츠를 추출합니다. 데이터 값은 다운스트림 애플리케이션 (예: 비용 추세를 시계열로 표시) 에서 더 쉽게 사용할 수 있으므로 올바르게 식별되고 변환된 데이터 값이 필요합니다. PDF 파일 처리를 구현하려면 각 새 PDF 파일 유형에서 하나의 PDF 파일을 Amazon Textract Texttract를 통해 한 번 처리해야 합니다. 그러면 JSON 형식의Template 파일이 생성됩니다.

AWS Lambda함수가 에서 시작된 후 다음 다이어그램에 표시된 단계를 실행합니다.섭취 단계

이AWS Lambda 함수는 Amazon Textract Textract를 호출하여 PDF 파일을 처리하고, 사전 정의된 사전 정의된Template JSON 파일을 사용하고, 최종 출력을 S3 버킷에 저장하기 전에 사후 처리 규칙을 적용합니다.

다이어그램은 다음 단계를 구현하는 Lambda 함수를 보여줍니다.

  1. Amazon Textract Textract를 호출하여 PDF 파일을 처리하고, 콘텐츠를 추출하고, JSON 형식의 파일을 반환합니다.

  2. JSON 파일을 가져와서 각 필드에 대해 올바른 키 이름과 값 유형을 가진 미리 정의된Template JSON 파일을 사용하여 양식과 테이블을 파싱합니다. 이 프로세스는 파싱된 JSON 파일을 제공합니다.

  3. 사후 처리 규칙을 적용하고Template JSON 파일을 사용하여 파싱된 JSON 파일의 각 값을 수정합니다. 그러면Final JSON 파일이 생성됩니다. 사전 정의된Template JSON 파일은 S3 버킷에 저장할 수 있습니다.

  4. Amazon DynamoDB에 있는Final JSON 파일을 S3 출력 버킷의 각 PDF 파일에 대한 하나의 JSON 파일 외에도 각 PDF 파일에 대한 하나의 레코드로 저장합니다.

Amazon Textract Textract를 사용하여 PDF 파일에서 콘텐츠를 자동으로 추출하고 이를 깨끗한 출력으로 처리하는 step-by-step 워크플로의 경우,AWS 규범적 지침 웹 사이트의 Amazon Textract Textract를 사용하여 PDF 파일에서 콘텐츠 자동 추출 패턴을 참조하십시오. 패턴은 템플릿 매칭 기술을 사용하여 필수 필드, 키 이름 및 테이블을 정확하게 식별한 다음 각 데이터 유형에 사후 처리 수정을 적용합니다.

처리 단계의 모범 사례

성공적인 처리 단계를 보장하려면 다음 네 가지 모범 사례를 사용하십시오.

  • 처리하려는 각 PDF 파일 유형에 대한 템플릿 JSON 파일을 생성합니다. 이러한 다양한 템플릿 JSON 파일을 Lambda 함수에서 호출하는 S3 버킷에 저장할 수 있습니다. 하나의 Lambda 함수에서 다양한 PDF 파일 유형을 처리하려면 각 PDF 파일 유형에 대해 고유한 식별자를 사용해야 합니다 (예: S3 버킷에 있는 PDF 파일 유형의 폴더 이름). Lambda 함수가 호출되면 적절한 템플릿 JSON 파일을 검색하여 처리합니다.

  • Lambda 함수에서 각 단계의 상태를 정확하게 추적하는 메커니즘을 설정합니다. 예를 들어 Amazon Textract 호출 이후, 최종 JSON 파일이 Amazon DynamoDB 테이블에 저장될 때 또는 PDF 파일이 S3 버킷에 저장될 때Success 상태를 추가할 수 있습니다. 또한 별도의 DynamoDB 테이블을 생성하여 각 PDF 파일의 상태를 여러 단계에서 추적할 수 있어 프로세스를 한눈에 파악할 수 있습니다.

  • 여러 PDF 파일을 일괄 처리할 때 실패한 작업을 자동으로 다시 시도하여 전송률 조절 및 연결 끊김을 관리합니다. 연결이 끊기거나 초당 최대 트랜잭션 수 (TPS) 를 초과할 경우 Amazon Textract Textract에서 스로틀링이 발생할 수 있습니다. 실패한 작업을 자동으로 재시도하는 방법에 대한 자세한 내용과 단계는 Amazon Textract 설명서의 조절된 통화 및 끊긴 연결 처리를 참조하십시오.

  • 여러 페이지로 구성된 PDF 파일이 있는 경우 비동기 작업을 사용하여 전체 파일을 처리하거나 PDF 파일을 개별 페이지로 분할하고 동기 작업을 사용하여 각 페이지를 처리한 다음 각 페이지의 결과를 결합할 수 있습니다. 비동기 작업의 전체 코드 구현은 Amazon Textract Textract 설명서의 여러 페이지 문서의 텍스트 감지 및 분석을 참조하십시오. 동기 작업 사용에 대한 자세한 내용은 Amazon Textract Textract 설명서의 단일 페이지 문서의 텍스트 감지 및 분석을 참조하십시오.