PDF 파일을 분석하기 위한 자동화 솔루션 설계AWS 클라우드 - AWS 규범적 지침

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

PDF 파일을 분석하기 위한 자동화 솔루션 설계AWS 클라우드

티안시아 지아와 얀얀 장, Amazon Web Services (AWS)

2021년 10월 (문서 기록)

Organizations 정기적으로 PDF 파일을 사용하여 텍스트, 표 및 양식을 비롯한 다양한 데이터 유형을 저장하고 전송합니다. 그러나 여러 PDF 파일의 데이터를 자동으로 집계하고 분석하는 것은 어려울 수 있습니다. 예를 들어 조직의 비즈니스 응용 프로그램에서는 형식이 동일하지만 사용자가 개별적으로 열고 읽어야 하는 여러 PDF 파일을 정기적으로 수집할 수 있습니다. 즉, 사용자는 이러한 PDF 파일에서 유용한 정보를 생성하기 어렵고 추가 분석을 위해 관련 데이터를 수동으로 추출하고 타사 도구를 사용해야 합니다.

Amazon Web Services (AWS) 클라우드에서 Amazon Textract Textract는 PDF 파일에서 정보 (예: 인쇄된 텍스트, 양식 및 표) 를 자동으로 추출하고 원본 PDF 파일의 정보가 포함된 JSON 형식의 파일을 생성합니다. 사후 처리 과정에서 추출된 데이터는 Amazon DynamoDB에 저장되며 Amazon의 분석 및 시각화를 사용하여 비즈니스 통찰력을 생성할 수 QuickSight 있습니다.

이 안내서는 4단계로 구성된 서버리스 자동 PDF 파일 분석 솔루션을 제공합니다.

  • 섭취 단계— 조직에서 지속적으로 생성하고 정기적으로 데이터를 추출해야 하는 PDF 파일 형식 (예: 일일 운영 보고서) 을 준비하십시오.

  • 처리 단계— PDF 파일에서 다운스트림 애플리케이션에 필요한 데이터 값을 추출합니다.

  • 데이터 저장 단계— 추출된 데이터를 아마존 Simple Storage Service (Amazon S3) 에 JSON 파일로 저장하고 DynamoDB 테이블에 레코드로 저장합니다.

  • 분석 단계— Amazon에서 대시보드를 QuickSight 생성하여 데이터를 시각화하고 분석할 수 있습니다.

이 안내서는 원시 데이터와 처리된 데이터를 저장하는 데 Amazon S3를 사용하고, 컴퓨팅의 AWS Lambda경우 Amazon Textract Texttract를 사용하여 PDF 파일에서 콘텐츠를 추출하고, 처리된 데이터를 저장하는 데 DynamoDB를 사용하고, 분석 및 시각화에는 QuickSightAmazon을 사용합니다. 이 가이드는 PDF 파일에서 자동으로 정보를 추출하고 통찰력을 생성하려는 데이터 과학자, 기계 학습 (ML) 엔지니어 및 솔루션 설계자를 대상으로 합니다.

목표 비즈니스 결과

에서 PDF 파일을 분석하는 자동화된 솔루션을 설계한 후에는 다음과 같은 세 가지 결과를 기대할 수 있습니다AWS 클라우드.

  • 새 데이터가 나오면 업데이트되는 자동화된 솔루션을 사용하여 여러 PDF 파일의 원시 데이터를 대규모로 자동 처리합니다.

  • 다운스트림 모델링 및 분석 애플리케이션 (예: Amazon의 ML 모델링 SageMaker) 은 추출된 PDF 파일 콘텐츠에 액세스할 수 있습니다.

  • Amazon의 최종 사용자에게 모든 PDF 파일 콘텐츠를 보여주는 데이터 QuickSight 대시보드입니다.