에서 PDF 파일을 분석하기 위한 자동화된 솔루션 설계 AWS 클라우드

Tianxia Jia 및 Yanyan Zhang, Amazon Web Services(AWS)

2021년 10월(문서 기록)

조직은 정기적으로 PDF 파일을 사용하여 텍스트, 테이블 및 양식을 비롯한 다양한 데이터 형식을 저장하고 전송합니다. 그러나 다른 PDF 파일의 데이터를 자동으로 집계하고 분석하는 것은 어려울 수 있습니다. 예를 들어 조직의 비즈니스 애플리케이션은 형식이 동일하지만 사용자가 개별적으로 열고 읽어야 하는 다양한 PDF 파일을 정기적으로 수집할 수 있습니다. 즉, 사용자는 이러한 PDF 파일에서 유용한 인사이트를 생성하기 어렵기 때문에 관련 데이터를 수동으로 추출하고 추가 분석을 위해 타사 도구를 사용해야 합니다.

Amazon Web Services(AWS) 클라우드에서 Amazon Textract는 PDF 파일에서 정보(예: 인쇄된 텍스트, 양식 및 테이블)를 자동으로 추출하고 원본 PDF 파일의 정보가 포함된 JSON 형식 파일을 생성합니다. 사후 처리 중에 추출된 데이터는 Amazon DynamoDB에 저장되며 Amazon QuickSight에서 분석 및 시각화를 사용하여 비즈니스 인사이트를 생성할 수 있습니다.

이 가이드는 4단계로 구성된 서버리스 자동 PDF 파일 분석 솔루션을 제공합니다.

수집 단계 - 조직에서 지속적으로 생성하고(예: 일일 운영 보고서) 정기적으로 데이터를 추출해야 하는 PDF 파일 유형을 준비합니다.
처리 단계 - 다운스트림 애플리케이션에 필요한 데이터 값을 PDF 파일에서 추출합니다.
데이터 스토리지 단계 - 추출된 데이터를 Amazon Simple Storage Service(Amazon S3)의 JSON 파일 및 DynamoDB 테이블의 레코드로 저장합니다.
분석 단계 - Amazon QuickSight에서 대시보드를 생성하여 데이터를 시각화하고 분석할 수 있습니다.

이 가이드에서는 Amazon S3를 사용하여 원시 및 처리된 데이터를 저장하고, 컴퓨팅을 AWS Lambda 위해 Amazon Textract를 사용하여 PDF 파일에서 콘텐츠를 추출하고, DynamoDB를 사용하여 처리된 데이터를 저장하고, Amazon QuickSight를 사용하여 분석 및 시각화를 수행합니다. 이 가이드는 정보를 자동으로 추출하고 PDF 파일에서 인사이트를 생성하려는 데이터 과학자, 기계 학습(ML) 엔지니어 및 솔루션 아키텍트를 대상으로 합니다.

목표 비즈니스 성과

에서 PDF 파일을 분석하기 위한 자동화된 솔루션을 설계한 후 AWS 클라우드다음 세 가지 결과를 기대해야 합니다.

새 데이터를 사용할 수 있게 되면 새로 고치는 자동화된 솔루션을 사용하여 여러 PDF 파일의 원시 데이터를 대규모로 자동으로 처리합니다.
다운스트림 모델링 및 분석 애플리케이션(예: Amazon SageMaker AI의 ML 모델링)은 추출된 PDF 파일 콘텐츠에 액세스할 수 있습니다.
QuickSight의 최종 사용자에게 모든 PDF 파일 콘텐츠를 보여주는 데이터 대시보드입니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

참조 아키텍처