기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
에서 PDF 파일을 분석하기 위한 자동화된 솔루션 설계 AWS 클라우드
Tianxia Jia 및 Yanyan Zhang, Amazon Web Services(AWS)
2021년 10월(문서 기록)
조직은 정기적으로 PDF 파일을 사용하여 텍스트, 테이블 및 양식을 비롯한 다양한 데이터 형식을 저장하고 전송합니다. 그러나 다른 PDF 파일의 데이터를 자동으로 집계하고 분석하는 것은 어려울 수 있습니다. 예를 들어 조직의 비즈니스 애플리케이션은 형식이 동일하지만 사용자가 개별적으로 열고 읽어야 하는 다양한 PDF 파일을 정기적으로 수집할 수 있습니다. 즉, 사용자는 이러한 PDF 파일에서 유용한 인사이트를 생성하기 어렵기 때문에 관련 데이터를 수동으로 추출하고 추가 분석을 위해 타사 도구를 사용해야 합니다.
Amazon Web Services(AWS) 클라우드에서 Amazon Textract는 PDF 파일에서 정보(예: 인쇄된 텍스트, 양식 및 테이블)를 자동으로 추출하고 원본 PDF 파일의 정보가 포함된 JSON 형식 파일을 생성합니다. 사후 처리 중에 추출된 데이터는 Amazon DynamoDB에 저장되며 Amazon QuickSight에서 분석 및 시각화를 사용하여 비즈니스 인사이트를 생성할 수 있습니다.
이 가이드는 4단계로 구성된 서버리스 자동 PDF 파일 분석 솔루션을 제공합니다.
-
수집 단계 - 조직에서 지속적으로 생성하고(예: 일일 운영 보고서) 정기적으로 데이터를 추출해야 하는 PDF 파일 유형을 준비합니다.
-
처리 단계 - 다운스트림 애플리케이션에 필요한 데이터 값을 PDF 파일에서 추출합니다.
-
데이터 스토리지 단계 - 추출된 데이터를 Amazon Simple Storage Service(Amazon S3)의 JSON 파일 및 DynamoDB 테이블의 레코드로 저장합니다.
-
분석 단계 - Amazon QuickSight에서 대시보드를 생성하여 데이터를 시각화하고 분석할 수 있습니다.
이 가이드에서는 Amazon S3를 사용하여 원시 및 처리된 데이터를 저장하고, 컴퓨팅을 AWS Lambda 위해 Amazon Textract를 사용하여 PDF 파일에서 콘텐츠를 추출하고, DynamoDB를 사용하여 처리된 데이터를 저장하고, Amazon QuickSight를 사용하여 분석 및 시각화를 수행합니다. 이 가이드는 정보를 자동으로 추출하고 PDF 파일에서 인사이트를 생성하려는 데이터 과학자, 기계 학습(ML) 엔지니어 및 솔루션 아키텍트를 대상으로 합니다.
목표 비즈니스 성과
에서 PDF 파일을 분석하기 위한 자동화된 솔루션을 설계한 후 AWS 클라우드다음 세 가지 결과를 기대해야 합니다.
-
새 데이터를 사용할 수 있게 되면 새로 고치는 자동화된 솔루션을 사용하여 여러 PDF 파일의 원시 데이터를 대규모로 자동으로 처리합니다.
-
다운스트림 모델링 및 분석 애플리케이션(예: Amazon SageMaker AI의 ML 모델링)은 추출된 PDF 파일 콘텐츠에 액세스할 수 있습니다.
-
QuickSight의 최종 사용자에게 모든 PDF 파일 콘텐츠를 보여주는 데이터 대시보드입니다.