取り込みフェーズ

組織は、継続的に生成される PDF ファイルタイプ (日次オペレーションレポートなど）、同じ形式、自動的かつ定期的にデータを抽出する必要がある PDF ファイルタイプを識別します。この PDF ファイルを取り込むには、Amazon Simple Storage Service (Amazon S3) バケットが必要です。専用の S3 バケットを作成することをお勧めします。ただし、既存の S3 バケットを使用することもできます。詳細については、Amazon S3 ドキュメントの「バケットの作成」を参照してください。

新しい PDF ファイルが取り込まれると、S3 バケットは AWS Lambda 関数を呼び出します。詳細については、 AWS Lambda ドキュメントのAmazon S3トリガーを使用して Lambda 関数を呼び出す」を参照してください。

次に、Lambda 関数は PDF ファイルを処理します。このプロセスについては、このガイドの処理フェーズセクションで説明します。

取り込みフェーズのベストプラクティス

PDF ファイルの取り込みを成功させるには、次の 4 つのベストプラクティスを使用します。

履歴 PDF ファイルには一括取り込みを使用し、新しい PDF ファイルには連続取り込みを使用します。
一括取り込みの場合は、一括ダンプを使用します (ローカルドライブから PDF ファイルをアップロードするなど）。複数の PDF ファイルタイプがある場合は、異なるフォルダを使用して各タイプの PDF ファイルを保持することをお勧めします。また、などのファイルには、一意でわかりやすい命名基準を使用することをお勧めしますwarehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf。
新しい PDF ファイルを継続的に取り込むには、ソースシステムが S3 バケットに接続する必要があります。たとえば、ソースシステムから S3 バケットへの日次ダンプを設定できます。
PDF ファイルが高品質で、明確に読み取れることを確認してください。ネイティブ PDF ファイルを使用することをお勧めしますが、個々の単語が明確であれば、PDF 形式に変換されたスキャン済みドキュメントを使用することもできます。詳細については、 AWS 「 Machine Learning Blog」の「PDF file preprocessing with Amazon Textract: Visuals detection and remove」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ソリューションフェーズ

処理フェーズ