翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
取り込みフェーズ
組織によっては、継続的に生成される PDF ファイルタイプ(日次業務レポートなど)、形式が同じで、データを自動的かつ定期的に抽出する必要がある PDF ファイルタイプを特定しています。この PDF ファイルを取り込むには、Amazon Simple Storage Service (Amazon S3) バケットが必要です。専用の S3 バケットを作成することをお勧めします。ただし、既存の S3 バケットを使用することもできます。詳細については、Amazon S3 ドキュメントの「バケットの作成」を参照してください。
S3 バケットは、新しい PDFAWS Lambda ファイルが取り込まれるときに関数を呼び出します。詳細については、AWS Lambdaドキュメントの「Amazon S3 トリガーを使用して Lambda 関数を呼び出す」を参照してください。
次に、Lambda 関数は PDF ファイルを処理します。このプロセスについては、処理フェーズこのガイドのセクションで説明しています。
取り込みフェーズのベストプラクティス
PDF ファイルの取り込みを成功させるには、次の 4 つのベストプラクティスを使用してください。
-
過去のPDFファイルには一括取り込みを使用し、新しいPDFファイルには連続取り込みを使用します。
-
一括取り込みには、一括ダンプ(ローカルドライブから PDF ファイルをアップロードするなど)を使用します。PDF ファイルの種類が複数ある場合は、PDF ファイルの種類ごとに異なるフォルダーを使用することをお勧めします。また、
warehouse_<wharehouse_number>_<mmddyy>_<PDF_file_type>.pdf
ファイルには次のような一意でわかりやすい命名規則を使用することをおすすめします。 -
新しい PDF ファイルを継続的に取り込むには、ソースシステムを S3 バケットに接続する必要があります。たとえば、ソースシステムから S3 バケットへの毎日のダンプを設定できます。
-
PDF ファイルの品質が良く、はっきりと判読できることを確認してください。ネイティブのPDFファイルを使用することをお勧めしますが、個々の単語がはっきりしていれば、スキャンした文書をPDF形式に変換して使用することもできます。詳細については、AWS Machine Learning ブログの「Amazon Textract による PDF ファイルの前処理:ビジュアルの検出と削除
」を参照してください。