기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
프로젝트를 사용하는 동안 문서 분할
Amazon Bedrock Data Automation(BDA)은 Amazon Bedrock API를 사용할 때 문서 분할을 지원합니다. 활성화되면 BDA는 분할을 통해 여러 논리적 문서가 포함된 PDF를 가져와서 별도의 문서로 분할하여 처리할 수 있습니다.
분할이 완료되면 분할 문서의 각 세그먼트가 독립적으로 처리됩니다. 즉, 입력 문서에는 다양한 문서 유형이 포함될 수 있습니다. 예를 들어 3개의 은행 명세서와 1개의 W2가 포함된 PDF가 있는 경우, 이를 분할하면 개별적으로 처리되는 4개의 개별 문서로 분할하려고 시도합니다.
BDA 자동 분할은 최대 3,000페이지의 파일을 지원하며 각각 최대 20페이지의 개별 문서를 지원합니다.
문서를 분할하는 옵션은 기본적으로 꺼져 있지만 API를 사용할 때 켤 수 있습니다. 아래은 분할자가 활성화된 프로젝트를 생성하는 예입니다. 줄임표는 프로젝트에 제공된 추가 블루프린트를 나타냅니다.
response = client.create_data_automation_project( projectName=project_name, projectDescription="Provide a project description", projectStage='LIVE', standardOutputConfiguration=output_config, customOutputConfiguration={ 'blueprints': [ { 'blueprintArn':Blueprint ARN, 'blueprintStage': 'LIVE' }, ... ] }, overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}} )
분할 프로세스를 활성화하는 부분은 overrideConfiguration 라인입니다. 이 라인은 분할자를 설정하고 동일한 파일 내에서 여러 문서를 전달할 수 있습니다.
문서는 문서의 의미 체계 경계로 분할됩니다.
문서 분할은 블루프린트 적용과 관계없이 수행되며 분할된 문서는 가장 가까운 블루프린트와 매칭됩니다. BDA가 블루프린트와 매칭되는 방법에 대한 자세한 내용은 블루프린트 매칭 이해 섹션을 참조하세요.
블루프린트 매칭 이해
블루프린트 매칭은 다음 요소를 기반으로 합니다.
-
블루프린트 이름
-
블루프린트 설명
-
블루프린트 필드
문서를 처리할 때 매칭할 여러 블루프린트를 제공할 수 있습니다. 이를 통해 적절한 블루프린트로 다양한 문서 유형을 처리할 수 있습니다. 데이터 자동화 API를 간접 호출할 때 여러 블루프린트 ID를 제공할 수 있으며, BDA는 각 문서를 가장 적합한 블루프린트와 매칭하려고 시도합니다. 이렇게 하면 혼합 문서 유형을 단일 배치로 처리할 수 있습니다. 이는 문서가 다양한 유형(예: 은행 명세서, 인보이스, 여권)일 것으로 예상되는 경우에 유용합니다.
문서 형식이 매우 다르거나 특수 프롬프트가 필요하기 때문에 별도의 블루프린트가 필요한 경우 문서 유형당 하나의 블루프린트를 생성하면 매칭에 도움이 될 수 있습니다. 유용한 블루프린트 생성에 대한 자세한 내용은 블루프린트 생성 모범 사례 섹션을 참조하세요.
블루프린트 생성 모범 사례
블루프린트를 최대한 활용하려면 다음 모범 사례를 따르세요.
-
블루프린트 이름 및 설명을 명시하고 자세히 설명하여 매칭을 지원합니다.
-
여러 관련 블루프린트를 제공하면 BDA가 가장 적합한 블루프린트를 선택할 수 있습니다. 상당히 다른 문서 형식에 대해 별도의 블루프린트 생성
-
최대한의 정확도가 필요한 경우 모든 공급업체/문서 소스에 대한 특수 블루프린트를 생성하는 것이 좋습니다.
-
프로젝트에 동일한 유형의 블루프린트 2개를 포함하지 마십시오(예: W2 블루프린트 2개). 문서 자체와 블루프린트의 정보는 문서를 처리하는 데 사용되며 프로젝트에 동일한 유형의 여러 블루프린트를 포함하면 성능이 저하됩니다.
BDA는 문서 분할과 여러 블루프린트 매칭을 활용하여 가장 적절한 추출 로직을 각 문서에 적용하는 동시에 다양한 문서 세트를 보다 유연하게 처리할 수 있습니다.