기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Documents
문서의 표준 출력을 사용하면 관심 있는 응답의 세분성을 설정하고 출력 형식과 출력의 텍스트 형식을 설정할 수 있습니다. 다음은 활성화할 수 있는 출력 중 일부입니다.
참고
BDA는 DOCX 파일을 처리할 수 있습니다. DOCX 파일을 처리하기 위해 PDFs로 변환됩니다. 즉, DOCX 파일에는 페이지 번호 매핑이 작동하지 않습니다. JSON+ 옵션과 페이지 세부 수준을 선택하면 변환된 PDFs의 이미지가 출력 버킷에 업로드됩니다.
응답 세부 수준
응답 세분화는 문서 텍스트 추출에서 수신할 응답의 종류를 결정합니다. 각 수준의 세분화는 점점 더 구분된 응답을 제공합니다. 페이지는 함께 추출된 모든 텍스트를 제공하고 단어는 각 단어를 별도의 응답으로 제공합니다. 사용 가능한 세분화 수준은 다음과 같습니다.
-
페이지 수준 세부 수준 - 기본적으로 활성화됩니다. 페이지 수준 세분화는 문서의 각 페이지를 원하는 텍스트 출력 형식으로 제공합니다. PDF를 처리하는 경우이 수준의 세분화를 활성화하면 임베디드 하이퍼링크가 감지되고 반환됩니다.
-
요소 수준 세부 수준(레이아웃) - 기본적으로 활성화됩니다. 선택한 출력 형식으로 문서의 텍스트를 다양한 요소로 구분하여 제공합니다. 그림, 테이블 또는 단락과 같은 이러한 요소입니다. 이는 문서 구조에 따라 논리적 읽기 순서로 반환됩니다. PDF를 처리하는 경우이 수준의 세분화를 활성화하면 임베디드 하이퍼링크가 감지되고 반환됩니다.
-
단어 수준 세분화 - 광범위한 컨텍스트 분석을 사용하지 않고 개별 단어에 대한 정보를 제공합니다. 페이지에서 각 단어와 해당 위치를 제공합니다.
출력 설정
출력 설정은 다운로드한 결과를 구성하는 방법을 결정합니다. 이 설정은 콘솔에서만 사용할 수 있습니다. 출력 설정 옵션은 다음과 같습니다.
-
JSON - 문서 분석을 위한 기본 출력 구조입니다. 구성 설정의 정보가 포함된 JSON 출력 파일을 제공합니다.
-
JSON+파일 -이 설정을 사용하면 JSON 출력과 다른 출력에 해당하는 파일을 모두 생성합니다. 예를 들어이 설정은 전체 텍스트 추출을 위한 텍스트 파일, 구조적 마크다운이 있는 텍스트에 대한 마크다운 파일, 텍스트에 있는 각 테이블에 대한 CSV 파일을 제공합니다. 문서 내에 있는 그림과 그림 잘라내기 및 수정된 이미지가 저장됩니다. 또한 DOCX 파일을 처리하고이 옵션을 선택하면 DOCX 파일의 변환된 PDF가 출력 폴더에 표시됩니다. 이러한 출력은 출력 폴더의
standard_output/
에 있습니다.logical_doc_id
/assets/
텍스트 형식
텍스트 형식은 다양한 추출 작업을 통해 제공되는 다양한 종류의 텍스트를 결정합니다. 텍스트 형식에 대해 다음 옵션을 원하는 수만큼 선택할 수 있습니다.
-
일반 텍스트 -이 설정은 서식이나 기타 마크다운 요소가 기록되지 않은 텍스트 전용 출력을 제공합니다.
-
마크다운이 있는 텍스트 - 표준 출력의 기본 출력 설정입니다. 마크다운 요소가 통합된 텍스트를 제공합니다.
-
HTML이 포함된 텍스트 - 응답에 통합된 HTML 요소가 포함된 텍스트를 제공합니다.
-
CSV - 문서 내 테이블에 대한 CSV 구조화된 출력을 제공합니다. 이렇게 하면 문서의 다른 요소가 아닌 테이블에 대한 응답만 제공됩니다.
경계 상자 및 생성 필드
문서의 경우 선택한 세부 수준에 따라 출력을 변경하는 두 가지 응답 옵션이 있습니다. 경계 상자와 생성형 필드입니다. 경계 상자를 선택하면 콘솔 응답 드롭다운에서 클릭한 요소 또는 단어의 시각적 개요가 제공됩니다. 이렇게 하면 응답의 특정 요소를 더 쉽게 추적할 수 있습니다. 경계 상자는 상자의 네 모서리에 대한 좌표로 JSON에 반환됩니다.
생성형 필드를 선택하면 10단어 버전과 250단어 버전의 문서 요약이 생성됩니다. 그런 다음 요소를 응답 세부 수준으로 선택하면 문서에서 감지된 각 그림에 대한 설명 캡션을 생성합니다. 그림에는 차트, 그래프, 이미지 등이 포함됩니다.
Bedrock 데이터 자동화 문서 응답
이 섹션에서는 문서 파일에서 API 작업 InvokeDataAutomation을 실행하여 수신하는 다양한 응답 객체에 중점을 둡니다. 아래에서는 응답 객체의 각 섹션을 분류한 다음 예제 문서에 대해 채워진 전체 응답을 확인합니다. 받게 될 첫 번째 섹션은 입니다metadata
.
"metadata":{ "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX", "semantic_modality":"DOCUMENT", "s3_bucket":"bucket", "s3_prefix":"prefix" },
위의 첫 번째 섹션에서는 문서와 연결된 메타데이터에 대한 개요를 제공합니다. 이 섹션에서는 S3 정보와 함께 응답에 어떤 양식이 선택되었는지도 알려줍니다.
"document":{ "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "description":"document text", "summary":"summary text", "statistics":{ "element_count":5, "table_count":1, "figure_count":1, "word_count":1000, "line_count":32 } },
위 섹션에서는 문서 수준 세부 정보를 제공합니다. 설명 및 요약 섹션은 문서를 기반으로 생성된 필드입니다. 표현 섹션은 문서의 실제 콘텐츠를 다양한 형식 지정 스타일로 제공합니다. 마지막으로 통계에는 존재하는 의미 요소 수, 그림, 단어, 선 수 등 문서의 실제 콘텐츠에 대한 정보가 포함됩니다.
테이블 엔터티에 대한 정보입니다. 위치 정보, 텍스트, 테이블 및 읽기 순서의 다양한 형식 외에도 특히 S3 버킷에 있는 테이블의 csv 정보와 잘린 이미지를 반환합니다. CSV 정보는 다양한 헤더, 바닥글 및 제목을 보여줍니다. 이미지는 InvokeDataAutomationAsync 요청에 설정된 접두사의 s3 버킷으로 라우팅됩니다.
PDF를 처리할 때 응답의 통계 섹션에는 문서에 존재하는 하이퍼링크 수를 hyperlinks_count
알려주는 도 포함됩니다.
{ "id":"entity_id", "type":"TEXT", "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "reading_order":2, "page_indices":[ 0 ], "locations":[ { "page_index":0, "bounding_box":{ "left":0.0, "top":0.0, "width":0.05, "height":0.5 } } ], "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER" },
이는 문서 내의 텍스트에 사용되는 엔터티로, 응답의 TYPE
줄로 표시됩니다. 다시 표현하면 텍스트가 다양한 형식으로 표시됩니다.는 독자가 논리적으로 텍스트를 볼 수 있는 시기를 reading_order
보여줍니다. 연결된 키와 값을 기반으로 하는 의미 체계 순서입니다. 예를 들어 단락의 제목을 해당 단락과 읽기 순서로 연결합니다.는 텍스트가 있는 페이지를 page_indices
알려줍니다. 다음은 위치 정보이며, 응답에서 활성화된 경우 제공된 텍스트 경계 상자가 있습니다. 마지막으로 개체 하위 유형이 있습니다. 이 하위 유형은 감지되는 텍스트 종류에 대한 자세한 정보를 제공합니다. 하위 유형의 전체 목록은 API 참조를 참조하세요.
{ "id":"entity_id", "type":"TABLE", "representation":{ "html":"table.../table", "markdown":"| header | ...", "text":"header \t header", "csv":"header, header, header\n..." }, "csv_s3_uri":"s3://", "headers":[ "date", "amount", "description", "total" ], "reading_order":3, "title":"Title of the table", "footers":[ "the footers of the table" ], "crop_images":[ "s3://bucket/prefix.png", "s3://bucket/prefix.png" ], "page_indices":[ 0, 1 ], "locations":[ { "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } }, { "page_index":1, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } ] },
테이블 엔터티에 대한 정보입니다. 위치 정보, 텍스트, 테이블 및 읽기 순서의 다양한 형식 외에도 특히 S3 버킷에 있는 테이블의 csv 정보와 잘린 이미지를 반환합니다. CSV 정보는 다양한 헤더, 바닥글 및 제목을 보여줍니다. 이미지는 InvokeDataAutomation 요청에 설정된 접두사의 s3 버킷으로 라우팅됩니다.
{ "id":"entity_id", "type":"FIGURE", "summary":"", "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "crop_images":[ "s3://bucket/prefix.png", "s3://bucket/prefix.png" ], "locations":[ { "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } ], "sub_type":"CHART", "title":"figure title", "rai_flag":"APPROVED/REDACTED/REJECTED", "reading_order":1, "page_indices":[ 0 ] } ,
문서 그래프 및 차트와 같은 그림에 사용되는 개체입니다. 테이블과 마찬가지로 이러한 그림은 잘리고 이미지는 접두사의 s3 버킷 세트로 전송됩니다. 또한 제목 텍스트에 대한 sub_type
및 그림 제목 응답과 그림 종류에 대한 표시를 받게 됩니다.
"pages":[ { "id":"page_id", "page_index":0, "detected_page_number":1, "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "statistics":{ "element_count":5, "table_count":1, "figure_count":1, "word_count":1000, "line_count":32 }, "asset_metadata":{ "rectified_image":"s3://bucket/prefix.png", "rectified_image_width_pixels":1700, "rectified_image_height_pixels":2200 } } ],
표준 출력을 통해 추출되는 마지막 개체는 페이지입니다. 페이지는 텍스트 엔터티와 동일하지만 감지된 페이지 번호가 페이지에 있는 페이지 번호를 추가로 포함합니다.
"text_lines":[ { "id":"line_id", "text":"line text", "reading_order":1, "page_index":0, "locations":{ "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } } ],
"text_words":[ { "id":"word_id", "text":"word text", "line_id":"line_id", "reading_order":1, "page_index":0, "locations":{ "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } } ]
이 마지막 두 요소는 개별 텍스트 부분에 대한 것입니다. 단어 수준 세분화는 각 단어에 대한 응답을 반환하는 반면, 기본 출력은 텍스트 줄만 보고합니다.
추가 파일 형식 메타데이터 JSON
추가 파일 형식 플래그에서 추가 파일을 받으면 추출된 수정된 이미지에 대한 JSON 파일을 받게 됩니다. BDA는 동종 촬영을 사용하여 이미지를 90도 각도로 회전하여 회전된 이미지를 수정합니다. JSON의 예는 다음과 같습니다.
"asset_metadata": { "rectified_image": "s3://bucket/prefix.png", "rectified_image_width_pixels": 1700, "rectified_image_height_pixels": 2200, "corners": [ [ 0.006980135689736235, -0.061692718505859376 ], [ 1.10847711439684, 0.00673927116394043 ], [ 0.994479346419327, 1.050548828125 ], [ -0.11249661383904497, 0.9942819010416667 ] ] }
모서리는 이미지에서 감지된 모서리를 나타내며, 문서의 동형도를 구성하는 데 사용됩니다. 이 동종 촬영은 다른 속성을 유지하면서 이미지를 교체하는 데 사용됩니다.