기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
이미지
Amazon Bedrock 데이터 자동화(BDA) 기능은 이미지에서 인사이트를 생성하기 위해 이미지 처리를 위한 포괄적인 표준 출력 세트를 제공합니다. 이러한 인사이트를 사용하여 콘텐츠 검색, 컨텍스트 광고 배치 및 브랜드 안전과 같은 다양한 애플리케이션 및 사용 사례를 활성화할 수 있습니다. 다음은 이미지에 대한 표준 출력의 일부로 사용할 수 있는 각 작업 유형에 대한 개요입니다.
이미지 요약
이미지 요약은 이미지에 대한 설명 캡션을 생성합니다. 이 기능은 기본적으로 표준 출력 구성 내에서 활성화됩니다.
IAB 분류
대화형 광고국(IAB) 분류는 표준 광고 분류법을 적용하여 이미지 콘텐츠를 분류합니다. 미리 보기의 경우 BDA는 24개의 최상위(L1) 범주와 85개의 2단계(L2) 범주를 지원합니다. BDA에서 지원하는 IAB 범주 목록을 다운로드하려면 여기를 클릭하세요.
로고 감지
이 기능은 이미지의 로고를 식별하고 이미지 내에서 감지된 각 로고의 좌표와 신뢰도 점수를 나타내는 경계 상자 정보를 제공합니다. 이 기능은 기본적으로 활성화되어 있지 않습니다.
이미지 텍스트 감지
이 기능은 이미지에 시각적으로 표시되는 텍스트를 감지 및 추출하고 이미지 내에서 감지된 각 텍스트 요소의 좌표와 신뢰도 점수를 나타내는 경계 상자 정보를 제공합니다. 이 기능은 기본적으로 표준 출력 구성 내에서 활성화됩니다.
콘텐츠 조정
콘텐츠 조절은 이미지에서 부적절하거나 원치 않거나 불쾌감을 주는 콘텐츠를 감지합니다. 미리 보기의 경우 BDA는 7가지 조절 범주, 즉 친밀한 부분의 명시적, 비명시적 누드와 키스, 수영복 또는 속옷, 폭력, 마약 및 담배, 알코올, 증오 기호를 지원합니다. 이미지의 명시적 텍스트에는 플래그가 지정되지 않습니다.
텍스트 감지와 같은 관련 기능에 대해 경계 상자 및 관련 신뢰도 점수를 활성화하거나 비활성화하여 이미지에 위치 좌표를 제공할 수 있습니다. 기본적으로 이미지 요약 및 이미지 텍스트 감지가 활성화됩니다.
이미지 표준 출력
다음은 BDA를 통해 처리된 이미지에 대한 표준 출력의 예입니다. 각 섹션은 단축되었으며 설명과 함께 구분되었습니다.
{ "metadata": { "id": "image_123", "semantic_modality": "IMAGE", "s3_bucket": "my-s3-bucket", "s3_prefix": "images/", "image_width_pixels": 1920, "image_height_pixels": 1080, "color_depth": 24, "image_encoding": "JPEG" },
응답의 첫 번째 부분은 이미지의 메타데이트입니다. 파일 이름, 인코딩 유형, s3 버킷 위치 및 콘텐츠에 대한 추가 정보를 제공합니다.
"image": { "summary": "Lively party scene with decorations and supplies",
응답의 시작 부분에는 이미지의 생성형 요약이 있습니다.
"iab_categories": [ { "id": "iab_12345", "type": "IAB", "category": "Party Supplies", "confidence": 0.9, "parent_name": "Events & Attractions", "taxonomy_level": 2 }, { "id": "iab_67890", "type": "IAB", "category": "Decorations", "confidence": 0.8, "parent_name": "Events & Attractions", "taxonomy_level": 1 } ],
다음으로 응답에 연결된 IAB 카탈로그가 표시됩니다. 이는 표준 IAB 분류법을 사용하여 다양한 유형의 광고 분류를 나타냅니다. 각 항목에는 일반적인 상위 수준 범주에 대한 신뢰도 점수, taxonomy_level 및 parent_name이 있습니다.
"content_moderation": [ { "id": "mod_12345", "type": "MODERATION", "category": "Drugs & Tobacco Paraphernalia & Use", "confidence": 0.7, "parent_name": "Drugs & Tobacco", "taxonomy_level": 2 } ], ...
콘텐츠 조절에는 이미지에서 가능한 명시적 콘텐츠에 대한 정보가 포함됩니다. 각 항목에는 섹션 앞부분에서 설명한 콘텐츠 조절 범주에 따라 신뢰도 점수와 범주가 있습니다.
"text_words": [ { "id": "word_1", "text": "lively", "confidence": 0.9, "line_id": "line_1", "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 50, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 150, "y": 200}, {"x": 150, "y": 220}, {"x": 100, "y": 220} ] } ] }, ...
이 섹션에서는 이미지 내의 신뢰도 및 화면 위치를 포함하여 이미지 내에서 감지된 각 단어를 구분합니다. 또한를 사용하여 단어가 있는 줄에 플래그를 지정합니다line_id
.
"text_lines": [ { "id": "line_1", "text": "lively party", "confidence": 0.9, "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 200, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 300, "y": 200}, {"x": 300, "y": 220}, {"x": 100, "y": 220} ] } ] } ] },
여기서 단어는 신뢰도 점수와 경계 상자와 함께 집합 선에서 감지됩니다.
"statistics": { "entity_count": 7, "object_count": 3, "line_count": 2, "word_count": 9 } }
마지막으로 통계가 있습니다. 객체를 포함하여 이미지 내의 모든 콘텐츠를 분류합니다.