Imagens - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Imagens

O recurso Amazon Bedrock Data Automation (BDA) oferece um conjunto abrangente de saídas padrão para processamento de imagens para gerar insights a partir de suas imagens. Você pode usar esses insights para habilitar uma ampla variedade de aplicativos e casos de uso, como descoberta de conteúdo, posicionamento contextual de anúncios e segurança da marca. Aqui está uma visão geral de cada tipo de operação disponível como parte das saídas padrão para imagens:

Resumo da imagem

O resumo da imagem gera uma legenda descritiva para uma imagem. Esse recurso é habilitado na configuração de saída padrão por padrão.

Taxonomia do IAB

A classificação do Interactive Advertising Bureau (IAB) aplica uma taxonomia de publicidade padrão para classificar o conteúdo da imagem. Para o Preview, o BDA suportará 24 categorias de nível superior (L1) e 85 categorias de segundo nível (L2). Para baixar a lista de categorias do IAB suportadas pelo BDA, clique aqui.

Detecção de logotipo

Esse recurso identifica logotipos em uma imagem e fornece informações sobre a caixa delimitadora, indicando as coordenadas de cada logotipo detectado na imagem e as pontuações de confiança. Esse recurso não está habilitado por padrão.

Detecção de texto de imagem

Esse recurso detecta e extrai o texto que aparece visualmente em uma imagem e fornece informações sobre a caixa delimitadora, indicando as coordenadas de cada elemento de texto detectado na imagem e as pontuações de confiança. Esse recurso é habilitado na configuração de saída padrão por padrão.

Moderação de conteúdo

A moderação de conteúdo detecta conteúdo impróprio, indesejado ou ofensivo em uma imagem. Para o Preview, o BDA suportará 7 categorias de moderação: nudez explícita e não explícita de partes íntimas e beijos, roupas de banho ou roupas íntimas, violência, drogas e tabaco, álcool e símbolos de ódio. O texto explícito nas imagens não é sinalizado.

As caixas delimitadoras e as pontuações de confiança associadas podem ser ativadas ou desativadas para recursos relevantes, como detecção de texto, para fornecer coordenadas de localização na imagem. Por padrão, o resumo da imagem e a detecção de texto da imagem estão ativados.

Saída padrão de imagem

Veja a seguir um exemplo de uma saída padrão para uma imagem processada por meio do BDA. Cada seção foi reduzida e separada com uma explicação.

{ "metadata": { "id": "image_123", "semantic_modality": "IMAGE", "s3_bucket": "my-s3-bucket", "s3_prefix": "images/", "image_width_pixels": 1920, "image_height_pixels": 1080, "color_depth": 24, "image_encoding": "JPEG" },

A primeira parte de uma resposta é o metadado de uma imagem. Ele fornece o nome do arquivo, o tipo de codificação, a localização do bucket s3 e mais informações sobre o conteúdo.

"image": { "summary": "Lively party scene with decorations and supplies",

No início da resposta está o resumo generativo da imagem.

"iab_categories": [ { "id": "iab_12345", "type": "IAB", "category": "Party Supplies", "confidence": 0.9, "parent_name": "Events & Attractions", "taxonomy_level": 2 }, { "id": "iab_67890", "type": "IAB", "category": "Decorations", "confidence": 0.8, "parent_name": "Events & Attractions", "taxonomy_level": 1 } ],

A seguir, vemos as categorias do IAB anexadas a uma resposta. Eles representam diferentes tipos de classificações de publicidade, usando a taxonomia padrão do IAB. Cada um tem uma pontuação de confiança, taxonomy_level e parent_name para a categoria geral de alto nível.

"content_moderation": [ { "id": "mod_12345", "type": "MODERATION", "category": "Drugs & Tobacco Paraphernalia & Use", "confidence": 0.7, "parent_name": "Drugs & Tobacco", "taxonomy_level": 2 } ], ...

A moderação de conteúdo contém informações sobre possíveis conteúdos explícitos em uma imagem. Cada uma delas tem uma pontuação de confiança e uma categoria, alinhadas às categorias de moderação de conteúdo discutidas anteriormente nesta seção.

"text_words": [ { "id": "word_1", "text": "lively", "confidence": 0.9, "line_id": "line_1", "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 50, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 150, "y": 200}, {"x": 150, "y": 220}, {"x": 100, "y": 220} ] } ] }, ...

Esta seção divide cada palavra detectada em uma imagem, incluindo confiança e uma localização na tela dentro da imagem. Também sinaliza em qual linha a palavra está, usandoline_id.

"text_lines": [ { "id": "line_1", "text": "lively party", "confidence": 0.9, "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 200, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 300, "y": 200}, {"x": 300, "y": 220}, {"x": 100, "y": 220} ] } ] } ] },

Aqui, as palavras são detectadas em suas linhas coletivas, com pontuação de confiança e caixa delimitadora.

"statistics": { "entity_count": 7, "object_count": 3, "line_count": 2, "word_count": 9 } }

Finalmente, temos estatísticas. Eles dividem todo o conteúdo de uma imagem, incluindo o objeto