テキストの検出 - Amazon Rekognition

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

テキストの検出

Amazon Rekognition はイメージやビデオ内のテキストを検出できます。その後、検出されたテキストを機械可読テキストに変換できます。イメージ内で機械可読テキスト検出を使用すると、次のようなソリューションを実装できます。

  • ビジュアル検索。同じテキストが含まれているイメージを取得および表示するソリューションなど。

  • コンテンツの洞察。抽出したビデオフレームで認識されたテキストに関して、テーマへの洞察を提供するソリューションなど。アプリケーションは、ニュース、スポーツの得点、選手の番号、キャプションなど、認識したテキストから関連コンテンツを検索できます。

  • Navigation. 視覚障碍者向けの (レストランやショップの名前、道路標識を認識する) 音声対応モバイルアプリを開発するソリューションなど。

  • 公共の安全と輸送のサポート。交通監視カメラのイメージから車のナンバープレート番号を検出するソリューションなど。

  • フィルタリング. イメージから個人を特定できる情報 (PII) をフィルタリングするソリューションなど。

ビデオ内のテキスト検出では、以下のようなソリューションを実装できます。

  • 特定のテキストキーワード (ニュース番組のグラフィック上のゲストの名前など) を含むクリップをビデオで検索する。

  • 偶発的なテキスト、冒涜、スパムを検出して、組織の標準に準拠するようにコンテンツをモデレートする。

  • さらなる処理 (コンテンツの国際化を目的に別の言語のテキストに置き換えるなど) のためにビデオタイムライン上のすべてのテキストオーバーレイを見つける。

  • テキストの位置を検索して、それに応じて他のグラフィックを配置できるようにする。

JPEG または PNG 形式のイメージ内のテキストを検出するには、DetectTextオペレーション. ビデオ内のテキストを非同期的に検出するには、StartTextDetectionそしてGetTextDetectionオペレーション. イメージとビデオの両方のテキスト検出オペレーションは、高度に図案化されたフォントも含め、ほとんどのフォントをサポートしています。テキストを検出した後、Amazon Rekognition は、検出された単語とテキスト行の表現を作成し、それらの関係を表示し、テキストがイメージまたはビデオフレームのどこにあるかを示します。

-DetectTextそしてGetTextDetectionオペレーションは単語と行を検出します。ある単語は、スペースで区切られていない 1 個以上のスクリプト文字です。DetectTextはイメージ内の最大 100 個の単語を検出できます。GetTextDetectionはビデオフレームあたり最大 50 個の単語を検出できます。

単語とは、スペースで区切られていない 1 個以上のスクリプト文字です。Amazon Rekognition は、英語、アラビア語、ロシア語、ドイツ語、フランス語、イタリア語、ポルトガル語、スペイン語の単語を検出するように設計されています。

は、等間隔のスペースで区切られた単語の文字列です。行は、必ずしも完全な文とは限りません (ピリオドは行末を示すわけではありません)。たとえば、Amazon Rekognition は運転免許証番号を行として検出します。行は、その後に整列されたテキストがない場合、または単語間の間隔が各単語の長さと比べて大きく離れる場合に終わります。言葉のギャップに応じて、Amazon Rekognitionでは、同じ方向に整列されたテキストでも、で複数の行として検出される場合があります。。文が複数の行にまたがっている場合、このオペレーションは複数の行を返します。

次のイメージについて考えます。

青のボックスは、検出されたテキストに関する情報と、によって返されたテキストの位置に関する情報を表します。DetectTextオペレーション. この例では、Amazon Rekognition は「IT'S」、「MONDAY」、「but」、「keep」、「Smiling」を単語として検出します。Amazon Rekognition は「IT'S」、「Smiling」を行として検出します。検出するには、テキストが次のようになっている必要があります水平軸から +/-90 度以内の向きである場合に限ります。。

例については、「」を参照してください。イメージ内のテキストの検出