テキストの検出 - Amazon Rekognition

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

テキストの検出

Amazon Rekognition では、イメージやビデオ内のテキストを検出できます。その後、検出されたテキストを機械可読テキストに変換できます。イメージに機械可読テキスト検出を使用して、以下のようなソリューションを実装できます。

  • ビジュアル検索。同じテキストが含まれているイメージを取得および表示するソリューションなど。

  • コンテンツの洞察。例えば、抽出したビデオフレームから認識されたテキストに含まれるテーマについての洞察を提供する。アプリケーションは、ニュース、スポーツの得点、選手の番号、キャプションなど、認識したテキストから関連コンテンツを検索できます。

  • Navigation。視覚障碍者向けの (レストランやショップの名前、道路標識を認識する) 音声対応モバイルアプリを開発するなど。

  • 公共の安全と輸送のサポート。例えば、交通監視カメラのイメージから車のナンバープレート番号を検出する。

  • フィルタリング。イメージから個人を特定できる情報 (PII) をフィルタリングするなど。

ビデオ内のテキスト検出では、以下のようなソリューションを実装できます。

  • 特定のテキストキーワード (ニュース番組のグラフィック上のゲストの名前など) を用いて、クリップをビデオで検索する

  • 偶発的なテキスト、冒涜的な表現、スパムを検出して、組織の標準に準拠するようにコンテンツを調整する。

  • さらなる処理 (コンテンツの国際化を目的に別の言語のテキストに置き換えるなど) のために、ビデオタイムライン上のすべてのテキストオーバーレイを見つける

  • テキストの位置を検索して、それに応じて他のグラフィックを配置できるようにします。

JPEG または PNG 形式のイメージのテキストを検出するには、DetectText オペレーションを使用します。ビデオ内のテキストを非同期的に検出するには、StartTextDetection オペレーションと GetTextDetection オペレーションを使用します。イメージとビデオの両方のテキスト検出オペレーションは、高度に図案化されたフォントも含め、ほとんどのフォントをサポートしています。テキストを検出した後、Amazon Rekognition は、検出した単語とテキストの行の表現を作成し、それらの関係を表示し、テキストがイメージまたはビデオフレームのどこにあるかを示します。

DetectTextGetTextDetection オペレーションは、単語と行を検出します。単語とは、スペースで区切られていない 1 つ以上のスクリプト文字です。DetectText は、イメージ内の単語を最大 100 ワードまで検出できます。GetTextDetection は、ビデオの 1 フレームあたり 100 ワードまで検出できます。

単語とは、スペースで区切られていない、1 個以上のスクリプト文字です。Amazon Rekognition は、英語、アラビア語、ロシア語、ドイツ語、フランス語、イタリア語、ポルトガル語、スペイン語の単語を検出するように設計されています。

は、等間隔のスペースで区切られた単語の文字列です。1 行は必ずしも完全な文とは限りません (ピリオドは行末を示していません)。例えば、Amazon Rekognition は、運転免許証番号を行として検出します。行の終わりは、その後に整列したテキストがない場合、または単語の長さに対して単語間の間隔に大きなギャップがあるときです。単語間の間隔によっては、Amazon Rekognition は、同じ方向に整列されたテキスト上に、複数の行を検出する場合があります 。文が複数の行にまたがっている場合、このオペレーションは複数の行を返します。

次のイメージについて考えます。

青のボックスは、検出されたテキストと DetectText オペレーションで返されるテキストの位置に関する情報を表します。この例では、Amazon Rekognition は、「IT's」、「MONDAY」、「but」、「keep」、「Smiling」を単語として検出しています。Amazon Rekognition は、「IT'S」、「MONDAY」、「but keep」、「Smiling」をセリフとして検出します。テキストが検出されるのは、水平軸 から +/- 90 度以内の向き である場合に限ります。

例については、「イメージ内のテキストの検出」を参照してください。