Amazon Rekognition
開発者ガイド

テキストの検出

Amazon Rekognition の Text in Image では、イメージ内のテキストを検出し、それをコンピュータが読み取り可能なテキストに変換します。コンピュータが読み取り可能なテキストを使用すると、次のようなソリューションを実装できます。

  • ビジュアル検索。同じテキストが含まれているイメージを取得および表示するソリューションなど。

  • コンテンツの洞察。抽出したビデオフレームで認識されたテキストに関して、テーマへの洞察を提供するソリューションなど。アプリケーションは、ニュース、スポーツの得点、選手の番号、キャプションなど、認識したテキストから関連コンテンツを検索できます。—

  • Navigation.視覚障碍者向けの (レストランやショップの名前、道路標識を認識する) 音声対応モバイルアプリを開発するソリューションなど。

  • 公共の安全と輸送のサポート。交通監視カメラのイメージから車のナンバープレート番号を検出するソリューションなど。

  • フィルタリング.イメージから個人を特定できる情報を除外するソリューションなど。

DetectText は、.jpeg 形式または .png 形式のイメージからテキストを検出し、ほとんどのフォント (高度なスタイルが適用されたものを含む) をサポートします。DetectText は、テキストの検出後に、検出した単語やテキスト行の表現を作成し、これらの間の関係を示します。DetectText API は、イメージ上のテキストの位置も示します。

次のイメージについて考えます。

青のボックスは、DetectText オペレーションで検出されたテキストおよびテキストの位置に関する情報を表します。テキストが検出されるのは、水平軸から +/- 90 度以内の向きである場合に限ります。DetectText は、認識したテキストを単語またはテキスト行のいずれかとして分類します。

単語とは、スペースで区切られていない、1 個以上の ISO 基本ラテンアルファベットです。DetectText はイメージ内の最大 50 個の単語を検出できます。

とは、等間隔のスペースで区切られた単語の文字列です。行は、必ずしも完全な文とは限りません。たとえば、運転免許証番号は行として検出されます。行は、後に整列するテキストが続かない場合に終わります。また、単語間の間隔が各単語の長さと比べて大きく離れている場合にも、行は終わります。つまり、同じ方向に整列されたテキストでも、単語間の間隔によっては、Amazon Rekognition で複数の行として検出される場合があります。ピリオドは行の終わりを示しません。文が複数の行にまたがっている場合、DetectText オペレーションは複数の行を返します。

Amazon Rekognition では、数字や一般的な記号 (@ / $ % - _ + * # など) も検出できます。

例については、「イメージ内のテキストの検出」を参照してください。