翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
構文分析
構文分析を使用してドキュメント内の単語を解析し、ドキュメント内の各単語の品詞または構文関数を返します。ドキュメント内の名詞、動詞、形容詞などを識別できます。この情報を利用して、ドキュメントの内容をより深く理解し、単語間の関係を理解できます。
たとえば、ドキュメント内の名詞を検索し、その名詞に関連する動詞を探すことができます。「祖母がソファを動かした」のような文には、名詞「祖母」と「ソファ」、動詞「動く」があります。この情報を使用してアプリケーションを構築し、興味のある単語の組み合わせについてテキストを分析することができます。
Amazon Comprehend はソーステキストを解析して、テキスト内の個々の単語を検出し、分析を開始します。テキストが解析されると、各単語にはソーステキストに含まれる品詞が割り当てられます。
Amazon Comprehend では、以下の品詞を識別できます。
トークン | 品詞 |
---|---|
ADJ | 形容詞 通常は名詞を修飾する単語。 |
ADP | 接置詞 前置詞または後置句の頭。 |
ADV | 副詞 通常は動詞を修飾する単語。形容詞やその他の副詞を修飾することもできる。 |
AUX | 助動詞 動詞句の動詞に付随する機能語。 |
CCONJ | 等位接続詞 等位接続詞は、文中の単語、句または節を繋げる働きをし、1 つを他に従属させない。 |
CONJ | 接続詞 接続詞は、文中の単語、句、節をつなげる。 |
DET | 限定詞 特定の名詞句を指定する冠詞およびその他の単語。 |
INTJ | 間投詞 感嘆符または感嘆符の一部として使用される単語。 |
NOUN |
名詞 人物、場所、モノ、動物、アイデアを表す言葉。 |
NUM | 数字 数字を表す単語(通常は限定詞、形容詞、または代名詞)。 |
O | その他 品詞カテゴリを割り当てることができない単語。 |
PART | 不変化詞 意味を表すために他の語や句と結び付けられた機能語。 |
PRON | 代名詞 名詞または名詞句の代わりとなる単語。 |
PROPN | 固有名詞 特定の個人、場所、または物の名前を表す名詞。 |
PUNCT | 句読点 テキストを区切るアルファベット以外の文字。 |
SCONJ | 従属接続詞 従属節と文をつなぐ接続詞。従属接続詞の例には、「なぜなら」があります。 |
SYM | 記号 ドル記号 ($) や数学記号などの単語のようなエンティティ。 |
VERB | 動詞 出来事や行動を示す単語。 |
品詞の詳細については、「ユニバーサルディペンデンシーズ」ウェブサイトの 「ユニバーサル POS タグ」
オペレーションは、テキスト内の単語とその単語が表す品詞を識別するトークンを返します。各トークンはソーステキスト内の 1 つの単語を表します。ソース内の単語の位置、テキスト内での単語の品詞、品詞の識別に関する Amazon Comprehend の確実性、およびソーステキストから解析された単語がわかります。
構文トークンのリスト構造は次のとおりです。ドキュメント内の単語ごとに 1 つの構文トークンが生成されます。
{ "SyntaxTokens": [ { "BeginOffset": number, "EndOffset": number, "PartOfSpeech": { "Score": number, "Tag": "string" }, "Text": "string", "TokenId": number } ] }
各トークンは以下の情報を提供します。
-
BeginOffset
とEndOffset
—入力テキスト内の単語の位置を提供します。 -
PartOfSpeech
— 2 つの情報を提供します。Tag
は品詞を識別する情報、Score
は品詞の識別に関する Amazon Comprehend 構文の確実性を示しています。 -
Text
— 識別された単語を提供します。 -
TokenId
— トークンの識別子を提供します。識別子は、トークンリストにおけるトークンの位置です。