语法分析 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

语法分析

使用语法分析来解析文档中的单词,并返回文档中每个单词的词性部分或句法函数。您可以识别文档中的名词、动词、形容词等。使用这些信息可以更深入地了解文档的内容,并了解文档中单词的关系。

例如,您可以在文档中查找名词,然后查找与这些名词相关的动词。在像“我的祖母移动了沙发”这样的句子中,您可以看到名词“祖母”和“沙发”,以及动词“移动”。您可以使用这些信息来构建应用程序,用于分析您感兴趣的单词组合的文本。

为了开始分析,Amazon Comprehend 会解析源文本,找到文本中的各个单词。解析文本后,会为每个单词分配其在源文本中占用的词性部分。

Amazon Comprehend 可以识别以下词性。

令牌 词性
ADJ

形容词

通常修饰名词的单词。

ADP

介词

介词或后置短语的开头。

ADV

副词

通常修饰动词的单词。它们还可以修饰形容词和其他副词。

AUX

助词

动词短语的动词附带的功能词。

CCONJ

并列连词

并列连词将句子中的单词、短语或从句连接起来,而不使它们从属于另一个句子。

CONJ

连词

连词连接句子中的单词、短语或从句。

DET

冠词

指定特定名词短语的冠词和其他单词。

INTJ

感叹词

用作感叹号或感叹号一部分的单词。

NOUN

名词

指定人、地点、事物、动物或想法的词语。

NUM

数字

表示数字的单词,通常是限定词、形容词或代词。

O

其他

无法分配词性类别的单词。

PART

助词

与另一个单词或短语关联的功能词,用于传递含义。

PRON

代词

代替名词或名词短语的单词。

PROPN

专有名词

名词,是特定个人、地点或物体的名字。

PUNCT

标点符号

用于分隔文本的非字母字符。

SCONJ

从属连词

将从属子句与句子连接起来的连词。从属连词的一个例子是“因为”。

SYM

符号

类似单词的实体,例如美元符号 ($) 或数学符号。

VERB

谓词

表示事件和行动的词语。

有关词性的更多信息,请参阅通用依赖项网站上的通用POS标签

这些操作返回用于标识单词以及该单词在文本中表示的词性的令牌。每个令牌代表源文本中的一个单词。它提供了单词在来源中的位置、单词在文本中采用的词性、Amazon Comprehend 对正确识别词性的置信度,以及从源文本中解析出来的单词。

以下是语法令牌列表的结构。为文档中的每个单词生成一个语法令牌。

{ "SyntaxTokens": [ { "BeginOffset": number, "EndOffset": number, "PartOfSpeech": { "Score": number, "Tag": "string" }, "Text": "string", "TokenId": number } ] }

每个令牌都提供以下信息:

  • BeginOffsetEndOffset:提供单词在输入文本中的位置。

  • PartOfSpeech:提供两条信息,Tag 用于标识词性,Score 表示 Amazon Comprehend Syntax 对正确识别词性的置信度。

  • Text:提供已识别的单词。

  • TokenId:提供令牌的标识符。标识符是令牌在令牌列表中的位置。