事件 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

事件

使用事件检测来分析文本文档中特定类型的事件及其相关实体。Amazon Comprehend 支持使用异步分析作业对大型文档集合进行事件检测。有关事件的更多信息,包括事件分析作业示例,请参阅宣布推出 Amazon Comprehend 事件

实体

Amazon Comprehend 从输入文本中提取与检测到的事件相关的实体列表。实体可以是现实世界中的对象,例如人物、地点或位置;实体也可以是一个概念,例如测量、日期或数量。实体的每次出现都通过提及来标识,提及是在输入文本中对该实体的文本引用。对于每个唯一实体,所有提及都被分组到一个列表中。此列表提供了输入文本中实体出现的每个位置的详细信息。Amazon Comprehend 仅检测与支持的事件类型相关的实体。

与支持的事件类型关联的每个实体都会返回以下相关详细信息:

  • 提及:输入文本中每次出现相同实体的详细信息。

    • BeginOffset: 输入文本中的字符偏移量,用于显示提及的开始位置(第一个字符位于位置 0)。

    • EndOffset: 输入文本中的字符偏移量,用于显示提及的结束位置。

    • 分数:Amazon Comprehend 对实体类型准确性的置信度。

    • GroupScore:Amazon Comprehend 对提及的内容与对同一实体的其他提及正确分组的信心程度。

    • 文本:实体的文本。

    • 类型:实体的类型。有关支持的所有实体类型,请参阅 实体类型

事件

Amazon Comprehend 会返回其在输入文本中检测到的事件(支持的事件类型)列表。每个事件都会返回以下相关详细信息:

  • 类型:事件的类型。有关支持的所有事件类型,请参阅 事件类型

  • 参数:与检测到的事件相关的参数列表。参数由与检测到的事件相关的实体组成。参数的角色描述了这种关系,例如何时何地做了什么

    • EntityIndex:一个索引值,用于从 Amazon Comprehend 为本次分析返回的实体列表中标识实体。

    • 角色:参数类型,用于描述该参数的实体与事件的关系。有关支持的所有参数类型,请参阅 参数类型

    • 分数:Amazon Comprehend 对角色检测准确性的置信度。

  • 触发器:检测到的事件的触发器列表。触发器是指示事件发生的单词或短语。

    • BeginOffset: 输入文本中的字符偏移量,显示触发器的起始位置(第一个字符位于位置 0)。

    • EndOffset: 输入文本中的字符偏移量,用于显示触发器的终止位置。

    • 分数:Amazon Comprehend 对检测准确性的置信度。

    • 文本:触发器的文本。

    • GroupScore:Amazon Comprehend 对同一事件的触发器与其他触发器正确分组的信心程度。

    • 类型:该触发器指示的事件类型。

检测事件结果格式

事件检测作业完成后,Amazon Comprehend 会将分析结果写入启动作业时指定的 Amazon S3 输出位置。

对于每个检测到的事件,输出按以下格式提供详细信息:

{ "Entities": [ { "Mentions": [ { "BeginOffset": number, "EndOffset": number, "Score": number, "GroupScore": number, "Text": "string", "Type": "string" }, ... ] }, ... ], "Events": [ { "Type": "string", "Arguments": [ { "EntityIndex": number, "Role": "string", "Score": number }, ... ], "Triggers": [ { "BeginOffset": number, "EndOffset": number, "Score": number, "Text": "string", "GroupScore": number, "Type": "string" }, ... ] }, ... ] }

实体、事件和参数支持的类型

实体类型

Type 描述
DATE 对日期或时间的任何提及,无论是具体的还是笼统的。
设施 建筑物、机场、高速公路、桥梁和其他永久性人造结构和房地产改造。
LOCATION 物理位置,例如街道、城市、州、国家、水域或地理坐标。
货币价值 以美元或其他货币表示的价值。该值可以是具体的,也可以是近似值。
组织 由既定组织结构定义的公司和其他群体。
个人 个人或虚构人物的名字或昵称。
人物头衔 描述一个人的任何头衔,通常是雇佣类别(例如首席执行官)或尊称类别(例如先生)。
数量 数字或数值以及计量单位。
股票代码 股票代码,例如AMZN、国际证券识别码 (ISIN)、统一证券识别程序委员会 (CUSIP) 或证券交易所每日官方名单 (SEDOL)。

事件类型

Type 描述
破产 涉及无法偿还未偿债务的个人或公司的法律程序。
雇用 当雇员被雇用、解雇、退休或以其他方式改变就业状态时发生。
企业收购 当一家公司获得另一家公司的大部分或全部股份或实物资产的所有权,从而获得对该公司的控制权时。
一般投资 当个人或公司购买有望产生未来收入或升值的资产时发生。
公司合并 当两家或多家公司联合创建新的法人实体时发生。
首次公开募股 首次公开募股 (IPO),以发行新股的方式向公众发售私营公司股票。
供股 向现有股东提供的按其现有持股比例购买额外股票的权利,称为认购权证。
存量发行 公司股东发行的证券。
储架发行 美国证券交易委员会(SEC)的一项条款,允许发行人注册新发行的证券并在一段时间内出售部分发行的证券,而无需重新注册证券或受到处罚。也称为上架登记。
公开收购 购买公司部分或全部股东股份的要约。
股票分割 当公司董事会通过向现有股东发行更多股票来增加已发行股票数量时。此事件也适用于反向股票分割。

参数类型

破产的参数类型
参数类型 描述
申报者 申请破产的个人或公司。
DATE 破产的日期或时间。
发生地 破产发生地(或最近)的地点或设施。
雇佣的参数类型
Type 描述
雇员 公司雇用的人员。
雇员头衔 雇员的头衔。
雇主 雇用人员的个人或公司。
START_DATE 雇佣的开始日期或时间。
结束日期 雇佣的结束日期或时间。
企业收购、一般投资的参数类型
Type 描述
金额 与交易关联的货币价值。
被投资者 与投资相关的个人或公司。
投资者 投资于资产的个人或公司。
DATE 收购或投资的日期或时间。
发生地 收购或投资发生的地点(或最接近的地点)。
公司合并的参数类型
Type 描述
DATE 合并的日期或时间。
新公司 合并产生的新法人实体。
参与者 参与合并的公司。
首次公开募股、供股、存量发行、储架发行、公开收购的参数类型
Type 描述
到期日期 发行的到期日期或时间。
投资者 投资于资产的个人或公司。
被要约人 接受发行的个人或公司。
发行金额 与发行关联的货币价值。
发行日期 发行的日期或时间。
要约人 发起发行的个人或公司。
发行总价值 与发行关联的货币总价值。
记录日期 发行的记录日期或时间。
销售代理 为出售该产品提供便利的个人或公司。
股票价格 与股票关联的货币价值。
股票数量 与本次发行相关的股票数量。
承销商 与本次发行承销相关的公司。
股票分割的参数类型
Type 描述
公司 发行股票分割的公司。
DATE 股票分割的日期或时间。
分割比率 股票分割前新增的已发行股票数量与当前已发行股票数量的比率。