Análise de sintaxe - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Análise de sintaxe

Use a análise de sintaxe para analisar as palavras do documento e retornar a parte do discurso, ou função sintática, para cada palavra no documento. É possível identificar os substantivos, verbos, adjetivos e assim por diante em seu documento. Use essas informações para uma compreensão mais aprofundada do conteúdo de seus documentos e para entender a relação das palavras no documento.

Por exemplo, você pode procurar os substantivos em um documento e depois procurar os verbos relacionados a esses substantivos. Em uma frase como “Minha avó mudou o sofá”, é possível ver os substantivos “avó” e “sofá” e o verbo “mudou”. Use essas informações para criar aplicativos a fim de analisar texto para combinações de palavras nas quais você está interessado.

Para iniciar a análise, o Amazon Comprehend analisa o texto fonte para encontrar as palavras individuais no texto. Depois que o texto é analisado, cada palavra recebe a parte do discurso que ela absorve no texto de origem.

O Amazon Comprehend pode identificar as seguintes partes do discurso.

Token Parte do discurso
ADJ

Adjetivo

Palavras que normalmente modificam substantivos.

ADP

Aposição

O núcleo de uma frase preposicional ou pós-posposicional.

ADV

Advérbio

Palavras que normalmente modificam verbos. Eles também podem modificar adjetivos e outros advérbios.

AUX

Auxiliar

Palavras funcionais que acompanham o verbo de uma frase verbal.

CCONJ

Conjunção coordenadora

Uma conjunção coordenativa conecta palavras, frases ou cláusulas em uma frase sem subordinar uma à outra.

CONJ

Conjunção

Uma conjunção conecta palavras, frases ou cláusulas em uma frase.

DET

Determinante

Artigos e outras palavras que especificam um sintagma nominal específico.

INTJ

Interjeição

Palavras usadas como exclamação ou parte de uma exclamação.

NOUN

Substantivo

Palavras que especificam uma pessoa, lugar, coisa, animal ou ideia.

NUM

Numeral

Palavras, normalmente determinantes, adjetivos ou pronomes, que expressam um número.

O

Outros

Palavras que não podem ser atribuídas a uma parte da categoria de fala.

PART

Partícula

Palavras funcionais associadas a outra palavra ou frase para dar significado.

PRON

Pronome

Palavras que substituem substantivos ou frases nominais.

PROPN

Substantivo próprio

Um substantivo que é o nome de um indivíduo, lugar ou objeto específico.

PUNCT

Pontuação

Caracteres não alfabéticos que delimitam o texto.

SCONJ

Conjunção subordinativa

Uma conjunção que une uma cláusula dependente a uma frase. Um exemplo de conjunção subordinada é “porque”.

SYM

Símbolo

Entidades semelhantes a palavras, como o cifrão ($) ou símbolos matemáticos.

VERB

Verb

Palavras que sinalizam eventos e ações.

Para mais informações sobre as partes do discurso, consulte as Tags universais POS no site Universal Dependencies.

As operações retornam tokens que identificam a palavra e a parte do discurso que a palavra representa no texto. Cada token representa uma palavra no texto fonte. Ele fornece a localização da palavra na fonte, a parte do discurso que a palavra assume no texto, a confiança que o Amazon Comprehend tem de que a parte da fala foi identificada corretamente e a palavra que foi analisada a partir do texto de origem.

A seguir está a estrutura da lista de tokens de sintaxe. Um token de sintaxe é gerado para cada palavra no documento.

{ "SyntaxTokens": [ { "BeginOffset": number, "EndOffset": number, "PartOfSpeech": { "Score": number, "Tag": "string" }, "Text": "string", "TokenId": number } ] }

Cada token fornece as seguintes informações:

  • BeginOffset e EndOffset: fornece a localização da palavra no texto de entrada.

  • PartOfSpeech: fornece duas informações, a Tag que identifica a parte da fala e a Score que representa a confiança que a Amazon Comprehend Syntax tem de que a parte da fala foi identificada corretamente.

  • Text: fornece a palavra que foi identificada.

  • TokenId: fornece um identificador para o token. O identificador é a posição do token na lista de tokens.