Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

TOKENIZATION - AWS Glue DataBrew
Esta página no se ha traducido a su idioma. Solicitar traducción

TOKENIZATION

Splits text into smaller units, or tokens, such as individual words or terms.

Parameters
  • sourceColumn – The name of an existing column.

  • delimiter — A custom delimiter that appears between tokenized words. (The default behavior is to separate each token by a space.)

  • expandContractions — If ENABLED, expands contracted words. For example: "don't" becomes "do not".

  • stemmingMode — Splits text into smaller units or tokens, such as individual lowercase words or terms. Two stemming modes are available: PORTER | LANCASTER.

  • stopWordRemovalMode — Removes common words like a, an, the, and more.

  • customStopWords — For StopWordRemovalMode, allows you to specify a custom list of stop words.

  • targetColumn — The name of a column to contain the results.

Example

{ "Action": { "Operation": "TOKENIZATION", "Parameters": { "customStopWords": "[]", "delimiter": "- ", "expandContractions": "ENABLED", "sourceColumn": "dimensions", "stemmingMode": "PORTER", "stopWordRemovalMode": "DEFAULT", "targetColumn": "dimensions_tokenized" } } }
PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.