Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
S3 DistCp (s3-dist-cp)
Apache DistCp es una herramienta de código abierto que puede utilizar para copiar grandes cantidades de datos. S3 DistCp es similar a Amazon S3 DistCp, pero está optimizado para funcionar con él AWS, especialmente. El comando para S3 DistCp en Amazon 4.0 y EMR versiones posteriores ess3-dist-cp
, que se agrega como un paso en un clúster o en la línea de comandos. Con S3DistCp, puede copiar de manera eficiente grandes cantidades de datos de Amazon S3 para procesarlos HDFS en los siguientes pasos de su EMR clúster de Amazon. También puede usar S3 DistCp para copiar datos entre buckets de Amazon S3 o desde HDFS Amazon S3. S3 DistCp es más escalable y eficiente para copiar en paralelo grandes cantidades de objetos entre depósitos y AWS cuentas.
Para ver comandos específicos que demuestran la flexibilidad de S3DistCP en situaciones reales, consulte Siete consejos para usar S3 DistCp
Por ejemplo DistCp, S3 DistCp suele MapReduce copiar de forma distribuida. Comparte las tareas de copia, tratamiento de errores, recuperación y elaboración de informes entre varios servidores. Para obtener más información sobre el proyecto de código DistCp abierto Apache, consulte la DistCpguía
Si S3 no puede copiar algunos o todos los archivos especificados, DistCp se produce un error en el paso del clúster y devuelve un código de error distinto de cero. Si esto ocurre, S3 DistCp no limpia los archivos parcialmente copiados.
importante
S3 DistCp no admite nombres de bucket de Amazon S3 que contengan el carácter de subrayado.
S3 no DistCp admite la concatenación de archivos de Parquet. Úselo en su lugar. PySpark Para obtener más información, consulta Concatenar archivos de parquet en Amazon
Para evitar errores de copia al utilizar S3DistCP para copiar un único archivo (en lugar de un directorio) de S3 a, HDFS utilice Amazon 5.33.0 EMR o posterior, o Amazon EMR 6.3.0 o posterior.
Opciones de S3 DistCp
Aunque es similar a DistCp, S3 DistCp admite un conjunto diferente de opciones para cambiar la forma en que copia y comprime los datos.
Al llamar a S3DistCp, puede especificar las opciones que se describen en la siguiente tabla. Las opciones se añaden al paso utilizando la lista de argumentos. En la siguiente tabla se muestran ejemplos de los DistCp argumentos de S3.
Opción | Descripción | Obligatorio |
---|---|---|
‑‑src=LOCATION
|
Ubicación de los datos que copiar. Puede ser una ubicación HDFS o una ubicación de Amazon S3. Ejemplo: importanteS3 DistCp no admite nombres de bucket de Amazon S3 que contengan el carácter de subrayado. |
Sí |
‑‑dest=LOCATION
|
Destino de los datos. Puede ser una ubicación HDFS o una ubicación de Amazon S3. Ejemplo: importanteS3 DistCp no admite nombres de bucket de Amazon S3 que contengan el carácter de subrayado. |
Sí |
‑‑srcPattern=PATTERN
|
Una expresión regular Si el argumento de expresión regular contiene caracteres especiales, como un asterisco (*), la expresión regular o toda la cadena Ejemplo: |
No |
‑‑groupBy=PATTERN
|
Expresión regular Los paréntesis indican cómo deberían agruparse los archivos, todos los elementos que coincidan con la instrucción parentética se combinan en un único archivo de salida. Si la expresión regular no incluye una sentencia entre paréntesis, el clúster falla en el DistCp paso S3 y devuelve un error. Si el argumento de expresión regular contiene caracteres especiales, como un asterisco (*), la expresión regular o toda la cadena Cuando se especifica Ejemplo: |
No |
‑‑targetSize=SIZE
|
El tamaño, en mebibytes (MiB), de los archivos a crear en función de la opción Si los archivos concatenados por Ejemplo: |
No |
‑‑appendToLastFile |
Especifica el comportamiento de S3 DistCp al copiar archivos de Amazon S3 en los HDFS que ya están presentes. Añade los nuevos datos de archivo a archivos existentes. Si utiliza |
No |
‑‑outputCodec=CODEC
|
Especifica el códec de compresión que utilizar para los archivos copiados. Esto puede tomar los valores: Ejemplo: |
No |
‑‑s3ServerSideEncryption
|
Garantiza que los datos de destino se transfieran mediante una clave del AWS lado del servicio SSL y se cifren automáticamente en Amazon S3. Al recuperar datos mediante S3DistCp, los objetos se descifran automáticamente. Si intenta copiar un objeto sin cifrar en un bucket de Amazon S3 con cifrado requerido, la operación produce un error. Para obtener más información, consulte el tema relacionado con el uso del cifrado de datos. Ejemplo: |
No |
‑‑deleteOnSuccess
|
Si la operación de copia se realiza correctamente, esta opción hace DistCp que S3 elimine los archivos copiados de la ubicación de origen. Esto resulta útil si está copiando archivos de salida, como archivos de registro, desde una ubicación a otra como una tarea programada y no desea copiar los mismos archivos dos veces. Ejemplo: |
No |
‑‑disableMultipartUpload
|
Deshabilita el uso de la carga multiparte. Ejemplo: |
No |
‑‑multipartUploadChunkSize=SIZE
|
El tamaño, en MiB, de cada parte de una carga multiparte de Amazon S3. S3 DistCp utiliza la carga multiparte cuando copia datos de un tamaño superior al Ejemplo: |
No |
‑‑numberFiles
|
Añade archivos de salida con los números secuenciales. El recuento comienza en 0 a menos que se especifique un valor diferente mediante Ejemplo: |
No |
‑‑startingIndex=INDEX
|
Utilizado con Ejemplo: |
No |
‑‑outputManifest=FILENAME
|
Crea un archivo de texto, comprimido con Gzip, que contiene una lista de todos los archivos copiados por S3. DistCp Ejemplo: |
No |
‑‑previousManifest=PATH
|
Lee un archivo de manifiesto que se creó durante una llamada anterior a S3 DistCp con la Ejemplo: |
No |
‑‑requirePreviousManifest |
Requiere un manifiesto previo creado durante una llamada anterior a S3DistCp. Si se define como false, no se genera ningún error cuando no se especifica un manifiesto anterior. El valor predeterminado es true. |
No |
‑‑copyFromManifest
|
Invierte el comportamiento de Ejemplo: |
No |
‑‑s3Endpoint=ENDPOINT |
Especifica el punto de conexión de Amazon S3 que utilizar a la hora de cargar un archivo. Esta opción establece el punto de enlace para el origen y el destino. Si no se define, el punto de enlace predeterminado es Ejemplo: |
No |
‑‑storageClass=CLASS |
La clase de almacenamiento que utilizar cuando el destino es Amazon S3. Los valores válidos son STANDARD y REDUCED _REDUNDANCY. Si no se especifica esta opción, S3 DistCp intenta conservar la clase de almacenamiento. Ejemplo: |
No |
‑‑srcPrefixesFile=PATH |
un archivo de texto en Amazon S3 (s3://), HDFS (hdfs:///) o en un sistema de archivos local (file:/) que contiene una lista de Si Ejemplo: |
No |
Además de las opciones anteriores, S3 DistCp implementa la interfaz Tool
Añadir S3 DistCp como un paso de un clúster
Para llamar a S3, DistCp agréguelo como un paso en su clúster. Los pasos se pueden añadir a un clúster en el momento del lanzamiento o a un clúster en ejecución mediante la consolaCLI, oAPI. Los siguientes ejemplos muestran cómo agregar un DistCp paso de S3 a un clúster en ejecución. Para obtener más información sobre cómo añadir pasos a un clúster, consulta Enviar trabajo a un clúster en la Amazon EMR Management Guide.
Para añadir un DistCp paso de S3 a un clúster en ejecución mediante el AWS CLI
Para obtener más información sobre el uso de EMR los comandos de Amazon en AWS CLI, consulte la Referencia de AWS CLI comandos.
-
Para añadir un paso a un clúster que llame a S3DistCp, pase como argumentos los parámetros que especifican cómo DistCp debe realizar S3 la operación de copia.
El siguiente ejemplo copia registros de daemon desde Amazon S3 a
hdfs:///output
. En el comando siguiente:-
‑‑cluster-id
especifica el clúster -
Jar
es la ubicación del DistCp JAR archivo S3. Para ver un ejemplo de cómo ejecutar un comando en un clúster mediante command-runner.jar, consulte Enviar un JAR paso personalizado para ejecutar un script o un comando. -
Args
es una lista separada por comas de los pares nombre-valor de las opciones que se van a pasar a S3. DistCp Para ver una lista completa de las opciones disponibles, consulte Opciones de S3 DistCp .
Para añadir un paso de DistCp copia de S3 a un clúster en ejecución, coloque lo siguiente en un JSON archivo guardado en Amazon S3 o en su sistema de archivos local, como en este
ejemplo. ReemplazarmyStep.json
j-3GYXXXXXX9IOK
con su ID de clúster y sustitúyalomybucket
con el nombre de tu bucket de Amazon S3.[ { "Name":"S3DistCp step", "Args":["s3-dist-cp","‑‑s3Endpoint=s3.amazonaws.com","‑‑src=s3://mybucket/logs/j-3GYXXXXXX9IOJ/node/","‑‑dest=hdfs:///output","‑‑srcPattern=.*[a-zA-Z,]+"], "ActionOnFailure":"CONTINUE", "Type":"CUSTOM_JAR", "Jar":"command-runner.jar" } ]
aws emr add-steps ‑‑cluster-id
j-3GYXXXXXX9IOK
‑‑steps file://./myStep.json -
ejemplo Copie los archivos de registro de Amazon S3 a HDFS
Este ejemplo también ilustra cómo copiar los archivos de registro almacenados en un bucket de Amazon S3 HDFS añadiendo un paso a un clúster en ejecución. En este ejemplo, la opción ‑‑srcPattern
se utiliza para limitar los datos copiados en los registros del daemon.
Para copiar archivos de registro de Amazon S3 para HDFS usar la ‑‑srcPattern
opción, coloque lo siguiente en un JSON archivo guardado en Amazon S3 o en su sistema de archivos local, como en este
ejemplo. Reemplazar myStep.json
j-3GYXXXXXX9IOK
con su ID de clúster y sustitúyalo mybucket
con el nombre de tu bucket de Amazon S3.
[ { "Name":"S3DistCp step", "Args":["s3-dist-cp","‑‑s3Endpoint=s3.amazonaws.com","‑‑src=s3://mybucket/logs/j-3GYXXXXXX9IOJ/node/","‑‑dest=hdfs:///output","‑‑srcPattern=.*daemons.*-hadoop-.*"], "ActionOnFailure":"CONTINUE", "Type":"CUSTOM_JAR", "Jar":"command-runner.jar" } ]