Ejemplo de datos paralelos Formatos de los archivos de entrada

Archivos de entrada de datos paralelos para Amazon Translate

Para poder crear un recurso de datos paralelos en Amazon Translate, antes debe crear un archivo de entrada que contenga los ejemplos de traducción. El archivo de entrada de datos paralelos debe utilizar los idiomas admitidos en Amazon Translate. Para ver una lista de estos idiomas, consulte Idiomas y códigos de idioma admitidos.

Ejemplo de datos paralelos

El texto de la siguiente tabla ofrece ejemplos de segmentos de traducción que se pueden preparar en un archivo de entrada de datos paralelos:

en	es	zh
Amazon Translate is a neural machine translation service.	Amazon Translate es un servicio de traducción automática basado en redes neuronales.	Amazon Translate 是一项神经机器翻译服务。
Neural machine translation is a form of language translation automation that uses deep learning models.	La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.	神经机器翻译使用深度学习模型，是一种语言翻译自动化的形式。
Amazon Translate allows you to localize content for international users.	Amazon Translate le permite localizar contenido para usuarios internacionales.	Amazon Translate 允许您为国际用户本地化内容。

La primera fila de la tabla muestra los códigos de idioma. El primer idioma, inglés (en), es el idioma de origen. Los idiomas de destino son español (es) y chino (zh). La primera columna muestra ejemplos del texto de origen. Las otras columnas contienen ejemplos de traducciones. Cuando estos datos paralelos personalizan un trabajo por lotes, Amazon Translate adapta la traducción para reflejar los ejemplos.

Formatos de los archivos de entrada

Amazon Translate admite los siguientes formatos para los archivos de entrada de datos paralelos:

TMX (Translation Memory eXchange)
CSV (valores separados por comas)
TSV (valores separados por tabulaciones)

TMX

ejemplo Archivo de entrada TMX

El siguiente archivo TMX de ejemplo define los datos paralelos en un formato que Amazon Translate acepta. En este archivo, el idioma de origen es inglés (en). Los idiomas de destino son español (es) y chino (zh). Como archivo de entrada para datos paralelos, proporciona varios ejemplos que Amazon Translate puede utilizar para personalizar la salida de un trabajo por lotes.


<?xml version="1.0" encoding="UTF-8"?>
<tmx version="1.4">
    <header srclang="en"/>
    <body>
        <tu>
            <tuv xml:lang="en">
                <seg>Amazon Translate is a neural machine translation service.</seg>
            </tuv>
            <tuv xml:lang="es">
                <seg>Amazon Translate es un servicio de traducción automática basado en redes neuronales.</seg>
            </tuv>
            <tuv xml:lang="zh">
                <seg>Amazon Translate 是一项神经机器翻译服务。</seg>
            </tuv>
        </tu>
        <tu>
            <tuv xml:lang="en">
                <seg>Neural machine translation is a form of language translation automation that uses deep learning models.</seg>
            </tuv>
            <tuv xml:lang="es">
                <seg>La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.</seg>
            </tuv>
            <tuv xml:lang="zh">
                <seg>神经机器翻译使用深度学习模型，是一种语言翻译自动化的形式。</seg>
            </tuv>
        </tu>
        <tu>
            <tuv xml:lang="en">
                <seg>Amazon Translate allows you to localize content for international users.</seg>
            </tuv>
            <tuv xml:lang="es">
                <seg>Amazon Translate le permite localizar contenido para usuarios internacionales.</seg>
            </tuv>
            <tuv xml:lang="zh">
                <seg>Amazon Translate 允许您为国际用户本地化内容。</seg>
            </tuv>
        </tu>
    </body>
</tmx>

Requisitos de TMX

Recuerde los siguientes requisitos de Amazon Translate cuando defina sus datos paralelos en un archivo TMX:

Amazon Translate es compatible con TMX 1.4b. Para obtener más información, consulte la especificación TMX 1.4b en el sitio web de la Globalization and Localization Association.
El elemento header debe incluir el atributo srclang. El valor de este atributo determina el idioma de origen de los datos paralelos.
El elemento body debe contener al menos un elemento de unidad de traducción (tu).
El elemento tu debe contener al menos dos elementos de variante de unidad de traducción (tuv). Uno de estos elementos tuv debe tener un atributo xml:lang que tenga el mismo valor que el asignado al atributo srclang del elemento header.
Todos los elementos tuv deben tener el atributo xml:lang.
Todos los elementos tuv deben tener un elemento (seg) de segmento.
Al procesar el archivo de entrada, Amazon Translate omite algunos elementos tu o tuv si encuentra elementos seg vacíos o que solo contienen espacios en blanco:
- Si el elemento seg corresponde al idioma de origen, Amazon Translate omite el elemento tu que ocupa el elemento seg.
- Si el elemento seg corresponde al idioma de destino, Amazon Translate omite solo el elemento tuv que ocupa el elemento seg.
Al procesar el archivo de entrada, Amazon Translate omite algunos elementos tu o tuv si encuentra elementos seg con más de 1000 bytes:
- Si el elemento seg corresponde al idioma de origen, Amazon Translate omite el elemento tu que ocupa el elemento seg.
- Si el elemento seg corresponde al idioma de destino, Amazon Translate omite solo el elemento tuv que ocupa el elemento seg.
Si el archivo de entrada contiene varios elementos tu con el mismo texto de origen, Amazon Translate realiza una de las siguientes acciones:
- Si los elementos tu tienen el atributo changedate, utiliza el elemento con la fecha más reciente.
- De lo contrario, utiliza el elemento que se encuentra más cerca del final del archivo.

CSV

El siguiente archivo CSV de ejemplo define los datos paralelos en un formato que Amazon Translate acepta. En este archivo, el idioma de origen es inglés (en). Los idiomas de destino son español (es) y chino (zh). Como archivo de entrada para datos paralelos, proporciona varios ejemplos que Amazon Translate puede utilizar para personalizar la salida de un trabajo por lotes.

ejemplo Archivo de entrada CVS


en,es,zh
Amazon Translate is a neural machine translation service.,Amazon Translate es un servicio de traducción automática basado en redes neuronales.,Amazon Translate 是一项神经机器翻译服务。
Neural machine translation is a form of language translation automation that uses deep learning models.,La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.,神经机器翻译使用深度学习模型，是一种语言翻译自动化的形式。
Amazon Translate allows you to localize content for international users.,Amazon Translate le permite localizar contenido para usuarios internacionales.,Amazon Translate 允许您为国际用户本地化内容。

Requisitos de CVS

Recuerde los siguientes requisitos de Amazon Translate cuando defina sus datos paralelos en un archivo CSV:

La primera fila corresponde a los códigos de idioma. El primer código es el idioma de origen y cada código posterior es un idioma de destino.
Cada campo de la primera columna contiene texto de origen. Cada campo de una columna posterior contiene una traducción de destino.
Si el texto de algún campo contiene una coma, el texto debe escribirse entre comillas dobles (").
Un campo de texto no puede ocupar varias líneas.
Los campos no pueden empezar con los siguientes caracteres: +, -, =, @. Este requisito se aplica independientemente de que el campo esté entre comillas dobles (") o no.
Si el texto de un campo contiene comillas dobles ("), debe escribirse entre comillas dobles. Por ejemplo, texto como:
```
34" monitor
```
Debe escribirse como:
```
34"" monitor
```
Al procesar el archivo de entrada, Amazon Translate omite algunos campos o líneas si encuentra campos vacíos o que solo contienen espacios en blanco:
- Si un campo de texto de origen está vacío, Amazon Translate omite la línea que ocupa.
- Si un campo de traducción de destino está vacío, Amazon Translate omite solo ese campo.
Al procesar el archivo de entrada, Amazon Translate omite algunos campos o líneas si encuentra campos con más de 1000 bytes:
- Si un campo de texto de origen excede el límite de bytes, Amazon Translate omite la línea que ocupa.
- Si un campo de traducción de destino excede el límite de bytes, Amazon Translate omite solo ese campo.
Si el archivo de entrada contiene varios registros con el mismo texto de origen, Amazon Translate utiliza el registro que se encuentre más cerca del final del archivo.

TSV

El siguiente archivo TSV de ejemplo define los datos paralelos en un formato que Amazon Translate acepta. En este archivo, el idioma de origen es inglés (en). Los idiomas de destino son español (es) y chino (zh). Como archivo de entrada para datos paralelos, proporciona varios ejemplos que Amazon Translate puede utilizar para personalizar la salida de un trabajo por lotes.

ejemplo Archivo de entrada TSV


en	es	zh
Amazon Translate is a neural machine translation service.	Amazon Translate es un servicio de traducción automática basado en redes neuronales.	Amazon Translate 是一项神经机器翻译服务。
Neural machine translation is a form of language translation automation that uses deep learning models.	La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.	神经机器翻译使用深度学习模型，是一种语言翻译自动化的形式。
Amazon Translate allows you to localize content for international users.	Amazon Translate le permite localizar contenido para usuarios internacionales.	Amazon Translate 允许您为国际用户本地化内容。

Requisitos de TSV

Recuerde los siguientes requisitos de Amazon Translate cuando defina sus datos paralelos en un archivo TSV:

La primera fila corresponde a los códigos de idioma. El primer código es el idioma de origen y cada código posterior es un idioma de destino.
Cada campo de la primera columna contiene texto de origen. Cada campo de una columna posterior contiene una traducción de destino.
Si el texto de algún campo contiene un carácter de tabulación, el texto debe escribirse entre comillas dobles (").
Un campo de texto no puede ocupar varias líneas.
Los campos no pueden empezar con los siguientes caracteres: +, -, =, @. Este requisito se aplica independientemente de que el campo esté entre comillas dobles (") o no.
Si el texto de un campo contiene comillas dobles ("), debe escribirse entre comillas dobles. Por ejemplo, texto como:
```
34" monitor
```
Debe escribirse como:
```
34"" monitor
```
Mientras procesa el archivo de entrada, Amazon Translate omite determinadas líneas o campos si encuentra campos vacíos o que solo contienen espacios en blanco:
- Si un campo de texto de origen está vacío, Amazon Translate omite la línea que ocupa.
- Si un campo de traducción de destino está vacío, Amazon Translate omite solo ese campo.
Al procesar el archivo de entrada, Amazon Translate omite algunos campos o líneas si encuentra campos con más de 1000 bytes:
- Si un campo de texto de origen excede el límite de bytes, Amazon Translate omite la línea que ocupa.
- Si un campo de traducción de destino excede el límite de bytes, Amazon Translate omite solo ese campo.
Si el archivo de entrada contiene varios registros con el mismo texto de origen, Amazon Translate utiliza el registro que se encuentre más cerca del final del archivo.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Personalización con datos paralelos

Añadir datos paralelos