Arquivos de entrada de dados paralelos para o Amazon Translate - Amazon Translate

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Arquivos de entrada de dados paralelos para o Amazon Translate

Antes de criar um recurso de dados paralelo no Amazon Translate, você deve criar um arquivo de entrada que contenha seus exemplos de tradução. Seu arquivo de entrada de dados paralelos deve usar idiomas compatíveis com o Amazon Translate. Para obter uma lista destes idiomas, consulte Idiomas e códigos de idioma compatíveis.

Exemplo de dados paralelos

O texto na tabela a seguir fornece exemplos de segmentos de tradução que podem ser formatados em um arquivo de entrada de dados paralelos:

en es zh

O Amazon Translate é um serviço de tradução automática neural.

O Amazon Translate é um serviço de tradução automática baseado em redes neurais.

Amazon Translate 是一项神经机器翻译服务。

A tradução automática neural é uma forma de automação da tradução de idiomas que usa modelos de aprendizado profundo.

A tradução automática neural é uma forma de automatizar a tradução de idiomas usando modelos de aprendizagem profunda.

神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。

O Amazon Translate permite que você localize conteúdo para usuários internacionais.

O Amazon Translate permite que você localize conteúdo para usuários internacionais.

Amazon Translate 允许您为国际用户本地化内容。

A primeira linha da tabela fornece os códigos de idioma. O primeiro idioma, inglês (en), é o idioma de origem. Espanhol (es) e chinês (zh) são os idiomas de destino. A primeira coluna fornece exemplos do texto de origem. As outras colunas contêm exemplos de traduções. Quando esses dados paralelos personalizam um trabalho em lotes, o Amazon Translate adapta a tradução para refletir os exemplos.

Formatos de arquivo de entrada

O Amazon Translate suporta os seguintes formatos para arquivos de entrada de dados paralelos:

  • Translation Memory eXchange (TMX)

  • CSV (valores separados por vírgula)

  • TSB (valores separados por tabulação)

TMX

exemplo Arquivo de entrada de TMX

O exemplo de arquivo TMX a seguir define dados paralelos em um formato aceito pelo Amazon Translate. Nesse arquivo, Inglês (en) é o idioma de origem. Espanhol (es) e Chinês (zh) são os idiomas de destino. Como um arquivo de entrada para dados paralelos, ele fornece vários exemplos que o Amazon Translate pode usar para personalizar a saída de um trabalho em lotes.

<?xml version="1.0" encoding="UTF-8"?> <tmx version="1.4"> <header srclang="en"/> <body> <tu> <tuv xml:lang="en"> <seg>Amazon Translate is a neural machine translation service.</seg> </tuv> <tuv xml:lang="es"> <seg>Amazon Translate es un servicio de traducción automática basado en redes neuronales.</seg> </tuv> <tuv xml:lang="zh"> <seg>Amazon Translate 是一项神经机器翻译服务。</seg> </tuv> </tu> <tu> <tuv xml:lang="en"> <seg>Neural machine translation is a form of language translation automation that uses deep learning models.</seg> </tuv> <tuv xml:lang="es"> <seg>La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.</seg> </tuv> <tuv xml:lang="zh"> <seg>神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。</seg> </tuv> </tu> <tu> <tuv xml:lang="en"> <seg>Amazon Translate allows you to localize content for international users.</seg> </tuv> <tuv xml:lang="es"> <seg>Amazon Translate le permite localizar contenido para usuarios internacionales.</seg> </tuv> <tuv xml:lang="zh"> <seg>Amazon Translate 允许您为国际用户本地化内容。</seg> </tuv> </tu> </body> </tmx>
Requisitos de TMX

Lembre-se dos seguintes requisitos do Amazon Translate ao definir seus dados paralelos em um arquivo TMX:

  • O Amazon Translate oferece suporte ao TMX 1.4b. Para obter mais informações, consulte a especificação TMX 1.4b no site da Globalization and Localization Association.

  • O elemento header deve incluir o atributo srclang. O valor desse atributo determina o idioma de origem dos dados paralelos.

  • O elemento body deve conter pelo menos um elemento de unidade de tradução (tu).

  • Cada elemento tu deve conter pelo menos dois elementos variantes (tuv) da unidade de tradução. Um desses elementos tuv deve ter um atributo xml:lang que tenha o mesmo valor que aquele atribuído ao atributo srclang no elemento header.

  • Todos os elementos tuv devem ter o atributo xml:lang.

  • Todos os elementos tuv devem ter um elemento de segmento (seg).

  • Ao processar seu arquivo de entrada, o Amazon Translate ignora determinados elementos tu ou tuv, caso encontre elementos seg que são vazios ou que contenham apenas espaço em branco:

    • Se o elemento seg corresponder ao idioma de origem, o Amazon Translate ignorará o elemento tu que o elemento seg ocupa.

    • Se o elemento seg corresponder ao idioma de origem, o Amazon Translate ignorará apenas o elemento tuv que o elemento seg ocupa.

  • Ao processar seu arquivo de entrada, o Amazon Translate ignora determinados elementos tu ou tuv se encontrar elementos seg que excedam 1000 bytes:

    • Se o elemento seg corresponder ao idioma de origem, o Amazon Translate ignorará o elemento tu que o elemento seg ocupa.

    • Se o elemento seg corresponder ao idioma de origem, o Amazon Translate ignorará apenas o elemento tuv que o elemento seg ocupa.

  • Se o arquivo de entrada contiver vários elementos tu com o mesmo texto de origem, o Amazon Translate executará uma das seguintes ações:

    • Se os elementos tu tiverem o atributo changedate, ele usará o elemento com a data mais recente.

    • Caso contrário, ele usa o elemento que ocorre mais próximo do final do arquivo.

CSV

O exemplo de arquivo CSV a seguir define dados paralelos em um formato aceito pelo Amazon Translate. Nesse arquivo, Inglês (en) é o idioma de origem. Espanhol (es) e Chinês (zh) são os idiomas de destino. Como um arquivo de entrada para dados paralelos, ele fornece vários exemplos que o Amazon Translate pode usar para personalizar a saída de um trabalho em lotes.

exemplo Arquivo de entrada de CSV
en,es,zh Amazon Translate is a neural machine translation service.,Amazon Translate es un servicio de traducción automática basado en redes neuronales.,Amazon Translate 是一项神经机器翻译服务。 Neural machine translation is a form of language translation automation that uses deep learning models.,La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.,神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。 Amazon Translate allows you to localize content for international users.,Amazon Translate le permite localizar contenido para usuarios internacionales.,Amazon Translate 允许您为国际用户本地化内容。
Requisitos de CSV

Lembre-se dos seguintes requisitos do Amazon Translate ao definir seus dados paralelos em um arquivo CSV:

  • A primeira linha consiste nos códigos de idioma. O primeiro código é o idioma de origem e cada código subsequente é um idioma de destino.

  • Cada campo na primeira coluna contém o texto fonte. Cada campo em uma coluna subsequente contém uma tradução de destino.

  • Se o texto em qualquer campo contiver uma vírgula, o texto deverá estar entre aspas duplas (“).

  • Um campo de texto não pode abranger várias linhas.

  • Os campos não podem começar com os seguintes caracteres: +, -, =, @. Esse requisito se aplica independentemente de o campo estar entre aspas duplas (“).

  • Se o texto em um campo contiver aspas duplas (“), ele deverá ser excluído com aspas duplas. Por exemplo, texto como:

    34" monitor

    Deve ser escrito como:

    34"" monitor
  • Ao processar seu arquivo de entrada, o Amazon Translate pulará determinadas linhas ou campos se encontrar campos vazios ou que contenham apenas espaços em branco:

    • Se um campo de texto de origem estiver vazio, o Amazon Translate ignorará a linha que ele ocupa.

    • Se um campo de tradução de destino estiver vazio, o Amazon Translate ignorará somente esse campo.

  • Ao processar seu arquivo de entrada, o Amazon Translate ignora determinadas linhas ou campos se encontrar campos que excedam 1000 bytes:

    • Se um campo de texto de origem exceder o limite de bytes, o Amazon Translate ignorará a linha que ele ocupa.

    • Se um campo de tradução de destino exceder o limite de bytes, o Amazon Translate ignorará somente esse campo.

  • Se o arquivo de entrada contiver vários registros com o mesmo texto de origem, o Amazon Translate usará o registro que ocorre mais próximo do final do arquivo.

TSV

O exemplo de arquivo TSV a seguir define dados paralelos em um formato aceito pelo Amazon Translate. Nesse arquivo, Inglês (en) é o idioma de origem. Espanhol (es) e Chinês (zh) são os idiomas de destino. Como um arquivo de entrada para dados paralelos, ele fornece vários exemplos que o Amazon Translate pode usar para personalizar a saída de um trabalho em lotes.

exemplo Arquivo de entrada TSV
en es zh Amazon Translate is a neural machine translation service. Amazon Translate es un servicio de traducción automática basado en redes neuronales. Amazon Translate 是一项神经机器翻译服务。 Neural machine translation is a form of language translation automation that uses deep learning models. La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo. 神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。 Amazon Translate allows you to localize content for international users. Amazon Translate le permite localizar contenido para usuarios internacionales. Amazon Translate 允许您为国际用户本地化内容。
Requisitos de TSV

Lembre-se dos seguintes requisitos do Amazon Translate ao definir seus dados paralelos em um arquivo TSV:

  • A primeira linha consiste nos códigos de idioma. O primeiro código é o idioma de origem e cada código subsequente é um idioma de destino.

  • Cada campo na primeira coluna contém o texto fonte. Cada campo em uma coluna subsequente contém uma tradução de destino.

  • Se o texto em qualquer campo contiver um caractere de tabulação, o texto deverá estar entre aspas duplas (“).

  • Um campo de texto não pode abranger várias linhas.

  • Os campos não podem começar com os seguintes caracteres: +, -, =, @. Esse requisito se aplica independentemente de o campo estar entre aspas duplas (“).

  • Se o texto em um campo contiver aspas duplas (“), ele deverá ser excluído com aspas duplas. Por exemplo, texto como:

    34" monitor

    Deve ser escrito como:

    34"" monitor
  • Ao processar seu arquivo de entrada, o Amazon Translate ignora determinadas linhas ou campos se encontrar campos vazios ou qcontendo apenas espaços em branco:

    • Se um campo de texto de origem estiver vazio, o Amazon Translate ignorará a linha que ele ocupa.

    • Se um campo de tradução de destino estiver vazio, o Amazon Translate ignorará somente esse campo.

  • Ao processar seu arquivo de entrada, o Amazon Translate ignora determinadas linhas ou campos se encontrar campos que excedam 1000 bytes:

    • Se um campo de texto de origem exceder o limite de bytes, o Amazon Translate ignorará a linha que ele ocupa.

    • Se um campo de tradução de destino exceder o limite de bytes, o Amazon Translate ignorará somente esse campo.

  • Se o arquivo de entrada contiver vários registros com o mesmo texto de origem, o Amazon Translate usará o registro que ocorre mais próximo do final do arquivo.