|
|

Intercambio de memorias de traducción: el formato TMX

Publicado el 06/06/2024

El formato TMX ha logrado consolidarse como la manera estándar de intercambiar memorias de traducción entre sistemas de traducción, instalados incluso en distintos sistemas operativos. En el año 2007, cuando nuestro actual director de marketing escribió en MultiLingual el artículo: «Testing the implementation of the TMX standards», la mayoría de los programas ofrecían la posibilidad de utilizar el formato txt creado en la versión de la época de RWS Trados Studio.

Hoy en día este artículo no tendría sentido. Sigue leyendo para profundizar en tu conocimiento de unos de los estándares más adoptados de la industria junto con el formato XLIFF.

¿Qué es el formato TMX?

El formato Translation Memory eXchange es un estándar abierto basado en XML, diseñado para el almacenamiento de memorias de traducción (TM) y su intercambio entre diferentes herramientas y aplicaciones de traducción asistida por ordenador (CAT). Una memoria de traducción es una base de datos que almacena segmentos de texto previamente traducidos para que puedan reutilizarse en futuras traducciones, lo cual permite agilizar el trabajo garantizando la coherencia de estilo y terminología, ya sea coincidencias del 100% o coincidencias parciales (lo que en el argot profesional muchas veces llamamos fuzzy matches)

El formato TMX fue uno de los legados de LISA (Localization Industry Standards Association) antes de su desaparición en 2011 y que ha sido ampliamente adoptado por múltiples herramientas de traducción y localización. Su objetivo principal es proporcionar una estandarización en el almacenamiento de las memorias de traducción, facilitando su interoperabilidad entre diferentes plataformas.

Estructura del formato TMX

Los archivos en formato TMX se basan en XML, lo que implica el uso de etiquetas para codificar la información, con el fin de que esta pueda ser leída tanto por humanos como por máquinas. En general, su estructura consiste en un encabezado (header en inglés) seguido de una o más secciones o cuerpo (en inglés, body) que contienen las unidades de traducción (TU), es decir, cada uno de los segmentos de texto previamente traducidos.

El encabezado contiene información descriptiva sobre la memoria de traducción, como el nombre, el idioma de origen y el idioma o idiomas de destino, y otros datos adicionales como la herramienta con la que se creó, la fecha de creación o las posibles revisiones realizadas.

El resto de secciones contienen las TU, incluyendo tanto el segmento de texto plano original y su traducción a uno o varios idiomas, como las etiquetas de formato (según el nivel de implementación del formato TMX, que veremos más adelante). Además, se puede incluir información adicional, como el contexto de uso del segmento o las anotaciones del traductor.

Archivos TMX multilingües y bilingües

Como hemos mencionado, los archivos TMX pueden ser multilingües o bilingües, dependiendo de la cantidad de idiomas meta incluidos:

  • Archivos TMX bilingües: contienen segmentos de texto en dos idiomas, el idioma de origen y el de destino. Son los más comunes y se utilizan principalmente en proyectos de traducción específicos.
  • Archivos TMX multilingües: contienen segmentos de texto en múltiples idiomas, lo que permite gestionar y reutilizar traducciones en varios idiomas desde un único archivo. Estos son útiles para grandes proyectos de localización.

Metadatos en un Archivo TMX

Además de los segmentos de texto traducidos, los archivos TMX pueden contener varios tipos de metadatos que proporcionan información adicional sobre las unidades de traducción y facilitan la gestión y utilización efectivas de las memorias de traducción. Ya hemos mencionado algunos de ellos, pero aquí te dejamos una lista completa de los más comunes

  • Idioma de origen y destino: especifica los idiomas del segmento original y su traducción. Esto es fundamental para asegurar que las unidades de traducción se utilicen correctamente en contextos multilingües, al filtrar y aplicar solo las que coincidan con los idiomas específicos del proyecto actual.
  • Autor y fecha de creación: indica quién creó el segmento y cuándo, lo cual facilita la asignación de responsabilidades, el seguimiento de la calidad de las traducciones y la comunicación entre profesionales.
  • Cliente y proyecto: información relevante sobre el cliente y el proyecto asociado con la memoria de traducción. Al trabajar en un proyecto específico, se pueden priorizar las unidades de traducción previamente utilizadas para el mismo cliente, asegurando la consistencia terminológica y estilística.
  • Estado de la traducción: indica si la traducción ha sido revisada, aprobada, o si está pendiente de revisión, ayudando a gestionar el flujo de trabajo de la empresa de traducción.
  • Notas y comentarios: permite agregar anotaciones adicionales que pueden ser útiles para la toma de decisiones de futuros traductores y revisores.
  • Contexto y segmentación: información sobre el contexto del segmento dentro del texto fuente, lo que ayuda a mantener la coherencia y precisión en futuras traducciones.

Implementación del formato TMX

La implementación del formato TMX en las distintas herramientas de traducción asistida se realiza en tres niveles diferentes, en función del tipo de códigos de formato y etiquetas que se pueden reconocer. En otras palabras, los niveles de implementación determinan la complejidad y cantidad de información que se puede incluir en un archivo. Estos niveles son:

  • Nivel 1 (Solo texto plano): es el nivel más básico y garantiza la compatibilidad entre diferentes herramientas CAT. Incluye información mínima, como los pares de segmentos de texto en el idioma de origen y destino. Es la opción más sencilla a la hora de buscar equivalencias entre los pares, ya que la lectura de los segmentos no se ve incomodada por la presencia de etiquetas.
  • Nivel 2 (Marcadores meta): este nivel considera la información de las etiquetas en su formato TMX, considerando los detalles sobre el formato del texto (negrita, cursiva, subrayado…)
  • Nivel 3 (Marcadores nativos): es el nivel más avanzado y permite reconocer tanto las etiquetas TMX como el código nativo de cada elemento, sin perder nada de información. Esto implica la posibilidad de recrear la estructura y el formato exactos del documento original en la traducción utilizando únicamente el archivo TMX.

Problemas de compatibilidad de los formatos TMX en herramientas CAT

A pesar de ser un estándar abierto, los archivos TMX pueden enfrentar problemas de compatibilidad entre diferentes herramientas CAT. Algunos de los problemas comunes incluyen:

  • Diferentes niveles de implementación: no todas las herramientas son capaces de interpretar el mismo tipo de datos contenidos en un archivo TMX, como vimos en los niveles de implementación, lo que implica la posible pérdida de información importante de una herramienta a otra.
  • Diferencias en el análisis de XML: algunas herramientas no utilizan analizadores de XML estándar, por lo que es posible que no acepten algunos TMX válidos.
  • Generación de archivos TMX no válidos: aun pudiendo leer correctamente el XML, ciertas herramientas no son capaces de general archivos en formato TMX válidos, lo que genera problemas para ser leídos posteriormente por otros programas.
  • Nuevas versiones de XML: aún existen herramientas que funcionan con versiones antiguas de XML, por lo que no podrán leer archivos TMX más recientes.
  • TMX multilingües: algunas herramientas restringen el número de idiomas permitidos a dos y no admiten archivos TMX multilingües.

Conclusión

El formato TMX es una herramienta esencial tanto para traductores profesionales como para empresas de traducción, ya que propone un almacenamiento estándar de las memorias, permitiendo el intercambio de estas entre los traductores profesional, sea cual sea la herramienta CAT que utilicen. Sin embargo, los usuarios deben ser conscientes de los niveles de implementación y los posibles problemas de compatibilidad para evitar pérdidas de información. Además, saber cómo manipular y gestionar los archivos TMX, y conocer toda la información que estos pueden contener, nos puede permitir en ocasiones agilizar el proceso de traducción, ahorrar tiempo y esfuerzo y mejorar nuestro trabajo.

Imagen de Iván Vázquez
Iván Vázquez

Graduado en Traducción e Interpretación por la Universidad de Granada, especializado en francés y chino. Ha trabajado en varios proyectos de traducción literaria y traducción web entre España y Francia. Actualmente, es asistente de gestión de proyectos y redactor de contenidos en AbroadLink.

Añadir nuevo comentario