La segmentación en traducción y el formato estándar SRX
Detrás de una buena segmentación del texto yacen muchos aspectos que marcan la diferencia entre una buena y una mala gestión proyectos. Entre estos destacaría: presupuesto, gestión de memorias de traducción y calidad de la traducción.
Abordaremos en este blog algunas de estas cuestiones, yendo desde los aspectos más generales de la segmentación a cuestiones más concretas y técnicas.
Índice de contenidos
Index of contents
Index du contenu
Inhaltsverzeichnis
Indice dei contenuti
¿Qué es la segmentación?
Cuando introducimos un archivo para su traducción en una herramienta TAO como Trados Studio o memoQ, esta lo procesa dividiendo el texto traducible en segmentos. Cada uno de estos segmentos suele coincidir con una frase, identificada por la herramienta gracias a los signos de puntuación, admiración e interrogación.
Una vez segmentado el texto, la tarea del traductor consistirá en proporcionar una traducción para cada segmento, también llamado unidad de traducción. Esto es esencial para trabajar con memorias de traducción, permitiendo identificar coincidencias, es decir, unidades de traducción que ya están en la memoria de traducción o que se repite en el texto, de manera que se pueda automatizar la traducción de estos segmentos.
Como hemos mencionado, el criterio básico para definir cómo se segmenta un texto es la puntuación. En realidad, las reglas de segmentación son más complejas, y cada herramienta las puede establecer de manera distinta. Por ejemplo, SDL Trados Studio las determina a partir de la memoria de traducción que se aplica al proyecto, mientras que memoQ las aplica al proyecto directamente. Además, cada herramienta ofrece sus propias posibilidades para modificar estas reglas, que detallaremos más adelante.
En general, las reglas de segmentación determinan dos aspectos: por un lado, los signos de puntuación que marcan el final de un segmento y, por otro, las excepciones a estas reglas.
Por poner el ejemplo más típico, si establecemos que tras un punto hay que realizar un salto de segmento, podemos indicar una serie de abreviaturas seguidas de punto para que cuando aparezcan la herramienta mantenga el mismo segmento hasta el punto siguiente.
Por último, cabe destacar en las reglas de segmentación son un recurso de idioma. Cuentan con una serie de elementos comunes para todos los idiomas, como puede ser el punto al final de cada segmento, pero otros son específicos para cada uno y su modificación deberá realizarse individualmente.
Estandarizando las reglas de segmentación: el formato SRX
Segmentation Rules eXchange (SRX) es un estándar abierto basado en XML que proporciona un conjunto común de expresiones regulares para definir y compartir las reglas de segmentación. Al igual que el formato TMX, fue desarrollado por la Localization Industry Standards Association (LISA), y mantenido desde 2011 por la Global and Localization Association (GALA). Nace ante el problema de que una herramienta TAO podía segmentar los textos de una forma distinta a la de la memoria, por lo que esta no podía aplicarse de manera efectiva.
El formato SXR se basa en expresiones regulares, siendo estas las que se emplean para definir las reglas de segmentación. Las expresiones regulares son patrones basados en la codificación de Unicode que permiten determinar y localizar una serie de caracteres dentro de un texto. Así, para el caso de las reglas de segmentación, las expresiones regulares nos permiten decirle al programa que localice minúsculas, mayúsculas, corchetes y comillas de cierre, números y cualquier signo de puntuación, y que los utilice como criterio para saber cuándo realizar un salto de segmento.
No obstante, algunos programas cuentan con opciones simplificadas para poder introducir estos caracteres sin necesidad de recurrir a las complejas expresiones regulares. Estas podrán siempre usarse para realizar una configuración de las reglas de segmentación más avanzada.
Aparte de la posibilidad de modificar las reglas de segmentación, la implementación del estándar SRX en las herramientas TAO permite exportar e importar archivos, para poder aplicar las mismas reglas de segmentación en otro proyecto o herramienta distinta. A continuación, veremos de manera más detallada las posibilidades que el formato SRX nos ofrece en dos de las principales herramientas: SDL Trados Studio y memoQ.
Implementación del formato SRX en Trados Studio
Trados Studio no ha implementado el standard SRX, no obstante, l abrir un archivo para traducir en SDL Trados Studio, el programa realiza una segmentación basada en las reglas de segmentación por defecto
Para modificar las reglas de segmentación en SDL Trados Studio, hacemos clic derecho en la memoria de traducción y abrimos el panel de configuración. Una vez ahí, vamos a los recursos de idiomas y se nos mostrará, las opciones de configuración para cada uno de ellos. Buscamos la columna de reglas de segmentación y accedemos el editor en el idioma para el que queramos modificarlas.
A continuación, se nos mostrará una opción de segmentación basada en párrafo, que utiliza las marcas de párrafo propias de cada tipo de archivo, y otra de segmentación basada en frase, que es la que podemos modificar. Las reglas de segmentación que se aplican por defecto son el punto, los dos puntos y los signos de interrogación y exclamación, e incluyen la excepción de ir seguidos de minúscula.
En este panel, podemos quitar o editar estas reglas, añadiendo caracteres antes y después del salto, así como excepciones, mediante el uso de expresiones regulares. También podemos añadir reglas nuevas siguiendo el mismo procedimiento.
Por tanto, en Trados Studio las reglas de segmentación están asociadas a la memoria de traducción y no a un tipo de archivo, por lo que no existe la posibilidad de importarlas y exportarlas en un archivo SRX.
Implementación del formato SRX en memoQ
Las reglas de segmentación en memoQ vienen establecidas por defecto, y pueden ser modificadas para cada proyecto específico. Para ello, abrimos el proyecto y accedemos a la ventana de opciones. Una vez ahí, seleccionamos el icono de reglas de segmentación —el de las tijeras— y seleccionamos el set de reglas de segmentación del idioma que queramos. Se nos abrirá un menú en el que podremos modificar dichas reglas. Encontraremos una vista simple, en la que podemos añadir signos de puntuación, nombres propios de comienzan con minúscula y abreviaturas seguidas de números. En la vista avanzada, encontramos la opción de usar expresiones regulares para una configuración más compleja de las reglas de segmentación.
En la misma ventana encontramos la opción de exportar e importar un archivo SRX para poder utilizar las mismas reglas de segmentación en otros proyectos y herramientas. Es importante tener en cuenta que al exportar un archivo SRX se puede perder información sobre las excepciones a las reglas de segmentación, ya que estas son más sofisticadas en memoQ que las permitidas en SRX.
Quizá también te interesen estos otros artículos:
Graduado en Traducción e Interpretación por la Universidad de Granada, especializado en francés y chino. Ha trabajado en varios proyectos de traducción literaria y traducción web entre España y Francia. Actualmente, es asistente de gestión de proyectos y redactor de contenidos en AbroadLink.
Añadir nuevo comentario