Conversión OCR para la traducción del árabe
Si ya has solicitado alguna vez un presupuesto de traducción para tus documentos redactados en árabe, seguramente ya conocerás la respuesta de la mayoría de los gestores de proyectos de traducción.
¿No dispones del archivo en un formato editable?
Aunque no lo parezca, somos muy conscientes de lo molesta que puede llegar a ser esta pregunta, sobre todo, si eres de esos clientes que suele mandar siempre todos los documentos en su formato original.
Pero debes entender también que para las empresas de traducción es mucho más fácil, rápido y económico procesar y preparar archivos enviados en un formato editable.
Pues bien, a pesar de todo siempre caerá algún documento en tus manos que haya sido escaneado y convertido a PDF. Creo sinceramente que este es el peor formato con el que se puede trabajar, lo que no significa que no sea posible.
En este blog compararé algunos de los programas con los que suelen trabajar las empresas de traducción para gestionar y procesar este tipo de documentación redactada en árabe. He elegido el árabe porque es un idioma muy traducido y no todos los programas son capaces de trabajar con este idioma, por lo que hay que indagar un poco más en el mundo de los programas de extracción de texto.
Índice de contenidos
Index of contents
Index du contenu
Inhaltsverzeichnis
Indice dei contenuti
1. ¿Qué significa OCR?
Cuando trabajamos con aquel tipo de archivos que al digitalizarse se convierten en imágenes en las que no se puede seleccionar el texto con el ratón, no vamos a poder utilizar un simple programa de extracción de texto como en el caso de los archivos PDF en los que sí se puede seleccionar el texto. Dejo aquí dos ejemplos en los que se puede ver la diferencia:
- PDF en formato editable
- PDF en formato no editable
El primer texto se puede seleccionar y el hecho de que se pueda seleccionar indica que cualquier programa de extracción de texto, sea gratuito o no, puede extraer el texto sin ningún problema. En el segundo caso el archivo PDF solo nos permite seleccionar un área del documento, pero no una parte del texto en sí, por lo que un programa de extracción de texto tampoco sabrá reconocer los caracteres presentes en el documento.
Puedes intentarlo con cualquier programa de extracción de texto, todos te ofrecerán resultados parecidos.
Ahora bien, de la multitud de programas de extracción de textos que hay hoy en día en el mercado, los que marcan la diferencia a la hora de convertir archivos PDF no editables son los programas de extracción OCR. OCR son las siglas en inglés de “Optical character recognition”, lo que en español sería el “Reconocimiento óptico de caracteres”. Como su nombre ya indica estos programas no solo reconocen los caracteres editables de un documento, sino que saben detectar texto en un documento escaneado, por ejemplo.
Y me dirás. Muy bien, pues ya hemos terminado. No tan de prisa… porque por muy buenos que sean estos programas aun dejan mucho que desear. Sí que es cierto que te pueden dar una idea aproximada del volumen de trabajo, pero no conviene trabajar con ellos a la hora de traducir.
A continuación, puedes consultar los resultados obtenidos con diferentes programas de extracción de texto.
2. Adobe Acrobat Pro DC
El primer programa que me gustaría presentar es Adobe Acrobat Pro DC. Si acostumbras a trabajar con el ordenador, es un programa que no debería faltar en tu lista de herramientas, ya que Adobe no solo te permite visualizar, sino también crear, editar, organizar las páginas, comentar, rellenar, firmar y corregir cualquier documento en formato PDF.
Además, también permite extraer el texto y es bastante práctico, ya que cuando recibo un documento en formato PDF y lo abro se abre directamente en este programa y extraer el texto son dos clics más. Vamos que suele ser el primero con el que pruebo siempre.
Tomando como referencia el documento no editable que has visto en el ejemplo de arriba, es así como quedaría la conversión en Adobe Acrobat Pro DC:
Sí, sí, no te engaño. Un programa tan potente como este da unos resultados pésimos a la hora de extraer texto redactado en árabe.
Creo que uno de los motivos puede ser el hecho de que no se pueda indicar en qué idioma está redactado el texto, sino que el programa lo “reconoce” automáticamente. Facilitándole el trabajo de detección del idioma al programa, el programa solo busca en su base de datos de caracteres de X idioma en lugar de la base de datos en la que se encuentran los caracteres de todos los idiomas.
Sea como sea no recomiendo este programa para nada a la hora de extraer texto redactado en árabe.
3. OmniPage Ultimate
La segunda aplicación con la que suelo probar después de haber fracasado en la extracción de texto con Adobe es la aplicación OmniPage Ultimate.
A diferencia de Adobe, OmniPage sí que permite seleccionar el idioma del documento con un simple clic derecho sobre el archivo. ¿Cuál es el problema entonces? Que en la lista de idioma no aparece el árabe. Aparece el wolof y el zulu pero no al árabe. En estos casos puedes intentar utilizar la opción de “Detectar el idioma automáticamente” y obtendrás este resultado:
Como puedes comprobar tampoco es lo que estamos buscando, aunque he de admitir que tanto Adobe como OmniPage funcionan de maravilla en la extracción de texto en otros idiomas.
3. Readiris 17
La tercera opción para extraer nuestro texto redactado en árabe y convertirlo en un formato editable es Readiris 17.
Se trata de un programa un poco más sofisticado que Adobe y OmniPage para la extracción de texto redactado de derecha a izquierda, como es el caso del árabe. El programa te permite indicar en cada una de las páginas qué sección se corresponde con texto, qué sección con imágenes, etc.
Si que es cierto que lleva un poco más de tiempo de preparación en comparación con otros programas que no ofrecen está opción de selección en página, pero viendo el resultado es evidente que el esfuerzo vale la pena:
Ofrece mejores resultados que los de los dos programas anteriores, aunque para documentos más largos aun se queda corto, ya que acostumbra a insertar muchos saltos de párrafo que no aparecen en el documento original a parte de otras inconsistencias en el formato que traen bastante trabajo de maquetación consigo.
4. ABBYY FineReader
El último programa que me gustaría presentar y que, en mi opinión es el mejor programa para extraer texto no editable redactado en árabe es ABBYY Fine Reader.
Se trata de un programa de pago, como todos los demás que he presentado en este blog que te permite indicar página por página que secciones son texto, qué secciones incluyen imágenes y qué secciones son tablas de texto.
Dependiendo de lo exacto que seas en tus indicaciones el programa te generará un documento más o menos preciso. Yo no modifiqué gran cosa y el resultado fue el siguiente:
Comparado con el documento original podemos decir que son casi idénticos:
A la hora tanto de presupuestar como de traducir este documento obtendremos resultados mucho más precisos que con cualquier otro programa de los que has podido conocer en este blog. Así que para mí ABBYY es el claro ganador en cuanto a la extracción de texto no editable redactado en árabe.
5. Conclusión
Como has podido ver, no todos los programas que permiten extraer el texto de archivos en formato no editable ofrecen los mismos resultados, por lo menos cuando se trata de texto redactado en árabe. Trabajo a menudo con todos estos programas y salvo que se trate de un formato realmente problemático con un idioma poco común de por medio, no suelen dar ningún tipo de problema. ¡Todo lo contrario!
No recomiendo el uso de extractores de texto gratuitos, ya que nunca se puede saber donde van a parar nuestros archivos. Si se trata de un documento de uso privado no confidencial no tiene más importancia, pero sí evitaría subir archivos importantes de tu empresa que contengan información confidencial a estas páginas de uso gratuito.
Espero haberte mostrado un poco el día de día de los gestores de proyectos de traducción en su incansable lucha contra los archivos PDF escaneados. La próxima vez que te manden un PDF para traducir, pregunta primero a ver si tu empresa aun dispone del formato original del archivo, de este modo no solo reducirás costes, sino que el formato final de la traducción también va a quedar mucho mejor. ¡Por no hablar del inmenso favor que nos haces a los gestores de proyectos!
Comentarios
Añadir nuevo comentario