Traducir documentos PDF escaneados con traducción de documentos

Teléfono utilizado para capturar la imagen del documento.

La función de traducción de documentos de Translator, parte de Microsoft Azure Cognitive Service, ha agregado la capacidad de traducir documentos PDF que contienen contenido de imágenes escaneadas, lo que elimina la necesidad de que los clientes los procesen de manera previa a través de un motor de OCR antes de la traducción.

La traducción de documentos estuvo disponible de forma general el año pasado, el 25 de mayo de 2021, lo que permitió a los clientes traducir documentos completos y lotes de documentos a más de 110 idiomas y dialectos, mientras se conserva el diseño y el formato del archivo original. La traducción de documentos admite una variedad de tipos de archivos, incluidos Word, PowerPoint y PDF, y los clientes pueden usar modelos de traducción automática prediseñados o personalizados. La traducción de documentos está lista para la empresa con la autenticación de Azure Active Directory, lo que brinda acceso seguro entre el servicio y el almacenamiento a través de Managed Identity.

La traducción de archivos PDF con contenido de imágenes escaneadas es una función muy solicitada por los clientes de traducción de documentos. A los clientes les resulta difícil segregar documentos PDF que tienen texto regular o contenido de imágenes escaneadas a través de la automatización. Esto crea problemas de flujo de trabajo ya que los clientes tienen que enrutar documentos PDF con contenido de imagen escaneada primero a un motor de OCR antes de enviarlos a traducción de documentos.

Los servicios de traducción de documentos ahora tienen la inteligencia

  • para identificar si el documento PDF contiene contenido de imagen escaneada o no,
  • para enrutar archivos PDF que contienen contenido de imagen escaneada a un motor de OCR internamente para extraer texto
  • para reconstruir el contenido traducido como texto PDF normal mientras se conserva el diseño y la estructura originales.

El formato de fuente como negrita, cursiva, subrayado, resaltado, etc. no se conservan para el contenido PDF escaneado, ya que, en la actualidad, la tecnología OCR no los captura. Sin embargo, el formato de fuente se conserva al traducir documentos PDF de texto normal.

En la actualidad, la traducción de documentos admite documentos PDF que contienen imágenes escaneadas de 68 idiomas de origen a 87 idiomas de destino. A su debido tiempo, se agregará soporte para idiomas de origen y de destino adicionales.

Ahora es más fácil para los clientes enviar todos los documentos PDF a Traducción de documentos de manera directa y dejar que decida cuándo y cómo usar el motor de OCR de manera eficiente.

Para los clientes que ya utilizan la traducción de documentos, no es necesario cambiar el código para poder utilizar esta nueva función. Los documentos PDF con contenido escaneado se pueden enviar para su traducción como cualquier otro formato de documento compatible.

También nos complace anunciar que la traducción de documentos agrega soporte para contenido de documentos PDF escaneados sin cargos adicionales para los clientes. Hay dos planes de precios disponibles para la traducción de documentos a través de Azure: el plan de pago por uso y el plan de descuento por volumen D3 para mayores volúmenes de traducción de documentos. Los detalles de precios se pueden encontrar en aka.ms/TranslatorPricing.

Obtengan información sobre cómo comenzar con la traducción de documentos aka.ms/DocumentTranslationDocs.

Envíen sus comentarios a [email protected].

Tags: , , , ,

Publicaciones Relacionadas