En el ámbito empresarial, los documentos en formato PDF son ampliamente utilizados debido a su conveniencia en los procesos comerciales. Sin embargo, muchos de estos PDFs se crean mediante escaneo o conversión de imágenes, lo que resulta en documentos donde el texto no es digital y, por lo tanto, no se puede buscar. En esta publicación, te mostraremos cómo convertir esos PDFs en documentos PDF buscables utilizando un código simple y la poderosa herramienta Azure Form Recognizer.
Descripción general de Azure Form Recognizer
Azure Form Recognizer es un servicio de inteligencia artificial aplicada en la nube de Azure que utiliza modelos de aprendizaje profundo para extraer texto, pares clave-valor, tablas y campos de formulario de tus documentos. En esta guía, utilizaremos el texto extraído por Form Recognizer para agregarlo a un PDF, convirtiéndolo así en un documento searchable.
PDFs Buscables vs. no Buscables
La diferencia crucial radica en la presencia de información de texto en el PDF. Un PDF searchable permite seleccionar, copiar/pegar y resaltar el texto, mejorando la experiencia del usuario. En contraste, en un PDF no searchable basado en imágenes, el texto no se puede buscar ni seleccionar.
Cómo Generar un PDF Buscable
La clave está en agregar elementos de texto invisible al PDF, lo que permite la búsqueda y selección de estos elementos. Estos textos invisibles garantizan que el PDF buscable se vea idéntico al PDF original. En el ejemplo proporcionado, la palabra "Transición" ahora es seleccionable gracias a esta capa de texto invisible.
Instalación y Ejecución del Script
Antes de ejecutar el script para generar PDFs buscables, asegúrate de instalar los siguientes paquetes de Python:
pip install azure-ai-formrecognizer pypdf2>=3.0 reportlab pillow pdf2image
Además, el paquete pdf2image requiere la instalación de Poppler. Sigue las instrucciones según tu plataforma o utiliza Conda install:
conda install -c conda-forge poppler
Ahora, crea un archivo Python con el siguiente código y guárdalo localmente como fr_generate_searchable_pdf.py
. Asegúrate de actualizar las variables de clave y endpoint con los valores de tu instancia de Form Recognizer en el portal de Azure.
# [Insertar Código Python]
Ejecuta el script con el siguiente comando:
python fr_generate_searchable_pdf.py <input.pdf/jpg>
El resultado será un PDF searchable con el sufijo .ocr.pdf
.
Conclusión
Generar PDFs buscables con Azure Form Recognizer no solo facilita la búsqueda y selección de texto, sino que también mejora la accesibilidad y la eficiencia en el manejo de documentos empresariales. Implementa este sencillo script en tu flujo de trabajo y experimenta la transformación de tus PDFs escaneados en documentos digitalmente inteligentes y fácilmente accesibles.
No esperes más para optimizar tus documentos y aprovechar al máximo las capacidades de Azure Form Recognizer. ¡Convierte tus PDFs en herramientas poderosas para tu empresa hoy mismo!