OCR gratis con IA Local: digitaliza facturas sin límites ni suscripciones

OCR local con IA funciona en tu propio ordenador, sin límites de uso, sin suscripciones y sin que tus documentos salgan de tu PC. GLM-OCR, un modelo de 2 GB, extrae texto de imágenes y facturas con precisión comparable a servicios de pago.

ChatGPT gratis limita el reconocimiento de imágenes a 2-3 al día. Gemini de pago falla con documentos en español. Hay una tercera opción: un modelo de visión que corre en local, procesa las imágenes que quieras y mantiene tus datos completamente privados. Este artículo explica cómo instalarlo y usarlo desde el primer día.

Por qué el OCR con IA online tiene límites que el local no tiene

OCR local con IA no tiene límite de uso porque el modelo corre en tu hardware, no en servidores externos.

Las herramientas online atrapan en una dicotomía: o tienes calidad con límites estrictos, o tienes cantidad con errores inexplicables. ChatGPT hace un trabajo brillante pero corta el acceso tras 2-3 imágenes al día. Gemini, incluso de pago, no reconoce información que está claramente visible en la imagen.

Las alternativas online tienen 3 problemas concretos para un solopreneur que procesa documentos a diario:

ChatGPT (plan gratuito) permite adjuntar 2-3 imágenes por día. Con una facturación mensual de 20-30 documentos, el límite se alcanza en el primer día de uso intensivo.
Gemini de pago procesa imágenes, pero comete errores frecuentes con texto en español, especialmente en facturas con formatos no estándar.
Soberanía de datos: cualquier imagen que subes a ChatGPT, Gemini o Claude.ai se envía a servidores externos. Si el documento contiene datos de clientes o cifras de negocio, estás cediendo el control de información sensible.

OCR local elimina los tres problemas simultáneamente.

Qué es GLM-OCR y por qué es el mejor modelo para esta tarea

GLM-OCR es un modelo de visión especializado en reconocimiento óptico de caracteres, desarrollado por Zhipu AI, que pesa 2 GB y funciona en casi cualquier ordenador de los últimos 5 años.

A diferencia de modelos de propósito general como Llama o Mistral, GLM-OCR está entrenado específicamente para extraer texto de imágenes. Esta especialización produce resultados más limpios y estructurados que los modelos multimodales generalistas, especialmente con documentos que tienen maquetación compleja: facturas, tickets, formularios escaneados o capturas de pantalla.

Requisitos mínimos para correr GLM-OCR:

2 GB de espacio en disco
8 GB de RAM (recomendado: 16 GB para velocidad óptima)
Ollama o LM Studio instalado
macOS, Windows o Linux

Cómo instalar GLM-OCR con Ollama en 2 pasos

GLM-OCR se instala con Ollama en 2 pasos sin configuración adicional.

Paso 1: Instalar Ollama Desktop

Descarga Ollama desde ollama.com. Es gratuito y compatible con macOS, Windows y Linux. El instalador configura automáticamente el servidor local en localhost:11434.

Paso 2: Descargar GLM-OCR

Abre el Terminal y ejecuta:

ollama run glm-ocr

Ollama descarga el modelo (2 GB) en el primer inicio. A partir de ahí, el modelo queda disponible sin conexión a internet.

Cómo usar GLM-OCR para digitalizar una factura

OCR con GLM-OCR funciona con un solo comando de texto: adjuntar la imagen al chat y escribir Text Recognition:.

El flujo completo tiene 3 pasos:

Abrir un hilo nuevo en Ollama Desktop o LM Studio (ver el truco clave más abajo)
Adjuntar la imagen de la factura, ticket o documento
Escribir exactamente: Text Recognition:

El modelo devuelve el texto extraído de la imagen, manteniendo la estructura original cuando es posible: importes, fechas, nombres de empresa y conceptos aparecen en el orden en que están en el documento.

Ejemplo con una factura

Imagen adjuntada: factura de proveedor con NIF, importe, fecha y concepto.

Comando: Text Recognition:

Resultado: el modelo extrae el NIF del emisor, el importe total, la fecha de emisión y el desglose de conceptos en texto plano, listo para copiar a una hoja de cálculo o introducir en un sistema de contabilidad.

El truco clave: por qué debes usar siempre un hilo nuevo

OCR con GLM-OCR falla cuando la imagen se adjunta en una conversación con mensajes previos. El modelo necesita un contexto limpio para procesar correctamente la imagen.

Este comportamiento ocurre en Ollama Desktop y en LM Studio. La solución es siempre la misma: abrir un hilo nuevo antes de adjuntar cualquier imagen. Con un hilo nuevo, el reconocimiento es preciso. Con una conversación ya iniciada, el modelo puede ignorar la imagen o producir resultados incompletos.

Regla práctica: un documento = un hilo nuevo.

Ollama vs LM Studio: cuál es mejor para OCR

LM Studio es más rápido que Ollama para OCR y formatea mejor el resultado cuando el documento tiene estructura compleja.

La diferencia en velocidad es perceptible: en un MacBook Pro M2, LM Studio procesa una imagen de factura en aproximadamente 4-6 segundos. Ollama tarda entre 8-12 segundos con la misma imagen y el mismo modelo.

La diferencia en formato también es relevante: LM Studio tiende a devolver el texto con saltos de línea que respetan la estructura del documento original. Ollama a veces colapsa el texto en un bloque continuo, lo que requiere edición manual posterior.

Criterio	Ollama	LM Studio
Velocidad de OCR	Media	Alta
Formato del resultado	Básico	Estructurado
Interfaz	Minimalista	Completa
Integración con API	Sí (puerto 11434)	Sí (compatible OpenAI)
Compatibilidad modelos	Amplia	Amplia
Curva de aprendizaje	Baja	Media

Cuándo usar Ollama: si ya lo tienes instalado para otros modelos y buscas la solución más rápida de configurar.

Cuándo usar LM Studio: si procesas documentos con frecuencia y necesitas resultados más limpios sin edición posterior.

Casos de uso reales de OCR local con IA

OCR local con IA resuelve 4 casos de uso frecuentes en la gestión de un negocio sin necesidad de software especializado.

1. Digitalización de facturas de proveedor

Adjuntar la foto de una factura en papel o PDF escaneado y extraer NIF, importe, fecha y concepto en texto plano. Tiempo: menos de 10 segundos por factura.

2. Extracción de datos de tickets de gastos

Fotografiar tickets de gasolina, comidas o material de oficina y extraer el importe, el comercio y la fecha para registro contable. Útil cuando el volumen de tickets hace inviable introducirlos manualmente.

3. Transcripción de documentos escaneados

Convertir contratos, presupuestos o formularios en papel escaneados a texto editable. Especialmente útil con documentos antiguos que no tienen versión digital.

4. Lectura de capturas de pantalla

Extraer texto de capturas de pantalla de PDFs protegidos, imágenes de WhatsApp con información relevante o capturas de pantalla de conversaciones que necesitas archivar en texto.

Uso avanzado: automatizar carpetas con Python (sin programar tú)

OCR local con Ollama se puede automatizar mediante Python para procesar carpetas enteras de documentos sin intervención manual.

El flujo automatizado funciona así:

Una carpeta monitorizada recibe imágenes (facturas escaneadas, tickets fotografiados, etc.)
Un script de Python llama a la API de Ollama (disponible en localhost:11434)
El modelo procesa cada imagen y devuelve el texto extraído
El resultado se guarda en un archivo de texto o se inserta en una hoja de cálculo

La API de Ollama es compatible con el formato de OpenAI, lo que significa que cualquier script diseñado para GPT-4 Vision funciona con GLM-OCR cambiando únicamente la URL del endpoint y el nombre del modelo.

Un solopreneur sin conocimientos de programación puede pedir a Claude Code que genere el script completo, indicando la carpeta de entrada, la carpeta de salida y el formato del archivo resultante.

Resumen: OCR gratis con IA local en 60 segundos

OCR local con IA funciona con 3 herramientas gratuitas: GLM-OCR (el modelo), Ollama o LM Studio (el entorno de ejecución) y tu propio ordenador (el servidor).

El proceso completo:

Instalar Ollama desde ollama.com o LM Studio desde lmstudio.ai
Descargar GLM-OCR: ollama run glm-ocr (2 GB, una sola vez)
Abrir un hilo nuevo, adjuntar la imagen y escribir Text Recognition:

Sin límites de uso. Sin suscripción. Sin que tus documentos salgan del ordenador.

OCR local con GLM-OCR es el primer paso para dejar de ser un usuario de herramientas y convertirse en dueño de sistemas. Pasar la inteligencia al edge — tu propio dispositivo — significa que el procesamiento ocurre donde están los datos, no donde está la nube.

Preguntas frecuentes sobre OCR local con IA

¿GLM-OCR funciona con documentos en español?

GLM-OCR reconoce texto en español con alta precisión. El modelo está entrenado con datos multilingües y maneja correctamente caracteres como tildes, eñes y signos de puntuación específicos del español.

¿Necesito conexión a internet para usar GLM-OCR?

No. Una vez descargado el modelo, GLM-OCR funciona completamente offline. La conexión a internet solo es necesaria para la descarga inicial de los 2 GB.

¿Cuántas imágenes puedo procesar al día?

Sin límite. El único límite es el rendimiento de tu hardware. Con un ordenador de uso normal (16 GB de RAM, procesador de los últimos 4 años), puedes procesar decenas de documentos al día sin degradación de rendimiento.

¿Funciona en Windows?

Sí. Tanto Ollama como LM Studio son compatibles con Windows, macOS y Linux. En Windows, Ollama funciona de forma nativa sin necesidad de WSL.

¿Es seguro para documentos con datos de clientes?

Sí. Los documentos no salen del ordenador en ningún momento. No hay envío de datos a servidores externos, no hay registro de imágenes en la nube y no hay política de uso de datos de terceros que aplicar. Es la opción más privada para procesar documentación sensible.