google_vision_ocr
Google Cloud Vision OCR es un servicio cloud de alta precisión para extracción de texto. Se usa exclusivamente como fallback cuando los motores self-hosted (PaddleOCR, EasyOCR) fallan o devuelven confianza muy baja.
When to use
Usar en el ocr_agent solo cuando todos los motores self-hosted devuelven confianza < 0.5 en los campos críticos. Nunca como motor primario para mantener la independencia de servicios externos.
Instructions
- Instalar:
pip install google-cloud-vision. - Configurar service account: exportar
GOOGLE_APPLICATION_CREDENTIALS. - Enviar imagen cifrada al API:
client.text_detection(image=vision_image). - Parsear respuesta:
response.text_annotations[0].descriptionpara texto completo. - Mapear coordenadas de bounding boxes a los campos del documento.
- Aplicar
regex_data_normalizera los resultados igual que con OCR self-hosted. - Registrar en auditoría que se usó fallback cloud (para métricas de dependencia).
Notes
- Coste: ~$1.50 por 1000 imágenes; monitorizar uso para control de costes.
- Las imágenes se envían a servidores de Google; verificar compliance GDPR antes de activar.
- Implementar circuit breaker: si Google Vision falla 3 veces seguidas, desactivar temporalmente.