El procesamiento inteligente de documentos (IDP) esta viviendo una transformacion radical impulsada por los avances en modelos multimodales y large language models.
Los modelos multimodales como GPT-4V y Gemini estan cambiando las reglas del juego al poder procesar imagenes y texto de forma conjunta, sin necesidad de pipelines de OCR separados.
El zero-shot learning es otra tendencia clave. En Serimag hemos observado que esta capacidad reduce el time-to-production de semanas a dias.