El procesamiento del lenguaje natural es tan antiguo como la misma informática. En Serimag comprendemos los documentos para procesarlos de forma natural gracias a tecnologías NLP (Natural Language Processing).

Desde los inicios del hombre, algo le ha diferenciado del mundo animal: el lenguaje. Pero con los avances tecnológicos llegaron las máquinas, y con ellas, la necesidad de establecer una relación hombre-máquina que no siempre ha sido ni fácil ni trivial. Nuestro anhelo por querer comunicarnos de forma natural con ellas es tan antiguo como la propia informática. El Tratamiento del Lenguaje Natural (NLP, de sus siglas en inglés Natural Language Processing) es el intento de superar esas barreras para que exista comprensión.

En los inicios era inevitablemente unidireccional. Disponíamos de las herramientas necesarias para que las máquinas nos entendieran: un botón que accionaba una respuesta, una primitiva búsqueda en Google, o incluso los mismos lenguajes de programación son ejemplos de ello. Con el tiempo, ha aparecido la bidireccionalidad: máquinas que nos hablan, chatbots con los que entablar una conversación, etc. De hecho, el uso del NLP ha evolucionado, se ha extendido y lo usamos en nuestro día a día casi sin darnos cuenta: la corrección ortográfica en los procesadores de texto, los teclados predictivos de los smartphones, las búsquedas cada vez más inteligentes de Google o incluso las sugerencias de compras que Amazon nos brinda. En todos ellos hay una comprensión del lenguaje humano por parte de las máquinas en mayor o menor medida.

Las técnicas que se esconden detrás del NLP trabajan sobre los conceptos y las relaciones que se establecen entre ellos. El avance de la Inteligencia Artificial, y más concretamente del Machine Learning (ML), ha dado un empuje al procesado de toda esta información. Unas primeras fases se encargan de digerir toda la información:

  • Reconocimiento óptico de caracteres (OCR), que convierten imágenes en texto plano.
  • Eliminación de palabras poco relevantes
  • Reducción de palabras a su lexema
  • Reducción semántica de la información
  • Expresiones regulares que convierten palabras en datos concretos
  • Sistemas predictivos (N-gram, por ejemplo)

Estas técnicas lo que pretenden es reducir la información a procesar. Pero por otra parte, existen técnicas de expansión, donde métodos piramidales detectan entidades (nombre, verbo, etc.) y multiplican sus vínculos relacionándolos entre sí hasta dotarlos de sentido.

En Serimag contamos con un equipo de investigación NLP junto con el departamento TALP de la UPC desde hace años. Esta colaboración ha sido enfocada hacia los procesos de grabación de datos en los BPOs (Business Process Outsourcing), los cuales se han beneficiado al incorporar lo que le hemos llamado una capa de captura de datos asistida. Con ella, el sistema es capaz mediante Inteligencia Artificial de localizar, ordenar y priorizar los datos necesarios en los documentos para mostrarlos al usuario de forma destacada y éste pueda realizar la operación correspondiente de una forma mucho más eficiente. En el procesado de escrituras, nuestra solución TAAD es capaz de reconocer más de 50 campos diferentes, entre datos identificativos de la persona, localizar direcciones postales, datos de operaciones hipotecarias, etc. O en la asistencia a los equipos de morosidad también trabaja sobre notas simples para el registro de la propiedad. Estas, pese a ser un documento común con una estructura más o menos simple, esconde una gran complejidad puesto que cada registrador las redacta con sus propios matices. Responder a preguntas como “¿la vivienda está embargada?”, “¿por quién?”, “¿de cuánto valor?” no son triviales. O pretender localizar de cuántos metros cuadrados es una propiedad requiere de una comprensión exhaustiva del texto ya que su definición puede estar dividida a lo largo del documento por sus diferentes conceptos.

Esquema NLP en TAAD
Esquema básico de TAAD para el procesado documental

Por todo ello queda patente el uso del NLP en nuestro día a día. En los últimos tiempos, los chatbots están protagonizando grandes avances y atraen multitud de titulares. Pero el NLP va más allá de una conversación entre un hombre y una máquina. Su evolución también pasa, por ejemplo, por los sistemas de detección de emociones o de recomendaciones. En Serimag también nos sumamos a esta evolución y creemos que nuestro siguiente paso en nuestros procesos documentales debe estar en encontrar la relación que se establece entre los documentos. Siendo capaces de entender qué es lo que dice un documento, lo siguiente es ser capaces de comprender su correlación con otros documentos de manera que podamos segmentar documentación de una forma más exacta y natural, tal y como lo haría una persona humana.