Subscríbase al boletin de noticias de OpenKM para estar informado

Extracción automática de palabras clave

Ana Canteli

Escrito por Ana Canteli el 3 de abril de 2019

La sumarización automática, es el proceso por el que un software consigue resumir un documento que condense el contenido de dicho escrito. Las soluciones tecnológicas capaces de crear resúmenes válidos tienen en cuenta variables como la longitud, el estilo o la sintaxis.

La extracción automática de palabras clave es uno de los 2 enfoques principales en materia de sumarización automática, que pivotan entre la extracción y la abstracción. Los métodos extractivos se centran en la selección de un conjunto de palabras u oraciones del texto original para crear el resumen. Mientras que los métodos abstractivos construyen una representación semántica interna, para la que es necesaria el uso de técnicas de generación de lenguaje natural, para crear un resumen lo más parecido posible a lo que un humano podría redactar. En este artículo, nos dedicaremos al enfoque extractivo, que es una técnica muy utilizada hoy en día; los motores de búsqueda son sólo un ejemplo.

Las palabras clave o las frases clave son ampliamente utilizadas en la gestión de grandes repositorios documentales. Son capaces de describir el contenido de archivos y proporcionan metadatos semánticos útiles para multitud de objetivos o propósitos. En el caso de contenidos académicos, los autores incluyen manualmente una selección de palabras clave que representan el contenido del artículo, que ayuda a la recuperación de información. Para ello, la identificación de vocablos relevantes dentro de un conjunto de documentos, es esencial para poder indexar los contenidos; con el objetivo de orientar al usuario en la búsqueda de información y mejorar su experiencia tanto de búsqueda, como de recuperación de contenidos. A esta tarea se la llama indexación por palabras clave. Sin embargo la mayor parte de textos carecen de esta información, de ahí que la extracción automática de palabras clave se haya convertido en esencial, en un mundo en el que se crea información y documentación de forma exponencial.

Los usuarios de la red utilizamos diariamente motores de búsqueda, tales como google o bing entre otros. Probablemente sin darnos cuenta que, cuando realizamos consultas en los buscadores; en realidad estamos realizando consultas sobre información que previamente ha sido analizada y en la cual se ha identificado previamente cual es el asunto del que trata.

Los motores de búsqueda, cuentan con potentes algoritmos de machine learning (inteligencia artificial) que aplican la minería de datos (big data). Éstos, utilizan los algoritmos para identificar, filtrar y evaluar qué palabras clave son relevantes en función del tipo de búsqueda; lo cual permite hacerse una idea del contenido, lo que a su vez ayuda a acceder a él.

En definitiva, el proceso mediante el cual los motores de búsqueda - que utilizan millones de usuarios diariamente - establecen el asunto de una página web en la forma de palabras clave y frases es una parte crítica del proceso de indexación, que posteriormente nos ayudará a localizar la información mediante los buscadores.

Una correcta indexación facilitará la identificación y localización de la información de forma inmediata cumpliéndo así con los dos objetivos principales del proceso:

  • proporcionar un mecanismo para identificar y localizar la ubicación informacion

  • ahorro de tiempo

Para las organizaciones, supone una importante inversión en recursos humanos, tiempo y dinero organizar, clasificar y facilitar la recuperación de la información en el seno de la entidad. Por ello la extracción de palabras clave es parte de la solución para la mejor gestión de la información en las empresas.

El sistema de gestión documental de OpenKM proporciona el entorno adecuado en el que la gestión de datos e información se incorpora de forma transparente a los procesos de negocio. Cuando introducimos un documento en el gestor documental, el sistema automáticamente va a someter al archivo a un proceso de extracción de texto. El software, que a través de un API REST incluye el servicio de sumarización automática KEA (Keyphrase Extraction Algorithm ) es capaz identificar y extraer las palabras clave significativas del documento. Además, este servicio de sumarización, nos permitirá elegir e implementar el modelo de extracción de palabras clave que más nos interese.

La extracción automática de palabras clave puede ser utilizada en diversas etapas de la gestión documental:

  • Clasificación de documentos: OpenKM permite la asignación de categorías a los documentos, registros, carpetas y correos electrónicos (incluidos los archivos adjuntos) de forma simultánea al sistema de archivo seleccionado. Por ejemplo, podemos organizar el directorio de carpetas por orden alfabético. Pero a su vez, asignar la categoría Tipo de documento, Departamento, Proyecto o Localidad, a la documentación guardada en una taxonomía organizada alfabéticamente. Esto nos proporciona una navegación alternativa sobre el repositorio de documentos. Desde el menú categorías, podemos desplazarnos entre la documentación utilizando este criterio. Y en el motor de búsqueda podemos buscar toda la documentación relacionada con el departamento de marketing y ventas y el sistema nos proporcionará todos los contenidos que cumplan esta condición, con independencia de su ubicación en el repositorio.

  • Indexación de documentos: la extracción automática de palabras clave asignará automáticamente términos de indexación para facilitar su recuperación. Los términos que proceden del cuerpo del documento, describen el contenido indexado. El buscador del gestor documental permite recuperar información basada en la asignación de las palabras clave. Y a través de la funcionalidad Nube de Palabras Clave, podremos ver el conjunto de términos del repositorio, a qué nodos están vinculados ( las palabras clave pueden indexar, expedientes, carpetas, documentos de todo tipo, e-mails…) y combinarlos para obtener diferentes conjuntos de contenidos. Si por ejemplo selecciono la palabra clave Cliente_A, el sistema de gestión documental me mostrará todos los contenidos relacionados con este cliente. Si selecciono la palabra clave Cliente_A + la palabra clave Factura, del conjunto de facturas almacenadas en el gestor, el sistema me mostrará sólo las facturas del cliente A.

  • Tesauros: En OpenKM es posible crear y compilar tesauros; son listas de palabras o términos controlados, que se utilizan para representar conceptos del ámbito al que pertenecen los archivos. Los tesauros están íntimamente relacionados con la web semántica. Se conoce como web semántica al conjunto de actividades desarrolladas por el W3C para la creación de contenidos estructurados de forma que puedan ser procesados por máquinas ( hoy día gran parte de la información en la red es información desestructurada). Pues bien, los tesauros contienen un lenguaje documental formado por términos normalizados y la relaciones semánticas y funcionales que se establencen entre estos términos. Las relaciones semánticas pueden ser de equivalencia, asociación o jerarquía. Los tesauros son muy útiles para la recuperación de información en repositorios documentales cerrados.

Encontrarán más información sobre la sumarización automática y la extracción automática de palabras clave en la documentación de OpenKM y en http://community.nzdl.org/kea/index.html

Contacto

CAPTCHA ImageRefresh Image

Consultas generales

Open Document Management System S.L.