Free Web space and hosting from latinowebs.com
Search the Web

Introducción a la extracción de información.

Hoy en día existe un gran volumen de textos en formato electrónico dispersos por internet. De hecho, el volumen es tan grande que sobrepasa la capacidad de una persona para obtener información útil. Este hecho hace imperativo poner algo de orden en este caos de textos. Para poder hacerlo encontramos dos estrategias: La primera sería la recuperación de la información y la segunda sería la extracción de la información. Debemos tener en cuenta que estas dos estrategias son diferentes.

La recuperación de la información se refiere al hecho de obtener documentos ante una solicitud de búsqueda.

La extracción de la información, por el contrario se basa en la extracción de hechos de distintos documentos ante una solicitud de búsqueda.

Para poder crear un sistema de extracción de información, primero un sistema de recuperación de la información obtiene documentos con información significativa respecto a la solicitud de búsqueda y a continuación el sistema de extracción de información extrae y organiza la información que sea de interés.

El objetivo de los sistemas de extracción de información es obtener la información relevante e ignorar la irrelevante.

La extracción de información tiene muchas aplicaciones potenciales, desde traslación de información no estructurada a bases de datos tradicionales, detección de tendencias hasta la mejora en la construcción de índices para la recuperación de la información.

A largo plazo se contempla un objetivo básico: conseguir sistemas de extracción de información precisos, teniendo en cuenta que en la actualidad, los sistemas de extracción de información sólo trabajan con algunos tipos de textos y no son muy precisos.

Sistemas de extracción de información.

Un SEI (Sistema de Extracción de Información), típicamente extrae informaciones sobre entidades, relaciones y eventos a partir de los documentos existentes en un dominio restringido.

La filosofía de trabajo de los SEI se basa en la aplicación de un conjunto de reglas construidas, tanto manual como automáticamente, para identificar las referencias a la información que nos interesa dentro de una serie de textos y proporcionar una representación simbólica de la misma. Estas reglas están basadas en aspectos del vocabulario, de la semántica y del estilo de escritura propios de cada dominio [Soderland, 1997]. Por esto la utilización de técnicas para el procesamiento del lenguaje natural y el uso de conocimiento relacionado con el dominio en que se está trabajando son de vital importancia para la construcción de un SEI.

Pongamos un ejemplo. A partir de un conjunto de noticias sobre cambios de puestos de direcivos en empresas, podría interesar rellenar una fichas incluyendo datos de cada evento de un cambio de una persona en un puesto dado. De modo que a partir del siguiente texto:

"Luis López deja el puesto de vicepresidente de Empresa S.A. el 4 de marzo de 2005. Él será sustituido por Marta Pérez."

Un buen sistema de extracción de información debe ser capaz de deducir que Luis López y Marta Pérez son personas, 4 de marzo de 2005 es una fecha y que Empresa S.A es una organización. Esta primera tarea, que consiste en identificar entidades de diferentes tipos en el texto, se denomina Named Entity Recognition.

Además debe ser capaz de solucionar anáforas. En el ejemplo, existen dos eventos: dejar un puesto y tomar otra persona el mismo puesto.Nótese que, para saber que se refieren al mismo evento, puede ser necesario realizar la resolución de anáfora, descubriendo que el pronombre Él en la segunda frase se refiere a Luis López.

Hoy en día existen unas conferencias llevadas a nivel global conocidas como MUC (Message Understanding Conferences) que tratan de evaluar el estado del arte de los SEI. Los organizadores de dichas conferencias proveen un dominio de aplicación para los sistestemas de extracción de información además de definir las reglas de las tareas de la extracción. De hecho, han creado un dominio de aplicación con un corpus de textos etiquetados con la información a extraer y un conjunto de textos para evaluar las aplicaciones de extracción de información de las organizaciones que quieran participar en dichas conferencias.

En el MUC se ha optado por la utilización de plantillas atributo-valor para la evaluación de los SEI. De esta manera, se puede comprobar la exactitud del sistemas comparando las salidas del sistema de extracción de información con unas plantillas que han sido rellenadas manualmente.

En cada conferencia se presenta un dominio sobre el cual los sistemas compiten para ver cuál logra los mejores resultados, según las especificaciones impuestas en la tarea de extracción de información. Los dominios presentados en los MUCs hasta 1997 han sido: textos sobre operaciones navales [MUC-1, 1987 y MUC-2, 1989], noticias sobre actividades terroristas [MUC-3, 1991 y MUC-4, 1992], noticias sobre microelectrónica y fusión de corporaciones [MUC-5, 1993], artículos sobre sucesión de puestos en compañías importantes [MUC-6, 1995], artículos sobre vehículos espaciales y lanzamiento de misiles [MUC-7, 1997]. [Appelt and Israel, 1999]

Aplicaciones de los sistemas de extracción de información.

Las aplicaciones de los sistemas de extracción de información es un campo muy amplio dado que en toda área profesional donde se maneje información (industrias, empresas, organismos públicos, etc.) pueden resultar muy útiles.

Los sistemas de extracción de información pueden dotar de contenido semántico toda aquella información que existe hoy en día en ficheros en formato digital. Esto significa una verdadera revolución para todas las tecnologías de la información tal y como los conocemos. Hoy por hoy la información publicada está totalmente vacía de un segundo sentido. Es decir, es el mismo usuario que utiliza la información el que la dota de sentido. Con los SEI, podemos hacer que la información cobre sentido y pueda ser extraida aquella parte de la información que nos interesa.

Por ejemplo, encontramos una aplicación de un SEI para el envío de asistencia médica. El sistema de extracción de información fue diseñado para resumir el historial médico de cada paciente, extrayendo los diagnósticos, síntomas, análisis realizados y tratamientos recibidos. Este tipo de sistemas se pueden utilizar para asistir a los médicos, o bien para las compañías de seguros, para el cálculo de reembolsos que debe dar a cada paciente asegurado.

Otro ejemplo de la utilización de sistemas de extracción de información se aplica al campo de la inspección literaria científica o técnica. Existen sistemas de EI para capturar información relevante de artículos técnicos o científicos, por ejemplo la captura de las propiedades de un producto farmacéutico.

Por último, encontramos una aplicación de extracción de información que sirve para recabar información publicada en periódicos digitales e incluso en noticias radiofónicas.

Ejemplo extendido de un sistema de extracción de información.

La siguiente noticia ficticia ofrece una visión de los niveles que debe extraer un SEI.

"Fletcher Maddox, jefe de la UCSD Universidad de negocios, anunció la formación de La Jolla Genomatics en conjunto con sus dos hijos. La Jolla Genomatics lanzará su siguiente producto, Geninfo, en Junio de 1999. Geninfo es un sistema para ayudar a investigadores en biotecnología a poder mantenerse al día con la voluminosa literatura que existe en todos los campos del área".

"El Dr. Maddox será el CEO de la compañía. Su hijo, Oliver, será el Científico Jefe, además es propietario de múltiples patentes utilizadas en los algoritmos que contiene Geninfo. El hermano de Oliver, Ambrose, sigue más los pasos de su padre y será el CFO de La Jolla Genomatics, situada en cerca de la ciudad de residencia del Dr. Maddox, La Jolla, California".

Entidades:

Personas: Organizaciones: Localizaciones: Artefactos: Fechas:
Fletcher Maddox UCSD Business School La Jolla Geninfo Junio 1999
Dr. Maddox La Jolla Genomatics CA    
Oliver La Jolla Genomatics      
Oliver L.J.G.      
Ambrose        
Maddox        

Atributos:

Nombre: Fletcher Maddox
Maddox
Descripción: jefe de la UCSD Business School
su padre
CEO de la compañía
Categoría: Persona
Nombre: Oliver
Descripción: Su padre
Cientifico Jefe
Categoría: Persona
Nombre: Ambrose
Descripcion: Hermano de Oliver
el CFO de L.J.G.
Categoría: Persona
Nombre: UCSD Business School
Descripción:  
Categoría: Organización
Nombre: La Jolla Genomatics
L.J.G.
Descripción:  
Categoría: Organización
Nombre: Geninfo
Descripción: su producto
Categoría: Artefacto
Nombre: La Jolla
Descripción: ciudad de residencia de la familia Maddox
Categoría: Localización
Nombre: California
Descripción:  
Categoría: Localización

Hechos:

Persona Empleado de Organización
Fletcher Maddox
Fletcher Maddox
Oliver
Ambrose
Empleado de
Empleado de
Empleado de
Empleado de
UCSD Business School
La Jolla Genomatics
La Jolla Genomatics
La Jolla Genomatics
Artefacto Producto de Organización
Geninfo Producto de La Jolla Genomatics
Localización Localización de Organización
La Jolla Localización de La Jolla Genomatics
California Location de La Jolla Genomatics

Eventos: Evento de formación de compañía:

Compañía: La Jolla Genomatics
Implicados: Fletcher Maddox
Oliver
Ambrose
Fecha:  
Capital:  

Evento de lanzar producto:

Compañía: La Jolla Genomatics
Producto: Geninfo
Fecha: Junio 1999
Coste:  

Referencias utilizadas para este artículo.

Página web de The Retrieval Group - http://www-nlpir.nist.gov/related_projects/muc/examples/examples_index.html

TESIS DOCTORAL - Extracción y recuperación de información temporal - Mª Dolores María Llido Escrivá - Universitat Jaume I

Extracción Automática de Relaciones Semánticas - Sonia SÁNCHEZ-CUADRADO,Juan LLORÉNS,Jorge MORATO y José A. HURTADO
Departamento de Informática, Universidad Carlos III

Página creada por John Pater

Última Actualización: 10-04-2007

extraccion de informacion extraccion de informacion extraccion de informacion extraccion de informacion TAW. Nivel doble A. WCAG 1.0 WAI extraccion de informacion Cynthia Tested RSS Validado