En el capítulo anterior de “Herramientas y técnicas anti-troles”, describíamos una serie de procedimientos para la detección y filtrado de los tan desesperantes usuarios trol: (i) el descubrimiento de conocimiento, (ii) la minería de datos y (iii) la minería de textos. A continuación, presentamos una nueva remesa de métodos para llevar a cabo esta ardua tarea. La selección de características, la influencia del conocimiento del dominio y los procedimientos específicos del dominio desempeñan un papel importante en la minería de textos. Por lo tanto, es necesaria una adaptación de los algoritmos de minería de datos conocidos a datos de texto basándose en la experiencia y los resultados de la investigación en la recuperación de información, procesamiento del lenguaje natural y la extracción de información. En todas estas áreas, también se aplican métodos de minería de datos y estadísticas para gestionar sus tareas específicas.
La recuperación de información
Más conocida como Information Retrieval (IR), es la obtención de documentos que contienen las respuestas a las preguntas realizadas y no la obtención de respuestas por sí mismas. Con el fin de lograr este objetivo, se utilizan medidas y métodos estadísticos para el procesamiento automático de los datos de texto y la comparación con la pregunta realizada. La recuperación de información, en un sentido más amplio, se ocupa de toda la gama de procesamiento de información, desde la recuperación de datos hasta la recuperación de conocimiento.
A pesar de que esta es un área de investigación relativamente antigua, donde los primeros intentos de indexación se realizaron en 1975, logró una mayor atención con el creciente desarrollo de la red informática mundial y la necesidad de motores de búsqueda más sofisticados. Aunque la definición de recuperación de la información se basa en la idea de preguntas y respuestas, los sistemas que recuperan documentos basados en palabras clave, es decir, los sistemas que llevan a cabo la recuperación de documentos como la mayoría de los motores de búsqueda, son frecuentemente denominados sistemas de recuperación de información.
El procesamiento del lenguaje natural
El NLP, del inglés Natural Language Processing, estudia los problemas relacionados con el procesamiento y manipulación de los lenguajes naturales. A su vez, pretende obtener el conocimiento acerca de cómo las personas entienden y usan el lenguaje, con el fin de implementar herramientas y técnicas para conseguir que las aplicaciones informáticas puedan entenderlo y gestionarlo. Resumidamente, el objetivo general del procesado del lenguaje natural es lograr una mejor comprensión del propio lenguaje mediante el uso de ordenadores, empleando para ello técnicas sencillas y duraderas para el procesado rápido de texto.
Sus bases habitan en una amplia serie de disciplinas: ciencias de la información, matemáticas, lingüística, inteligencia artificial, robótica, psicología, etc. El rango de técnicas utilizadas se extiende desde la simple manipulación de cadenas de texto hasta el tratamiento automatizado de consultas en lenguaje natural. Además, las técnicas de análisis lingüístico se utilizan, entre otras cosas, para el procesamiento de texto en lenguaje natural, interfaces de usuario y reconocimiento de voz.
La extracción de información
El texto en el lenguaje natural contiene mucha información que no es adecuada para el análisis automático por parte de un ordenador. Sin embargo, los ordenadores pueden ser usados para filtrar grandes cantidades de texto y extraer la información útil a partir de palabras aisladas, frases o párrafos. Por lo tanto, la extracción de información (IE, de los términos ingleses Information Extraction) puede ser considerada como una forma restringida dentro de todo el lenguaje natural, donde sabemos de antemano qué tipo de información semántica estamos buscando. La tarea principal es extraer parte del texto y asignar atributos específicos al mismo; mientras que el objetivo principal de los métodos de IE es la extracción de información específica de documentos de texto. Éstos se almacenan en bases de datos con patrones similares, y por lo tanto, están disponibles para su posterior uso.La tarea de extracción de información se descompone en una serie de etapas de procesamiento, que incluyen:
- La tokenización: es la acción de dividir un flujo de texto en palabras, frases, símbolos u otros elementos denominados “tokens”.
- La segmentación de la oración.
- La asignación de parte de la oración (POS, del inglés Part of Speech): categorización de las palabras según su comportamiento sintáctico o morfológico.
- La identificación de entidades específicas; es decir, nombres de personas, nombres de lugares y nombres de organizaciones.
Algunas frases y oraciones de mayor nivel tienen que ser analizadas, semánticamente interpretadas e integradas. Aunque los sistemas de información más precisos de extracción a menudo implican módulos manuales de procesado de lenguaje, se han logrado progresos en la aplicación de técnicas de minería de datos a este proceso.