Anteriormente, expusimos la evolución de la web hacia un espacio más sociable, en la denominada Web 2.0, con la correspondiente aparición de un viejo conocido: el usuario trol. En este nuevo episodio de nuestra aventura hacia la caza de los usuarios trol, vamos a exponer una serie de herramientas y técnicas que nos puedan facilitar la detección y filtrado de estos compañeros internautas.
Para ello, pongámonos en antecedentes. A lo largo de los últimos años, la gran celeridad con la que ha evolucionado Internet, ha favorecido el acceso a toda clase de contenidos y por lo tanto, a un mayor número de fuentes de información. Este hecho implica que el volumen disponible en la red de redes y en intranets corporativas continúe creciendo y por consiguiente, exista la necesidad de disponer de herramientas de ayuda para los usuarios; con el fin de encontrar, filtrar y gestionar mejor los recursos.
En particular, se ha producido un crecimiento masivo en el volumen de datos, especialmente en los datos textuales, en diferentes aplicaciones web como los medios de comunicación social. Mientras que las aplicaciones clásicas se han centrado en el procesamiento y minería de texto en bruto, la llegada de estas aplicaciones web requiere nuevos métodos para la minería y procesamiento de texto, tales como la información plurilingüe o la conjunción de la minería de texto con otros tipos de datos multimedia (imágenes o vídeos).
A continuación, vamos a resumir una serie de herramientas y métodos de procesado de texto y datos, con el fin de poder lograr nuestro objetivo en la detección y filtrado de troles.
El descubrimiento de conocimiento
Más conocido como KD (Knowledge Discovery) o KDD (Knowledge Discovery Databases), el descubrimiento de conocimiento es un proceso que se define mediante varios pasos que tienen que ser aplicados a un conjunto de datos de interés, para extraer patrones útiles. Estos pasos tienen que ser realizados de manera iterativa y por lo general, varios de éstos requieren una respuesta interactiva por parte del usuario. El análisis de datos en KDD pretende encontrar patrones ocultos y conexiones a esos datos. Las características que pueden ser usadas para medir la calidad de los patrones encontrados en los datos son: (i) la inteligibilidad para las personas, (ii) la validez en el contexto de las medidas estadísticas dadas, (ii) la novedad y (iv) la utilidad.
La minería de datos
La minería de datos es un campo en el que se han observado rápidos avances en los últimos años. Estos avances son debidos a los grandes adelantos realizados en la tecnología software y hardware, los cuales han hecho posible la disponibilidad de diferentes tipos de datos. La investigación en el campo del descubrimiento de conocimiento y minería de datos se encuentra todavía en una situación de cambio constante, ya que a menudo se utilizan los términos de manera confusa. Por un lado, está la minería de datos como sinónimo de KDD, lo cual significa que la minería de datos contiene todos los aspectos del proceso de descubrimiento de conocimiento. Por otra parte, se considera la minería de datos como parte del proceso del descubrimiento de conocimiento y a su vez describe la fase de modelado.
Las raíces de la minería de datos se extienden a través de diversas áreas de investigación que destacan el carácter interdisciplinario de este campo, como por ejemplo: (i) las bases de datos, (ii) el aprendizaje automático y (iii) la estadística.
La minería de textos
La Web es un agente habilitador, tecnológicamente hablando, que fomenta la creación de una gran cantidad de contenido textual por diferentes usuarios, gracias a la facilidad y sencillez con la que se guarda y procesa este contenido textual. La creciente cantidad de datos de textos disponible en diversas aplicaciones ha creado la necesidad de realizar avances en el diseño de algoritmos que sean capaces de aprender patrones de los datos de una manera dinámica y escalable.
Mientras los datos estructurados son manejados por sistemas de bases de datos, generalmente, los datos de textos son gestionados a través de un motor de búsqueda, debido a la falta de estructuras. Un motor de búsqueda permite al usuario encontrar información útil en una colección con una consulta de palabras clave. Cómo mejorar la efectividad y eficiencia del propio motor ha sido uno de los temas centrales a investigar en el campo de la recuperación de información.
Sin embargo, tradicionalmente, la investigación sobre recuperación de información se ha centrado más en facilitar el acceso a la información, en lugar de analizar la información para descubrir patrones, los cuales son el objetivo principal de la minería de textos.
La minería de textos o descubrimiento de conocimiento a partir de texto (KDT, Knowledge Discovery from Text), consiste en el análisis automático de textos empleando técnicas de: (i) recuperación de información, (ii) extracción de información y (ii) procesado de lenguaje natural, métodos que veremos más adelante en otro episodio de la caza al trol.