Jorge de la Peña – S3lab

Herramientas y técnicas anti-troles (II)

Jorge de la Peña — Tue, 12 Jan 2016 10:55:34 +0000

En el capítulo anterior de “Herramientas y técnicas anti-troles”, describíamos una serie de procedimientos para la detección y filtrado de los tan desesperantes usuarios trol: (i) el descubrimiento de conocimiento, (ii) la minería de datos y (iii) la minería de textos. A continuación, presentamos una nueva remesa de métodos para llevar a cabo esta ardua tarea. La selección de características, la influencia del conocimiento del dominio y los procedimientos específicos del dominio desempeñan un papel importante en la minería de textos. Por lo tanto, es necesaria una adaptación de los algoritmos de minería de datos conocidos a datos de texto basándose en la experiencia y los resultados de la investigación en la recuperación de información, procesamiento del lenguaje natural y la extracción de información. En todas estas áreas, también se aplican métodos de minería de datos y estadísticas para gestionar sus tareas específicas.

La recuperación de información

Más conocida como Information Retrieval (IR), es la obtención de documentos que contienen las respuestas a las preguntas realizadas y no la obtención de respuestas por sí mismas. Con el fin de lograr este objetivo, se utilizan medidas y métodos estadísticos para el procesamiento automático de los datos de texto y la comparación con la pregunta realizada. La recuperación de información, en un sentido más amplio, se ocupa de toda la gama de procesamiento de información, desde la recuperación de datos hasta la recuperación de conocimiento.

A pesar de que esta es un área de investigación relativamente antigua, donde los primeros intentos de indexación se realizaron en 1975, logró una mayor atención con el creciente desarrollo de la red informática mundial y la necesidad de motores de búsqueda más sofisticados. Aunque la definición de recuperación de la información se basa en la idea de preguntas y respuestas, los sistemas que recuperan documentos basados en palabras clave, es decir, los sistemas que llevan a cabo la recuperación de documentos como la mayoría de los motores de búsqueda, son frecuentemente denominados sistemas de recuperación de información.

El procesamiento del lenguaje natural

El NLP, del inglés Natural Language Processing, estudia los problemas relacionados con el procesamiento y manipulación de los lenguajes naturales. A su vez, pretende obtener el conocimiento acerca de cómo las personas entienden y usan el lenguaje, con el fin de implementar herramientas y técnicas para conseguir que las aplicaciones informáticas puedan entenderlo y gestionarlo. Resumidamente, el objetivo general del procesado del lenguaje natural es lograr una mejor comprensión del propio lenguaje mediante el uso de ordenadores, empleando para ello técnicas sencillas y duraderas para el procesado rápido de texto.

Sus bases habitan en una amplia serie de disciplinas: ciencias de la información, matemáticas, lingüística, inteligencia artificial, robótica, psicología, etc. El rango de técnicas utilizadas se extiende desde la simple manipulación de cadenas de texto hasta el tratamiento automatizado de consultas en lenguaje natural. Además, las técnicas de análisis lingüístico se utilizan, entre otras cosas, para el procesamiento de texto en lenguaje natural, interfaces de usuario y reconocimiento de voz.

La extracción de información

El texto en el lenguaje natural contiene mucha información que no es adecuada para el análisis automático por parte de un ordenador. Sin embargo, los ordenadores pueden ser usados para filtrar grandes cantidades de texto y extraer la información útil a partir de palabras aisladas, frases o párrafos. Por lo tanto, la extracción de información (IE, de los términos ingleses Information Extraction) puede ser considerada como una forma restringida dentro de todo el lenguaje natural, donde sabemos de antemano qué tipo de información semántica estamos buscando. La tarea principal es extraer parte del texto y asignar atributos específicos al mismo; mientras que el objetivo principal de los métodos de IE es la extracción de información específica de documentos de texto. Éstos se almacenan en bases de datos con patrones similares, y por lo tanto, están disponibles para su posterior uso.La tarea de extracción de información se descompone en una serie de etapas de procesamiento, que incluyen:

La tokenización: es la acción de dividir un flujo de texto en palabras, frases, símbolos u otros elementos denominados “tokens”.

La segmentación de la oración.

La asignación de parte de la oración (POS, del inglés Part of Speech): categorización de las palabras según su comportamiento sintáctico o morfológico.

La identificación de entidades específicas; es decir, nombres de personas, nombres de lugares y nombres de organizaciones.

Algunas frases y oraciones de mayor nivel tienen que ser analizadas, semánticamente interpretadas e integradas. Aunque los sistemas de información más precisos de extracción a menudo implican módulos manuales de procesado de lenguaje, se han logrado progresos en la aplicación de técnicas de minería de datos a este proceso.

The post Herramientas y técnicas anti-troles (II) appeared first on S3lab.

Herramientas y técnicas anti-troles

Jorge de la Peña — Tue, 21 Jul 2015 09:55:49 +0000

Anteriormente, expusimos la evolución de la web hacia un espacio más sociable, en la denominada Web 2.0, con la correspondiente aparición de un viejo conocido: el usuario trol. En este nuevo episodio de nuestra aventura hacia la caza de los usuarios trol, vamos a exponer una serie de herramientas y técnicas que nos puedan facilitar la detección y filtrado de estos compañeros internautas.

Para ello, pongámonos en antecedentes. A lo largo de los últimos años, la gran celeridad con la que ha evolucionado Internet, ha favorecido el acceso a toda clase de contenidos y por lo tanto, a un mayor número de fuentes de información. Este hecho implica que el volumen disponible en la red de redes y en intranets corporativas continúe creciendo y por consiguiente, exista la necesidad de disponer de herramientas de ayuda para los usuarios; con el fin de encontrar, filtrar y gestionar mejor los recursos.

En particular, se ha producido un crecimiento masivo en el volumen de datos, especialmente en los datos textuales, en diferentes aplicaciones web como los medios de comunicación social. Mientras que las aplicaciones clásicas se han centrado en el procesamiento y minería de texto en bruto, la llegada de estas aplicaciones web requiere nuevos métodos para la minería y procesamiento de texto, tales como la información plurilingüe o la conjunción de la minería de texto con otros tipos de datos multimedia (imágenes o vídeos).

A continuación, vamos a resumir una serie de herramientas y métodos de procesado de texto y datos, con el fin de poder lograr nuestro objetivo en la detección y filtrado de troles.

El descubrimiento de conocimiento

Más conocido como KD (Knowledge Discovery) o KDD (Knowledge Discovery Databases), el descubrimiento de conocimiento es un proceso que se define mediante varios pasos que tienen que ser aplicados a un conjunto de datos de interés, para extraer patrones útiles. Estos pasos tienen que ser realizados de manera iterativa y por lo general, varios de éstos requieren una respuesta interactiva por parte del usuario. El análisis de datos en KDD pretende encontrar patrones ocultos y conexiones a esos datos. Las características que pueden ser usadas para medir la calidad de los patrones encontrados en los datos son: (i) la inteligibilidad para las personas, (ii) la validez en el contexto de las medidas estadísticas dadas, (ii) la novedad y (iv) la utilidad.

La minería de datos

La minería de datos es un campo en el que se han observado rápidos avances en los últimos años. Estos avances son debidos a los grandes adelantos realizados en la tecnología software y hardware, los cuales han hecho posible la disponibilidad de diferentes tipos de datos. La investigación en el campo del descubrimiento de conocimiento y minería de datos se encuentra todavía en una situación de cambio constante, ya que a menudo se utilizan los términos de manera confusa. Por un lado, está la minería de datos como sinónimo de KDD, lo cual significa que la minería de datos contiene todos los aspectos del proceso de descubrimiento de conocimiento. Por otra parte, se considera la minería de datos como parte del proceso del descubrimiento de conocimiento y a su vez describe la fase de modelado.

Las raíces de la minería de datos se extienden a través de diversas áreas de investigación que destacan el carácter interdisciplinario de este campo, como por ejemplo: (i) las bases de datos, (ii) el aprendizaje automático y (iii) la estadística.

La minería de textos

La Web es un agente habilitador, tecnológicamente hablando, que fomenta la creación de una gran cantidad de contenido textual por diferentes usuarios, gracias a la facilidad y sencillez con la que se guarda y procesa este contenido textual. La creciente cantidad de datos de textos disponible en diversas aplicaciones ha creado la necesidad de realizar avances en el diseño de algoritmos que sean capaces de aprender patrones de los datos de una manera dinámica y escalable.

Mientras los datos estructurados son manejados por sistemas de bases de datos, generalmente, los datos de textos son gestionados a través de un motor de búsqueda, debido a la falta de estructuras. Un motor de búsqueda permite al usuario encontrar información útil en una colección con una consulta de palabras clave. Cómo mejorar la efectividad y eficiencia del propio motor ha sido uno de los temas centrales a investigar en el campo de la recuperación de información.

Sin embargo, tradicionalmente, la investigación sobre recuperación de información se ha centrado más en facilitar el acceso a la información, en lugar de analizar la información para descubrir patrones, los cuales son el objetivo principal de la minería de textos.

La minería de textos o descubrimiento de conocimiento a partir de texto (KDT, Knowledge Discovery from Text), consiste en el análisis automático de textos empleando técnicas de: (i) recuperación de información, (ii) extracción de información y (ii) procesado de lenguaje natural, métodos que veremos más adelante en otro episodio de la caza al trol.

The post Herramientas y técnicas anti-troles appeared first on S3lab.

A la caza del trol en la red

Jorge de la Peña — Tue, 25 Nov 2014 10:22:51 +0000

En estos últimos años, la red de redes o Internet se ha convertido en un espacio más sociable donde todos podemos aportar nuestro pequeño granito de arena en forma de contribuciones u opiniones para el resto de internautas, ya sea mediante texto, video, imagen, etc.

En esta nueva manera de percibir Internet, como medio para compartir nuestra información, existe una gran variedad no solo del propio contenido, sino también de los usuarios que lo publican. Podemos compartir una simple imagen graciosa con una persona alojada en Australia o comentar el video publicado por un camerunés mostrando sus aptitudes futbolísticas. Esta conversión de la red hacia un espacio más sociable surge con la aparición de la denominada Web 2.0.

En sus inicios, Internet había sido pensado para el trabajo y para las personas con ciertas nociones de informática. Con la Web 2.0, pasa a convertirse en un lugar atractivo para los usuarios, pudiendo intercambiar libremente contenidos de manera más transparente. Es participativa, colaborativa, dinámica y en ella, los usuarios finales se convierten en actores activos, creando, opinando, participando, relacionándose y compartiendo información.

Pero todo tipo de evolución tiene ciertos riesgos implícitos, en este caso el auge en la red de un viejo conocido: el usuario trol. La primera definición sobre la palabra trol a la que podemos acudir es la citada en la Real Academia Española: «Según la mitología escandinava, monstruo maligno que habita en bosques o grutas». Inmediatamente, esta definición nos lleva a la mente una serie de figuras trolescas que han aparecido en diversos momentos de nuestra vida: los 4 troles de la serie de dibujos animados David el Gnomo (Pot, Pat, Poopey y Holley), el famoso trol Hugo (conocido por aquel Telecupón presentado por Carmen Sevilla allá por 1992), así como los pequeños muñecos trol con sus locos peinados de diferentes colores.

¿Pero en qué momento aparece la palabra trol en el entorno informático? Nos deberíamos de remontar hasta la década de los 90, cuando aparece en la frase trolling for newbies (pescando novatos) en una serie de bromas gastadas por los veteranos en el grupo Usenet, alt.folklore.urban (A. F. U.). Este uso de la palabra trol sembró un precedente y empezó a usarse el término en Internet. Los troles son parte de una subcultura en crecimiento, con una moralidad fluida y un desprecio por casi todo el mundo que se encuentran a su paso. Su comportamiento es básico: se dedican a divertirse y entretenerse dañando a la comunidad o a otras personas, buscando la atención y la venganza. Y como no, esta “clase” de usuarios lleva consigo una jerga acorde a ellos. Todo usuario trol de vez en cuando “trolea” o hace trolling y también, porque no, flaming. El flaming lo podemos expresar como un mensaje provocador, hostil e incluso a veces desagradable.

En definitiva, aunque en ciertos momentos la aparición de los troles por la red puede llegar a ser jocosa o incluso entretenida, tenemos que tener en cuenta que su objetivo final siempre va a ser el mismo: “trolear” a las personas hasta sacarlas de quicio, interfiriendo en su plácida navegación y tiempo libre. Por ello, lanzamos un mensaje de esperanza para todos esos usuarios que alguna vez los hemos sufrido:

«Keep calm and don’t feed the troll»

The post A la caza del trol en la red appeared first on S3lab.