En la ciencia, uno de los puntos críticos siempre es el conjunto de datos. El conseguir uno preparado y listo para interactuar con él es de por sí un gran reto, especialmente en el área de aprendizaje automático. Y la semana pasada se produjo un gran acontecimiento.
En los últimos días Yahoo! ha salido en las noticias, y no precisamente por cosas agradables. Sin embargo, la pasada semana liberaron 13,5 TB de conjuntos de datos anónimos de interacción de los usuarios. Además, para hacer más apetitoso el conjunto de datos, también incluye información como rangos de edades, género y datos geográficos generalizados.
Esto permite a los investigadores del área de aprendizaje automático realizar un muy amplio abanico de experimentos con conjuntos de datos que normalmente están reservados para las grandes compañías.
En la web se pueden ver los conjuntos de datos disponibles por áreas, como son datos de sistemas de computación, datos de imágenes o datos de marketing y anuncios. Lo que llama poderosamente la atención son los requisitos para poder acceder al conjunto de datos:
- Ser miembro, empleado o estudiante de una universidad acreditada.
- Mandar un correo desde una cuenta de una universidad para solicitarlo.
Pero aún llama la atención las restricciones del conjunto de datos. Expresamente está prohibido compartir el conjunto de datos con:
- Entidades comerciales
- Empleados en entidades comerciales con relación con la universidad.
- Instituciones de investigación no adscritos a una universidad de investigación.
Muchas veces hemos comentado en este blog la importancia del negocio de los datos. Y en este caso, Yahoo, ha liberado a todos una mina de oro.