El backstage de «How Old Are You»

HOAYDashboard2

Hace un tiempo hablábamos de una herramienta que presentó Microsoft y que se convirtió en viral (las cifras sobre el éxito de la herramienta son bastante impresionantes: 80 millones de personas subimos 500 millones de imágenes en 7 días.), ya que adivinaba tu edad (o por lo menos lo intentaba). Ahora, dentro de la conferencia Strata + Hadoop, Joseph Sirosh, el mismo que presentó la herramienta en la pasada BUILD, comenta qué cosas han aprendido gracias a esta herramienta y los próximos pasos que están dando. Bienvenidos al backstage de una herramienta viral.

El nacimiento de la herramienta

El objetivo de la herramienta no era más que demostrar la potencia de las APIs que se iban a presentar. Entre ellas, herramientas de analítica de datos, de machine learning, de visualización, etc. Para el desarrollo, se contó con un ingeniero durante 3 semanas de trabajo. Tres días antes de la presentación, Joseph mandó un correo interno a Microsoft pediendo ayuda para el testeo de la herramienta, pidiendo por favor que no se divulgara. Por supuesto, no salió bien. Un twittero en Turquía hablo de la herramienta el mismo día. Y empezó a ser viral: 25.000 usuarios accedieron en 3 horas. Sin embargo, sacaron varias conclusiones. La primera, que era buena idea añadir botones para compartir en redes sociales (algún día hablaremos de estos botones y de como trackean a los usuarios), crearon un hashtag y, sobre todo, volvieron a escribir el post que tenían preparado para un enfoque mucho menos técnico.

La presentación al público

Una vez lanzado al público, la herramienta se convirtió en viral, tanto que le dedicamos un post en este mismo blog. Pero, ¿qué datos se pueden obtener de una herramienta como esta? En la propia demo enseñaron algunos de ellos, como por ejemplo el número de caras que se han subido, el genero de cada una de ellas, el edad estimada, la localización desde donde se ha subido, el sistema operativo, etc. En una herramienta tan sencilla como esta, se puede sacar una gran cantidad de información de cada uno de nosotros, sin mucho esfuerzo. Y consiguieron 50 millones de usuarios en la primera semana (por ponerlo en contexto, esa cifra de usuarios se consigió tras 75 años en el caso del telefono, y 35 días en el caso de Angry Birds), con un pico máximo de 1,2 millones de usuarios a la hora.

Lecciones aprendidas

Una de las más importantes es que el éxito se parece mucho a un ataque de denegación de servicio. Con ese volumen de peticiones, el haber montado la infraestructura adecuada evito el colapso de la misma. Por otro lado, la gente compartía más dos tipos de predicciones: las que eran precisas y las que eran muy erróneas (mucho más este segundo tipo de predicciones). También analizaron los datos que recogían, y vieron como en los puntos de máximo apogeo, se subían el doble de fotos de mujeres que de hombres, o como las franjas de edades que más aparecían eran o jóvenes o de mediana edad. También encontraron formas de parecer más joven (por lo menos a los ojos del algoritmo), quitando las gafas o la barba.

Y todavía se puede mejorar

El siguiente paso es seguir entrenando el algoritmo. Y la mejor forma de hacer eso, es con humanos. Por ello, han sacado la versión para que otra gente evalúe la edad de las personas de la foto. Y de esa forma seguir recogiendo datos y mejorando la precisión.

Este me parece un buen ejemplo de como, con un juego bastante sencillo, es posible recabar mucha más información de la que pudiera parecer a primera vista. En este caso, no se trata de información crítica, ni puede que muy interesante, pero esto demuestra que de cualquier fuente de datos, hoy en día, cualquiera puede sacar una gran cantidad de información y, si es listo, hasta hacer un buen negocio.

Borja Sanz
Acerca de
Investigador de S3lab
Expertise: Malware, Artifical Intelligence, Mobile Security, Android