Grandes datos para grandes remedios: buscando la solución en los big data

5 min lectura
Grandes datos para grandes remedios: buscando la solución en los big data
Grandes datos para grandes remedios: buscando la solución en los big data

BBVA API Market

En 2011, la NASA, la Agencia Espacial Europea y la Real Sociedad Astronómica convocaron un reto abierto y público para poder mapear mejor la pequeña, pequeñísima distorsión que la materia oscura produce en las instantáneas que tomamos de las galaxias. En menos de una semana, un estudiante de doctorado que se estaba especializando en glaciología, en los fenómenos naturales causados por el agua en estado sólido, dio con un algoritmo que superaba por mucho todos los modelos astronómicos usados hasta entonces para mapear la materia oscura. En pocos días lograba rebasar el trabajo de los últimos 10 años.

¿De dónde salen, o mejor dicho, dónde podemos encontrar más gente así, con una capacidad privilegiada para resolver problemas, polizones inadvertidos en lo que Eggers y MacMillan denominan la economía de las soluciones? En este caso, en Kaggle, una plataforma de competición en análisis de datos y diseño de modelos predictivos.

A cambio de una cuota, Kaggle introduce el incentivo de la ventaja mutua en la franja que existe entre aquellos que necesitan mejores análisis y quienes tienen las habilidades adecuadas. La esencia de esta empresa con sede en San Francisco es la competición, el “solucionismo”. Como plataforma, aloja concursos entre estadísticos, matemáticos, informáticos, económetras, científicos y cualquiera con un alto perfil analítico capaz de proponer la solución más precisa posible a un problema determinado. ¿Qué se valora en último término? Dar con el modelo predictivo perfecto.

Data Science

Además del pago por resultados (el glaciólogo mencionado obtuvo un premio de 3.000 dólares), Kaggle añade a su modelo el intercambio de valor público, el pago en la valiosa divisa de la reputación. En la web, un ranking similar al de la ATP para tenistas o el OWGR para golfistas, muestra la puntuación de los mejores analistas de datos. Así encontramos a un participante español que actualmente ocupa la décima posición, pero que sabe lo que es subir a lo más alto del podio. De esta forma, es lógico que muchas compañías del entorno big data rastreen las competiciones o se anuncien para poder reclutar a analistas de datos con excelente capacidad resolutiva entre los más de 200.00 participantes. Uno de ellos es Tim Salimans, un estudiante holandés cuya carrera dio un vuelco al recibir una beca de Microsoft Research por la originalidad y precisión de sus modelos predictivos aplicados al ajedrez. Desde entonces, Salimans ha participado en 14 competiciones, siendo un habitual entre los primeros puestos.

Para un científico de datos (el término anglosajón más aceptado es data scientists), además del premio, supone un poderoso incentivo que sus modelos sean aplicables, útiles, que tengan un impacto mensurable sobre un producto o un negocio. Para una compañía rica en datos, las posibilidades se ramifican hasta el infinito. La aseguradora AXA, por ejemplo, ha puesto en marcha una competición para encontrar un algoritmo que podría dar un vuelco a su sector: abriendo datos de 50.000 desplazamientos en coche, busca al mejor capaz de encontrar el rastro telemático que permita identificar las pautas de conducción de hacen de uno de nosotros un conductor único, predecir los riesgos y ofrecer un seguro personalizado y acorde a esta información.

¿Qué puedo hacer con estos datos?

¿Se puede mejorar el proceso de atención temprana e ingreso ingreso hospitalario cruzando los datos de que disponen las compañías de seguros? ¿Es posible mejorar el sistema de detección gestual de Microsoft Kinect? ¿Qué puedes aportar tú en la búsqueda del Bosón de Higgs? No resulta fácil ni intuitivo llegar a ninguna de estas preguntas porque no todas las compañías saben qué hacer con sus datos. Por eso Kaggle prueba también un nuevo giro: de competir por la mejor solución a competir para identificar cuál es el mejor problema que merezca ser solucionado. Y en paralelo, para diversificar su estrategia, Kaggle está empezando a introducir sus análisis de big data en sectores lucrativos como la industria energética, a la que ofrece soluciones para ayudar a los productores a generar más al tiempo que reducen los costes de extracción.

En otras ocasiones, el reto es realmente evidente: una cadena de restaurantes quiere conocer qué factores influyen en el éxito de unos establecimientos y en el fracaso de otros; o unos agrandes almacenes como Macy’s desean conocer mejor qué hechos tienen impacto sobre las ventas. Son ejemplos de retos que encontramos en otra comunidad, la de la web CrowdAnalytics.com, donde concurren más de 5.000 científicos de datos de más de 50 países, la mayoría con titulación de doctorado o MBA, que proponen su modelos para resolver las necesidades de una empresa. Los test de todos los modelos se prueban primero con datos públicos, abiertos, no con información propia de la compañía. Y, a veces, la solución llama a la puerta en menos de 24 horas.

Data Science

Imagen: crowdAnalytics.com

Big data por una buena causa

En el entorno big data, además de empresas tecnológicas, proveedores de productos bancarios, servicios financieros e inteligencia de negocio, cada vez encontramos a más actores emergentes en el espectro de las tecnología cívicas y el sector sin ánimo de lucro.

DataKind, por ejemplo, pone en contactos a científicos de datos con organizaciones de tercer sector para aplicar su conocimiento en problemas humanitarios y sociales. Toda su labor es pro bono, y desde la sede de Nueva York coordinan equipos de expertos en datos en Bangalore, Dublin, San Francisco, Singapur, Reino Unido y Washington. ¿A qué aplican sus habilidades? Ayudan a pequeñas ONG a trabajar mejor sobre el terreno analizando las políticas sociales, infantiles y educativas en lugares de Inglaterra y Estados Unidos, o identificado con modelos estadísticos aplicados a expedientes judiciales algunos patrones que siguen los jueces de la Corte Europea de Derechos Humanos a la hora de juzgar distintas causas. The Economist se ha referido a estos filántropos geek como data huggers, gente que abraza datos.

La misma línea sigue Bayes impact, que está creando un modelo de datos para acortar el tiempo de respuesta que tarda una ambulancia en atender una emergencia en la ciudad de San Francisco, y otro para comprender cómo aceptará el receptor el trasplante un riñón. También ha colaborado con la Fundación Michael J. Fox mejorando los sistemas para diagnosticar la evolución de la enfermedad de Parkinson en los pacientes.

Por cada solución, por cada respuesta, cada caso de éxito en el ecosistema de los datos masivos, surgen nuevos y variados interrogantes. Hemos recorrido algunos ejemplos de empresas, organizaciones y comunidades que alimentan nuevas formas de intercambio, que practican un trueque entre los datos y la información masiva de uno a cambio de los algoritmos de otro; de reputación a cambio de brillantez y originalidad. Si no sabes qué hacer con tus datos, a lo mejor puedes probar a abrirlos en un entorno muy especializado y competitivo, y ver qué sale. Cada vez son más quienes se lanzan y, bien favoreciendo la colaboración o bien alimentando la competición, están cosechando resultados sorprendentes.

También podría interesarte