«Hijo, ¿a qué te dedicas?»꞉ ciencia de datos explicada a mis abuelos
«Hijo, ¿a qué te dedicas?»: ciencia de datos explicada a mis abuelos
Pocas preguntas hay que me resulten tan difíciles de responder como qué hago en mi trabajo como científico de datos. Tres palabras que suenan muy modernas e innovadoras, pero rellenarlas con contenido comprensible para gente de fuera del gremio puede constituir todo un reto. Más aun si son personas de avanzada edad, que, por lo general, reaccionan con lógica extrañeza. El propósito de este artículo es acercarles las nuevas tecnologías y, especialmente, que nuestros abuelos puedan entender la profesión de sus nietos.
Este artículo está escrito con especial cariño para mis abuelos Paco, Loli y Carmen. Un pequeño gesto que busca corresponder a años de esfuerzo y afecto a partes iguales. La distancia que nos separa es puramente física porque la cercanía de la familia siempre permanece.
Dicho esto, podemos comenzar.
La ciencia de datos es como la cocina
Una forma sencilla de entender nuestro trabajo es compararla con la cocina: recolectamos buena materia prima, experimentamos con diferentes recetas, entrenamos pinches de cocina y comprobamos que el plato que llega al cliente tiene buen sabor. La diferencia es que en lugar de tomates utilizamos información; en vez de recetas, algoritmos; en lugar de pinches, modelos, y en vez hacer probar los platos al final, utilizamos métricas. Pero vamos a explicar poco a poco todas estas ideas.
Para ayudarnos, imagina que conoces a los dos nietos de una vecina: Antonio y Juan. Antonio tiene un restaurante en el paseo marítimo de Málaga y Juan trabaja en Madrid en una empresa de tecnología. Estos nos ayudarán a entender todo el proceso.
Primer paso: recolectar la materia prima
Antonio acaba de abrir un restaurante de pescaíto frito malagueño y necesita alimentos: frescos, de alta calidad y fáciles de trabajar. Por tanto, Antonio hablará con sus proveedores o cogerá su coche para ir él mismo al mercado a comprar pescado, verduras, carne… Su familia tiene un campo, así que también trae frutas de allí.
Por su parte, Juan quiere hacer una predicción del tiempo y saber si mañana habrá sol o lluvia. Necesita saber si habrá nubes, la temperatura de días pasados y otra información importante. Entonces, la materia prima de Juan serán los datos: por ejemplo, saber qué temperatura hacía ayer a las 12.00 o la velocidad del viento.
Pero ¿adónde va Juan a comprar? Normalmente, abre su ordenador y va a Internet. Igual que Antonio habla con sus proveedores, Juan puede contactar con la Agencia Española de Meteorología, que le da una tabla con información sobre la temperatura durante todo el día de ayer. Cuando Antonio va a las tiendas del barrio a por verdura, Juan va a las páginas web de internet, donde puede encontrar información de todo tipo, como cuánto viento hizo ayer. También tiene un sensor de temperatura en casa, así que puede conseguir los datos él mismo, tal y como Antonio recoge su propia fruta.
Segundo paso: conseguir la receta
Cuando Antonio ya tiene todos los ingredientes y ha decidido qué platos va a ofrecer en el menú, debe tener claras las recetas: hay que saber cómo limpiar las verduras, cómo cortar el pescado y a qué temperatura tiene que estar el aceite durante cuánto tiempo. Las recetas tienen una serie de pasos claros y que se pueden repetir. Afortunadamente, sus abuelos han cocinado pescado toda su vida, así que sabe perfectamente qué tiene que hacer.
Juan también tiene claro su proyecto: predecir el tiempo. Desafortunadamente, no hay una receta única para predecir el tiempo, así que tiene que experimentar. Para Juan, las recetas se llaman algoritmos: son una serie de instrucciones matemáticas que transforman la información. Por ejemplo, si Juan sabe que, si la presión atmosférica es muy baja, es más fácil que llueva. Al igual que los abuelos de Antonio practicaron durante años cocinando el pescado, combinando muchos ingredientes, y mejorando las recetas, Juan tendrá que probar muchas «recetas» (algoritmos) con muchos tipos de información hasta encontrar la más adecuada.
Tercer paso: enseñar a tu ayudante de cocina
Antonio, como dueño del restaurante, tiene muchas cosas que hacer y no puede dedicarse a cocinar todo el tiempo. En consecuencia, ha contratado a Carlos, un chico joven, para enseñarle cómo se cocina cada plato y que le ayude a hacer el trabajo de forma eficiente. Recibirá un entrenamiento sobre cómo cortar las verduras, abrir los pescados y muchas otras tareas que Antonio ya conoce. Tardará un tiempo en enseñarle, pero a la larga ganará tiempo y podrá dedicarse a las demás tareas del negocio.
Juan también necesita ayuda para hacer su trabajo, así que se busca un ayudante. Aquí Juan tiene una ventaja: puede elegir el pinche de cocina que aprenda más rápido o al que mejor se le dé realizar sus tareas. Este ayudante se llama modelo. Al igual que hay cocineros que prefieren la repostería o se especializan en carnes, hay modelos que funcionan mejor para unas tareas que otras: por ejemplo, algunas tareas requieren tener memoria (saber qué tiempo hizo los días anteriores), así que los «ayudantes» (modelos) con mejor memoria estarán mejor preparados.
Cuando Juan elige el modelo adecuado, el mejor ayudante que ha encontrado, hará lo mismo que su hermano en su negocio: al igual que Antonio da tiempo, herramientas y alimentos a Carlos para aprenda y cocine por él, Juan dará datos (ingredientes) y un algoritmo (receta) para que haga los cálculos matemáticos en su lugar y obtener una predicción del tiempo.
Pero hay un problema: ¿no habíamos dicho que Juan no conoce la receta? Entonces ¿cómo sabe cuál es el mejor ayudante? Ahí entramos en la última parte: probar los resultados.
Paso final: probar el producto
Para entrenar a Carlos, Antonio prueba los platos que ha cocinado. Como conoce perfectamente cuál es el sabor de un buen plato de pescaíto frito, es capaz de corregir e indicar a Carlos cómo debe hacerlo la próxima vez. Así, sigue mejorando su técnica hasta que, un día, Carlos llega a ser capaz de elaborar los platos por sí solo sin más indicaciones. Antonio, satisfecho, decide que es el momento de ponerlo a trabajar para los clientes del restaurante, que, contentos, vuelven semana tras semana al restaurante.
¿Y qué pasa con Juan? Él no puede saber de antemano si su receta, el método que usa para predecir la lluvia, funciona. Pero sí puede esperar a mañana y ver si llueve. Si al ver toda la información, su ayudante dice que lloverá y realmente llueve, ¡enhorabuena!: sabemos que ese modelo (ayudante) con el algoritmo (receta) que hemos utilizado es bueno.
Pero también puede que simplemente haya tenido suerte. Por eso, Juan trabaja con muchos ayudantes y distintas recetas durante muchos días, para encontrar al que es capaz de predecir el tiempo mejor todos los días. ¿Cómo selecciona al mejor? Juan utiliza una métrica, una regla para medir si funciona o no: en este caso, contar cuántos días de lluvia es capaz de acertar cada ayudante. Juan elegirá el modelo que más días acierte, que se encargará de decirle al cliente si efectivamente lloverá mañana.
Notas finales
De la misma manera que hemos omitido muchos detalles del proceso de cocinado, como las herramientas o la organización del restaurante, se han simplificado partes del trabajo del científico de datos para que sean más comprensibles para todos. Este artículo demuestra que, después de todo, la cocina y las nuevas tecnologías no están tan lejos. Eso sí, ningún modelo moderno podrá superar un buen plato de cazón en adobo.