¿Para qué sirve la Ciencia de Datos?
En la era de la información, donde casi cualquier dispositivo es capaz de generar datos y registrarlos, y en medio de una avalancha de noticias acerca de cómo a través de los datos algunas empresas han alcanzado éxitos inimaginables, o recortado gastos de forma impensable, o aumentado su eficiencia, los directores de empresa sienten una ansiedad urgente de sacar ventaja de los datos.
El concepto es sencillo, claramente la tarea no lo es, sin embargo, paradójicamente, en el mercado prevalece justo lo contrario, la idea de que sacar ventaja de los datos es cuestión de contar con una herramienta que lo hará fácil. Al toparse con la realidad las personas de negocios buscan entonces ayuda de profesionales de datos que bien pueden ser ingenieros en sistemas o en el mejor de los casos matemáticos quienes estrujan, amasan, malean los datos sin un propósito en particular llegando a resultados catastróficos.
La Ciencia de Datos tiene por objetivo encontrar la forma de sacar ventaja de los datos. Este objetivo tiene dos vertientes, la primera es analizar los datos existentes la segunda es conseguir los datos que se necesiten para obtener dicha ventaja.
Ninguna de las dos tareas anteriores tiene sentido si primero no se define cual es la ventaja que se desea obtener, es decir, para la gente que nos dedicamos a las matemáticas es bien fácil que nos perdamos en la belleza de una ecuación, de un concepto, de una disciplina, éste sitio está lleno de esos ejemplos en los que, independientemente de lo útil que pueda resultar una gráfica, ésta se publica por mérito propio. Y si así está este sitio, los de redes sociales Facebook, LinkedIn, etc, están mucho más saturados.
Pero eso no quiere decir que no entendamos el concepto de utilidad o que no la podamos perseguir y obtener, sin embargo, quien la tiene que establecer es el usuario de negocios.
Por ejemplo, para hacer un pronóstico basado en los datos, pueden usarse muchas herramientas, tanto tecnológicas como matemáticas, es decir, un simple promedio puede constituirse en un buen pronóstico dependiendo del caso de negocio que se trate, o por el contrario un promedio puede entregarnos los valores que ningún miembro de la población tiene (por ejemplo el promedio de altura de una población es, generalmente, la estatura que nadie tiene, unos por arriba y otros por abajo, pero la media exacta, nadie), de igual forma una gráfica de barras puede ser suficiente para entender una tendencia o encontrar una correlación, o bien, pueden ocuparse modelos de regresiones más complicadas.
Recientemente ha cobrado relevancia el aprendizaje automático (Machine Learning) capaz de hacer pronósticos utilizando varios modelos de regresión a la vez, y que pueden ser "entrenados" para ofrecer resultados cada vez más precisos y certeros.
Pero como mencionaba con anterioridad el primer paso para obtener ventaja de los datos es Definir el Objetivo de Negocios.
Lo que sigue de esto es un proceso de iterativo en el que los datos son inspeccionados visualmente de diversas formas para encontrar algún significado que resulte revelador y que se encuentre alineado al objetivo del negocio.
El siguiente paso es la adquisición de los datos requeridos, que bien pueden ser calculados o bien pueden requerir de la definición y uso de alguna herramienta de software o bien la instalación de una aplicación nueva.
Suele requerirse de una partición de la serie para poder calibrar el modelo de análisis con datos históricos.
Evaluar y comparar el rendimiento
Y por último Implementar pronósticos / sistema
El proceso hay que estar consciente de las siguientes cuestiones ¿el objetivo / objetivo de negocio es descriptivo o predictivo por naturaleza? ¿Cuál es el horizonte de previsión (en qué medida en el futuro, en un solo punto de tiempo, una previsión de tiempo o una tarea en curso)? ¿Cómo se utilizarán los pronósticos (quiénes son las partes interesadas, ya se trate de un pronóstico numérico o de eventos, cuál es el costo de la sobre-predicción o la sub-predicción, los pronósticos se someterán a "ajustes")? ¿Cuál es la pericia de predicción y automatización necesaria para lograr la meta? Etc.
Cuando se trata de datos, la calidad de los datos, la muestra, la frecuencia temporal, el equilibrio entre la señal y el ruido, la granularidad en serie, la experiencia del dominio es esencial. Hay muchos métodos que se pueden utilizar para pronosticar. Que son relevantes para nuestra situación depende de nuestros objetivos y condiciones que enfrentamos. A menudo, no hay un solo mejor método. De hecho, es mejor utilizar diferentes métodos y combinar sus pronósticos.
Si hablamos de métodos bien aceptados que deben usarse para proporcionar pronósticos de referencia, el método de predicción más simple para series de tiempo, por ejemplo, es el aleatorio. Supone que los valores futuros de una serie temporal serán iguales al valor actual. En otras palabras, uno no tiene información útil sobre los cambios futuros en la serie - es igualmente probable ir hacia arriba o hacia abajo. Los componentes de series temporales se pueden clasificar en varias partes.
Parte sistemática
Nivel
Tendencia
Patrones estacionales
Parte no sistemática
Ruido
Los modelos aditivos y multiplicativos pueden definirse en una ecuación que comprende estos componentes, es decir:
Modelo aditivo: Y (t) = Nivel + Tendencia + Estacionalidad + Ruido
Modelo multiplicativo: Y (t) = Nivel * Tendencia * Estacionalidad * Ruido
Un modelo que se ajusta bien a los datos, no necesariamente pronostica bien. Siempre se puede obtener un ajuste perfecto utilizando un modelo con parámetros suficientes. El ajuste excesivo de un modelo a los datos es tan malo como no identificar el patrón sistemático en los datos. Por lo tanto, como una solución esperamos que las estrategias de partición de datos donde esperamos formación, validación y aspectos futuros. Idealmente, el período de validación depende del horizonte de pronóstico, la estacionalidad, la longitud de la serie, las condiciones subyacentes que afectan a la serie, etc.
Los patrones típicos de series de tiempo se listan a continuación
Cuando observamos medidas comunes de precisión predictiva, se tienen en cuenta las técnicas de error medio, error absoluto medio (MAE), error cuadrático medio (MSE), media de error absoluto porcentual (MAPE).
Hay varios métodos de pronóstico utilizados basados en datos y situación. Si hay una necesidad de una sola previsión de tiempo, la experiencia interna está disponible, hay un número menor de series, por lo general se utilizan métodos basados en modelos y estos son típicos "manual". Por otra parte, si hay pronóstico en curso, no hay experiencia interna disponible, muchas series para pronosticar, etc., entonces usualmente se usan métodos basados en datos y éstos son "automatizados" y computacionalmente rápidos.
Mientras que la predicción se refiere a la certeza futura, la proyección observa cómo las corrientes ocultas en la señal actual cambian de dirección. El objetivo de la proyección es identificar la gama completa de posibilidades y no limitarse a un conjunto de certezas ilusorias. "La proyección puede verse como un subconjunto de la predicción" - cualquier momento a predecir en el futuro, es una proyección. Todos los pronósticos son proyecciones, pero no todas las proyecciones son pronósticos, como cuando usaríamos la regresión para explicar la relación entre dos variables. Entonces, ¿qué necesidad de pronóstico? Requiere una lógica, una capacidad para la evaluación de la calidad de los enfoques de predicción y pocas reglas para una pronóstico eficaz. Necesitamos ser pragmáticos en términos de definirlo de una manera que ayude a los tomadores de decisiones o las partes interesadas a ejercer el juicio estratégico, la necesidad de identificar los patrones clave y la estacionalidad, la necesidad de abrazar los elementos que no pueden clasificarse, la necesidad de mirar más pasado o histórico. Los datos tienen sentido ya que menos elementos de datos no harían ningún pronóstico significativo, etc. También necesitamos entender cuándo hacer una combinación de pronósticos o métodos de pronóstico usando conjuntos y cuándo "no" pronosticar en absoluto. La predicción y la selección de un método apropiado para hacer pronósticos siempre serán una mezcla interesante de "Arte" y "Ciencia", además de nuestro juicio y practicidad.
Comentários