TRANSFORMACIÓN DE UNA VARIABLE CONTINUA PARA QUE SIGA UNA DISTRIBUCIÓN NORMAL

Parte del curso Modelado de Datos Espaciales en Python (2020)

Al aplicar las matemáticas en ciencias de la tierra, hacemos suposiciones tentativas que sabemos que no son ciertas pero que creemos que pueden ser útiles. Por ejemplo, en la naturaleza nunca hubo una distribución normal, nunca hubo una línea recta, pero con suposiciones normales y lineales, que se sabe que son falsas, a menudo podemos obtener resultados que coinciden, a una aproximación útil a través de métodos paramétricos.

En estadística y probabilidad se llama distribución normal, a una de las distribuciones de probabilidad de variable continua más populares dado el gran campo de la estadística que refiere a métodos que asumen una distribución de este tipo. La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parámetro estadístico de posición. Esta curva se conoce como campana de Gauss y es el gráfico de una función gaussiana.


¿Por qué es necesario llevar una variable continua con distribución asimétrica a una forma normal?


Dentro del debate, una respuesta es el hecho de utilizar estadística inferencial paramétrica y entender que cumplir con los supuestos de una prueba o procedimiento estadístico definido, se relaciona con los errores. En su mayor parte por ejemplo, cuando no se cumplen los supuestos de distribución, los errores estándar están sesgados, y debido a que los errores estándar se usan para llegar al valor p, podríamos llegar a una conclusión errónea con respecto a la hipótesis nula.


¿Cómo podemos ajustar una variable continua que naturalmente no se distribuye simétricamente a una distribución normal?


A través de una transformación del conjunto de datos. En el análisis de datos, la transformación es el reemplazo de una variable por una función de esa variable: por ejemplo, reemplazando una variable x por la raíz cuadrada de x, cuando la distribución es levemente asimétrica. O reemplazando directamente con el logaritmo de x, cuando la distribución es log normal. Los estadísticos George Box y Sir David Roxbee Cox, colaboraron en un artículo de 1964 y desarrollaron la técnica de transformación conocida como Box Cox. Referencia en detalle en Box, G. E. P. and Cox, D. R. (1964). An analysis of transformations, Journal of the Royal Statistical Society, Series B, 26, 211-252. Disponible aquí.


¿Cómo presentar resultados con datos que se modelaron transformados y por ende se encuentran con una escala distinta al de la variable?


Este caso se da en muchos métodos de inferencia estadística y geoestadística, donde a partir de una muestra se infieren una serie de valores que adoptaría la variable en lugares donde esta no se muestreo. La respuesta es a través de una transformación inversa, para ello es necesario saber que tipo de transformación se uso en los datos previamente.


¿Qué programa gratuito podemos utilizar para implementar una transformación y posterior transformación inversa con nuestros datos?


Con algo de conocimiento en Python, una excelente opción es la biblioteca Scipy (https://docs.scipy.org/doc/scipy/reference/index.html), la cual es de código abierto y ofrece una serie de algoritmos, entre tantos el Box Cox (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.boxcox.html) y la inversa (https://docs.scipy.org/doc/scipy/reference/generated/scipy.special.inv_boxcox.html).


Finalmente comentar que un ejemplo desde cero y explicado en detalle realizo en el curso titulado “Modelado de Datos Espaciales en Python – Unidad III” disponible aquí.

mayo 8, 2022
top
Nube Minera © 2024