ML Clustering en la definición de dominios geoestadísticos de estimación

MACHINE LEARNING CLUSTERING EN LA DEFINICIÓN DE DOMINIOS GEOESTADÍSTICOS DE ESTIMACIÓN

La definición de dominios geoestadísticos de estimación es una de las primeras etapas en el proceso de modelado espacial y estimación de recursos minerales. La muestra resultante de la exploración minera debe ser dividida en zonas consistentemente definidas por rasgos geológicos y espaciales, donde el elemento de interés principal o ley mineral presente homogeneidad o variación mínima por traslación. La importancia de la definición de estos dominios radica en que la calidad de las técnicas de estimación y por consiguiente la correcta cuantificación del recurso mineral, mejorará en zonas geoestadísticamente estacionarias y con coherencia geológica.

La propuesta: usar el algoritmo k-Prototipos

Básicamente la idea trata de generar dominios de estimación para una ley mineral, mediante un enfoque no tradicional basado en el algoritmo de agrupamiento k-prototipos. Este algoritmo está fundamentado en el paradigma k-medias de aprendizaje automático no supervisado, pero exento a la restricción de uso único en datos numéricos. Esto último es especialmente conveniente, al permitir incorporar directamente variables categóricas como son los atributos geológicos en un agrupamiento semi-automático mixto.

Sobre los datos

Los resultados de la exploración minera entregan un conjunto de datos de distinta naturaleza, mínimamente tendremos concentraciones de elementos de interés (Cu, Au, Ag, Mo, Fe, etc.), que son datos numéricos continuos. Por otro lado tendremos también atributos geológicos (tipo de roca, tipo de zona mineral, alteración hidrotermal, etc.), que son datos categóricos. Digamos tempranamente que la definición de dominios de estimación se produce bajo el entendimiento acabado de una mezcla sobre ambos tipos de datos.

Dominios de estimación

En el campo de la estimación de recursos minerales, es una práctica común el identificar atributos geológicos y dividirlos en volúmenes que presenten propiedades consistentes. A estos se les denominan dominios geológicos (Rossi y Deutsch, 2013). Por otro lado, estos dominios serán considerados aptos para la estimación, solo si presentan una estacionaridad de segundo orden, condición requerida para el empleo de técnicas geoestadísticas ampliamente validadas en la industria minera.

Los aspectos geológicos del depósito suelen ser las pautas fundamentales para la definición de dominios de estimación. Atributos como la alteración, mineralización y aspectos litológicos deben ser considerados (Emery y Ortiz, 2004). Glacken & Snowden (2001) afirman que un dominio geológico representa un área o volumen dentro del cual las características de la mineralización son más similares que fuera del dominio. Rossi y Deutsch (2013), son más específicos y definen los dominios de estimación como el equivalente a zonas geoestadísticamente estacionarias.

En el contexto de la modelación de recursos minerales, el concepto de estacionariedad está estrechamente relacionado con la homogeneidad de los cuerpos geológicos y, simplificando la definición de Journel y Huijbregts (1978), se puede asumir que un fenómeno es estacionario cuando muestra valores esperados constantes, covarianza y estructuras de autocorrelación en cualquier ubicación dada del área de estudio. Los dominios de estimación que no se adhieran al principio de estacionariedad, pueden conducir a un sesgo significativo en las leyes minerales y, por lo tanto, a estimaciones erróneas (Sterk et al., 2019).

Metodología tradicional

La metodología tradicional de definición de dominios de estimación para recursos minerales se sustenta de un estudio combinado entre geología y estadística., en el cual predomina el entendimiento geológico de un experto y por consiguiente la intervención humana. A nivel general los pasos que sigue esta metodología son:

1. Selección del atributo geológico que controla la ley mineral; litología, alteración, mineralización, etc., inclusive puede ser mas de uno.

2. Análisis estadístico y espacial de la ley mineral por cada categoría del atributo geológico.

3. En caso de que sea más de un atributo, se procede a la combinación de categorías por similitud estadística y tipo de contacto espacial.

4. Validación de los dominios geológicos a nivel estadístico y geoestadístico para asegurar que puedan ser estimados.

En caso de que los dominios geológicos no cumplan con el punto anterior, se procede a dividirlos hasta alcanzar la validación, o bien buscar un método de estimación que no sea geoestadístico.

¿Qué tiene de malo la metodología tradicional?

Los aspectos más críticos en esta metodología son:

1. Que es lenta, dado que todos los trabajos deben ser realizados de forma manual y estar siendo chequeados por un experto en la geología del depósito mineral.

2. Que, en caso de modificaciones futuras de los dominios por nueva información recogida, el esfuerzo será similar al de comenzar a definir los dominios desde el principio.

3. Que es subjetiva, ya que, de un experto a otro, se manifiestan distintos criterios e interpretaciones. Los códigos para reportar recursos minerales tienen como propósito definir los estándares mínimos (Stephenson, 2001), y esto abre la posibilidad de emplear múltiples métodos siempre y cuando puedan ser respaldados.

En búsqueda de una alternativa en la definición de dominios de estimación, el cumplimiento de los principios de estimación geoestadística, la reducción en el factor tiempo que se critica a la metodología tradicional, junto a la disminución en mano de obra y subjetividad., es que se hace interesante el evaluar la implementación de una metodología basada en aprendizaje automático no supervisado, mediante el uso de un algoritmo de agrupamiento multivariable mixto.

Algoritmos de Clustering (Machine Learning)

Los algoritmos de agrupamiento han existido desde la década de 1960, cuando Sokal y Sneath (1965) presentaron la técnica jerárquica aglomerativa para trabajar en el campo de la taxonomía, y MacQueen (1967) introdujo el algoritmo k-medias. Este enfoque puede ser especialmente apropiado para la definición de dominios geológicos, dado que divide los datos en grupos basados en las relaciones entre las variables que son relevantes para el problema (Moreira et al., 2020). El agrupamiento semi-automático es un enfoque para analizar datos espaciales a un nivel más alto de abstracción al agrupar de acuerdo con su similitud en grupos significativos (Kisilevich et al. 2009). Se organiza una colección de elementos de datos en grupos, de modo que los elementos dentro de un grupo sean más similares entre sí que a los elementos de los otros grupos. La agrupación se realiza generalmente cuando no hay información disponible sobre la pertenencia de elementos de datos a clases predefinidas. Por esta razón, se considera tradicionalmente como parte del aprendizaje no supervisado.

Existen una gran variedad de enfoques de agrupamiento para diferentes aplicaciones y tamaño de datos (Gan et al. 2007). Algunos de estos métodos incluyen agrupación jerárquica, agrupación particional, agrupación de modelos de mezcla, agrupación basada en redes neuronales, agrupación difusa y agrupación de gráficos (Gan et al. 2007; Everitt et al. 2011; Abu-Jamous et al. 2015).

Uno de los algoritmos más populares y difundidos en el agrupamiento automático es k-medias, el cual corresponde a un método iterativo numérico, no supervisado, no determinista, que es simple y muy rápido, por lo que en muchas aplicaciones prácticas el método ha demostrado ser una forma muy efectiva que puede producir buenos resultados de agrupamiento (Na et al. 2010).

Oliver y Willingham (2016) utilizaron la agrupación de k-medias para identificar dominios geológicos en un depósito mineral de hierro en Queensland, Australia, con base en datos de análisis por laboratorio.

Rajabinasab y Asghari (2019) utilizaron k-medias, para definir dominios geo-metalúrgicos en un depósito de hierro en el noreste de Irán, utilizando datos de análisis por laboratorio.

Moreira et al. (2020) utilizaron k-medias para definir dominios geológicos de estimación en un depósito de fosfato-titanio, utilizando principalmente datos de análisis por laboratorio .

Todos estos estudios utilizan registros geoquímicos, que al agruparse a nivel multivariado forman dominios que se asumen consistentes geológicamente. Sin embargo, k-medias es un algoritmo que optimiza la función de coste definida en la medida de distancia euclidiana entre puntos de datos y medias. Minimizar la función de coste mediante el cálculo de medias limita su uso a datos numéricos (Huang, 1998). Esta limitación afecta a variables categóricas geológicas que controlan la ley mineral, no pudiendo aportar información en el agrupamiento multivariado de forma directa.

Dado este problema, algunas posibilidades en el caso de k-medias, serian transformar los datos categóricos a valores numéricos discretos, asumiendo un conocimiento absoluto de las asociaciones de las categorías de cada atributo geológico, lo cual es cuestionable.

Lo segundo es realizar el proceso inverso, transformar las variables numéricas continuas de las leyes minerales, a discretas, asumiendo una pérdida importante de información, para luego emplear un algoritmo de agrupamiento para datos categóricos como k-modas (Huang, 1998). Sin embargo, como es de esperar, ambos arreglos pueden deteriorar la calidad de la información.

En la literatura asociada a recursos minerales, no se han propuesto métodos de agrupamiento para tratar con datos mixtos, sin embargo, Huang (1998) propuso el primer algoritmo que está basado en una combinatoria de k-medias y k-modas, al cual llamo k-prototipos, el que en este caso posibilita agrupar de manera conjunta registros de elementos geoquímicos y atributos geológicos. El algoritmo agrupa objetos con atributos numéricos y categóricos de una manera similar a k-medias. La medida de similitud de objetos se deriva de atributos mixtos. Cuando se aplica a datos numéricos, el algoritmo es idéntico a k-medias.

Al emplear algoritmos de aprendizaje no supervisado, los datos no están etiquetados, por lo que no se conoce la respuesta correcta a priori. En este caso los algoritmos de agrupamiento no jerárquicos requieren ser inicializados indicando el número de grupos (dominios en este caso) como parámetro de entrada. Para la selección del número óptimo de grupos, se emplea el método del codo, discutido por primera vez por Thorndike (1953), utilizando una función de coste mixta (variables numéricas y categóricas).

Secuencia propuesta para el empleo de k Prototipos

Para no hacer demasiado extensa esta entrada, es que la metodología y pseudocódigo del algoritmo puede ser visto en su fuente principal que es: Huang, Z. Extensions to the K-means algorithm for clustering large data sets with categorical values. Data Min. Knowl. Discov.
1998, 2, 283–304.

En cuanto a la secuencia es que se propone:

1. Análisis exploratorio de datos: Se estudia la relación entre todas las variables resultantes de la exploración minera.

2. Selección de variables (numéricas y categóricas): Del entendimiento del paso 1, se seleccionan aquellas variables tanto numéricas como categóricas que inciden en la definición de dominios.

3. Estandarización de variables numéricas: Esto es algo bastante normal en el uso de técnicas de machine learning, básicamente se llevan todas las variables a una misma escala, para que tengan el mismo aporte en el algoritmo.

4. One Hot Encoding: Esta es una técnica utilizada sobre las variables categóricas, donde las dividirá por categorías a nivel binario. Por ejemplo, si el atributo geológico «litología» tiene 10 tipos, entonces se generarán 10 variables binarias a partir de dicho atributo.

5. Empleo de k-Prototipos: Como ya se ha planteado, este algoritmo trabaja con datos mixtos y usará toda la información preparada hasta el momento para definir «n» escenarios de dominios, por ejemplo, de 2 a 10 dominios.

6. Selección del número de dominios: A través del método del codo, la silueta, Calinski-Harabasz, etc., se define la cantidad optima de dominios.

7. Evaluación de los dominios: Finalmente se analiza si los dominios cumplen con las bases geológicas y geoestadísticas para ser considerados como tal.

A estas 7 etapas principales podrían añadirse algunas más, dependiendo del estado inicial de los datos resultantes de la exploración minera, por ejemplo, podría darse el caso que las variables numéricas tengan una diferencia en cantidad de datos, lo cual dificultaría un análisis correlacional y se debería evaluar el implementar un método de imputación.

Conclusiones

El enfoque propuesto busca ser una alternativa o complemento más eficiente en cuestión de tiempo, esfuerzo y subjetividad a la metodología tradicional. Es un algoritmo ya probado en distintas disciplinas (mas no en la nuestra) y que su implementación está disponible en lenguajes de programación a nivel de libraries.

Sin embargo requiere ser probado y evaluado bajo distintos escenarios de depósitos minerales y justamente es la idea para quienes se interesen a nivel de investigación.

Referencia web (APA):

Hernández, H. (08 de febrero de 2023). Machine Learning Clustering en la definición de dominios geoestadísticos de estimación. Nube Minera. https://nubeminera.cl/ml-clustering-geoestadistica/