NEWS

Automatic drillhole logging using machine learning

Meet CSA Global Senior Resource Consultant, Adrian Martinez Vargas, when he presents on ‘Automatic drillhole logging using machine learning’ at the 11th International Convention of Prospectors and Explorers between 20-22 May 2019, Sheraton Lima Hotel and Convention Centre, Lima, Peru.

The event will demonstrate the efforts made by the Peruvian Institute of Mining Engineers (IIMP) to strengthen bonds between academia through its involvement in scientific research activities for the development of a responsible and sustainable mining industry.

Under the slogan “Mining Exploration: Science, Innovation, and Strategic Investment”, this event aims to strengthen the mining exploration value chain and provides an opportunity to consolidate the findings in new deposits.

Abstract
This paper describes automatic drillhole logging solutions based on supervised classification techniques. The solutions are presented as case of studies and categorized based on the degree of complexity. The easiest solutions used geochemical and geophysical composition as features. Classification with textual description is presented as a solution with intermediated degree of difficulty. The example with highest degree of difficulty used core images to calculate probability and location of pebble occurrence in a paleo-placer gold deposit. Success and failure are described as a function of how well the data describes the classes. We show that the most difficult classification problem is when training data does not cover all possible classes or feature variations, and one class classification with autoencoders is proposed as possible solution to this problem.


Resumen
Este trabajo describe la clasificación o logueo de intervalos de sondajes usando clasificación supervisada. Las diferentes soluciones son presentadas como casos de estudio y categorizadas según su grado de dificultad. Las soluciones más fáciles son aquellas que utilizan composición química y geofísica. La clasificación usando la descripción textual de los intervalos es presentada como un problema de dificultad intermedia. El alto grado de dificultad se muestra con un caso de estudio que utiliza imágenes de intervalos de muestreo para calcular la posición y probabilidad de ocurrencia de guijarros en un depósito de paleo-placer de oro. El éxito y fracaso se describen en función de cuan bien la data describe las clases. Se muestra que el problema de clasificación mas complejo es aquel donde los datos de entrenamiento no describen todas las posibles clases o variaciones, y se propone el uso de clasificadores de una clase con autoencoders como uno solución a este problema.

Palabras clave: clasificación supervisada, redes neuronales, clasificadores de una clase, autoencoders

Introducción

El logueo de intervalos de muestreo es una tarea realizada, por lo general, de forma manual, es propensa errores y es difícil realizar de manera sistemática y concisa. Una manera eficiente de automatizar este proceso es utilizando técnicas de clasificación supervisada de machine learning. En este trabajo se muestran tres casos de estudio que ilustran de logueo con machine learning, pero primero se describe de manera conceptual un sistema de clasificación automatizada basado en machine learning.

Sistema de logueo automatizado

Una solución de machine learning para logueo tiene dos etapas principales:
a) la generación de los clasificadores (entrenamiento) y
b) la etapa de producción, tal y como lo muestra la Figura 1.

En la etapa de entrenamiento se ajusta un modelo de clasificación usando datos de entrenamiento y prueba generados manualmente. Estos datos contienen un descriptor de la clase, el tipo de roca, y propiedades (features) que pueden ser la composición química, geofísica, imágenes o la descripción detallada de los testigos, entre otras. El proceso de ajuste, conocido como entrenamiento, normalmente se realiza de manera iterativa y automatizada y termina cuando se logran errores de clasificación aceptables o se alcanza un número de iteraciones predefinido. Una vez ajustado el modelo se validan los resultados con una base de datos de validación.

El modelo, una vez ajustado, se exporta y se “conecta” a una aplicación, por ejemplo, de bases de datos. La diferencia entre una etapa y la otra es que en producción el modelo es fijo y el entrenamiento se detiene.

La efectividad de un clasificador depende de la calidad del modelo ajustado y este de los datos usados como entrenamiento. El clasificador falla cuando recibe datos fuera del espacio en el que se tomaron los datos de entrenamiento, por ejemplo, un tipo de roca nuevo o rocas con features fuera de los rangos. Esto se conoce como falta de generalización y es común en geología, donde una roca puede tener aspectos muy diferentes (alta variabilidad) y no es fácil encontrar bases de datos suficientemente grandes que recoja todas las variaciones posibles. La solución al problema de generalización es crear clasificadores para áreas o yacimientos minerales específicos, o usar propiedades o features con poca variabilidad, por ejemplo, elementos químicos mayoritarios para clasificar grupos de rocas.


Figura 1: Etapas comunes de Desarrollo de un sistema de clasificación automatizada de intervalos de sondajes.

Clasificación de rocas usando propiedades químicas y geofísicas

Se utilizaron datos del depósito Flin Flon (Geological Survey of Canada, 2011) y Georoc Database. La Figura 1 muestra el proceso de entrenamiento y la preparación del modelo de producción utilizando el software Orange (Demsar J et al, 2013).

Figura 2: Selección del clasificador y proceso de aprendizaje (arriba) y proceso de producción implementado usando sofware Orange. Se retuvo la red neuronal como clasificador por presentar mejores resultados en la validación. Los resultados de la clasificación para los datos de Flin Flon, usando información geofísica, se muestran en la Figura 3, (arriba). Note que se incluye la clasificación con red neuronal, la roca original y la probabilidad para cada tipo de roca. La disponibilidad de probabilidades permite una evaluación cuantitativa de la proximidad de la roca a las clases de referencias usadas en la etapa de clasificación e interpretar los errores de clasificación (Figura 3). En este caso los clasificadores basados en datos geoquímicos son fáciles de generalizar porque la composición de elementos mayoritarios de rocas de una misma clase es similar, independiente mente del origen de la muestra. Esto hace posible usar clasificadores de machine learning entrenados con datos globales (como los de Georoc) en sistemas de bases de datos dedicados (por ejemplo, Acquire).

Clasificación de rocas usando descripción textual 

Este ejemplo muestra como realizar clasificación automática usando descripción textual como feature. Este tipo de dato requiere preprocesamiento para eliminar características ambiguas del texto y para convertir los datos textuales en numéricos. A partir de este punto el entrenamiento se realiza de forma similar que el caso anterior. Los resultados son similares.

Este clasificador es difícil de generalizar porque depende en gran medida que cuan sistemática sea la descripción textual.

Clasificación usando imágenes

El último caso de estudio corresponde al paleoplaser de oro Castelo de Sonhos, Pará, Brasil (Tristargold, 2018). El objetivo es detectar los guijarros, donde se concentra el oro. Las imágenes son de optical televiewer en sondajes de circulación inversa (RC).

Se diseño una red neuronal convolucional inspirada en VGG16 net (Karen Simonyan, Andrew Zisserman, 2015) y se implementó en el paquete de Python Keras. Esta se entrenó con imágenes de 34 x 56 pixeles que contienen guijarros y areniscas. Las imágenes de entrenamiento son pequeñas ventanas extraídas y clasificadas manualmente.
El proceso de aprendizaje y los resultados de este modelo se muestran en la Figura 5.

El clasificador se usó para clasificar ventanas móviles que se desplazaron por las imágenes de los sondajes, tal y como se muestras en la Figura 6, pero la clasificación falla cada vez que aparecen elementos no incluidos en la imagen de entrenamiento, por ejemplo, zonas grietas, cambios de textura y color.


Figura 3: Logueo usando redes neuronales. Arriba datos geofísicos del depósito Flin Flon. Debajo con datos geoquímicos de proyecto georock (mostrándose solo intervalos con error de clasificación).


Figura 4: Logueo automático usando descripción geológica. Arriba, algoritmo de preprocesamiento y entrenamiento, debajo resultado de la clasificación.


Figura 5: Clasificador generado usando red neuronal convolucional con arquitectura similar a VGG 16.

Este problema trató de resolverse con autoencoders (Figura 7). Esta es una vía para definir clasificadores de solo una clase y consiste en entrenar una red con la misma entrada y salida, cada vez que el clasificador observa un objeto nuevo no logra reproducir la imagen y la probabilidad de ser la clase para la cual fue entrenado disminuye.


Figura 6:
Cálculo de probabilidad de guijarros. Arriba clasificación correcta. Debajo errores de clasificación.


Figura 7: Experimento de clasificación con outoencoders.

Conclusiones

El uso de clasificadores de machine learning permite automatizar el logueo de sondajes usando diferentes variables (features) de entrada. El resultado es la clasificación y las probabilidades de las clases, siendo este un resultado superior y más sistemático que el logueo manual.

La clasificación mas difícil es aquella que utiliza imágenes dado el grado de variabilidad de las mismas. Dichos clasificadores son difíciles de generalizar.

Los clasificadores basados en una clase pudieran ser la solución a este problema.

Referencias bibliográficas

Connect with our Leaders

SIGN UP FOR EMAIL ALERTS

CONNECT WITH CSA GLOBAL