Para utilizar el aprendizaje automático, los investigadores primero deben convertir las moléculas a un formato legible por computadora. Muchos grupos de investigación ya han resuelto este problema, por lo que existen diferentes formas de realizar esta tarea. Sin embargo, es difícil predecir cuál de los métodos disponibles es mejor para responder a una pregunta concreta (por ejemplo, determinar si un compuesto químico es perjudicial para los seres humanos). El nuevo algoritmo está diseñado para ayudar a encontrar la mejor huella molecular en cada caso. Para ello, el algoritmo selecciona gradualmente las huellas moleculares que producen los mejores resultados de predicción entre varias huellas moleculares generadas aleatoriamente. «Siguiendo el ejemplo de la naturaleza, utilizamos mutaciones, es decir, cambios aleatorios en partes individuales de una huella dactilar o la recombinación de componentes de dos huellas dactilares», explica el estudiante de doctorado Felix Katzenberg.
«En otros estudios, a menudo se describe que las moléculas tienen propiedades cuantificables que los humanos seleccionan y cuentan», añade Frank Gloris. «Si bien el algoritmo que desarrollamos identifica automáticamente estructuras moleculares relevantes, no existe un sesgo sistemático causado por la experiencia humana». Otra ventaja es que el método de codificación permite comprender por qué el modelo realiza una predicción particular. Por ejemplo, es posible concluir qué partes de una molécula influyen positiva o negativamente en la predicción de cómo se producirá una reacción, lo que permite a los investigadores modificar la estructura relevante de forma específica.
El equipo de Münster descubrió que su nuevo método no siempre daba los mejores resultados. «Cuando la experiencia humana se ha centrado en la selección de propiedades moleculares especialmente relevantes o cuando hay una gran cantidad de datos disponibles, otros métodos, como las redes neuronales, a veces resultan esqueléticos», admite Felix Katzenberg. Sin embargo, uno de los principales objetivos del estudio fue desarrollar un método para codificar moléculas que pueda aplicarse a cualquier conjunto de datos moleculares y no requiera conocimientos expertos de las relaciones básicas.