Navegar Autor

Jesús Soto

Clasificación difusa de Big Data en Bioinformática

El reconocimiento de patrones es una disciplina cuyo propósito es clasificar un conjunto de objetos en un número de grupos o categorías, mediante la búsqueda de una estructura en los objetos. Las diferentes técnicas numéricas para obtener estas clasificaciones pueden describirse, también, en un término más genérico: Análisis Cluster.

Una de esas técnicas dentro del Análisis Cluster es la clasificación difusa, Fuzzy clustering. Si clasificación difusa conlleva el adjetivo difusa es porque surge de un nuevo concepto: los conjuntos difusos. Aquí el adjetivo nuevo tiene la singularidad de no aplicarse en el tiempo, sino en el concepto. En 1965, Lotfi Zadeh (premiado por la Fundación BBVA) creo la teoría de conjuntos difusos, que dio pie a la introducción de la lógica difusa donde la verdad no es absoluta: no todo es blanco o negro.

Esta gradualidad de la lógica difusa se extendió al Análisis Cluster, creando la clasificación difusa: a la hora de asignar la pertenencia de un objeto a un grupo no lo hacemos mediante 0, si no pertenece, ó 1, si pertenece; ahora le asignamos un valor entre [0,1]. Sabemos que lo ideal es conocer si un objeto pertenece a un grupo o no; pero en la mayoría de los casos ese conocimiento absoluto no es posible. Este hecho se constató en la dificultad de representar matemáticamente propiedades cualitativas. Un ejemplo clásico es la clasificación de los humanos en joven, adulto o viejo: ¿qué edades determinan la frontera para asignar una persona a uno de esos grupos? Como esta pregunta surgen muchas y actualmente los trabajos de lógica difusa, y clasificación difusa, ahondan en resolver problemas de este tipo: sistemas de control de acondicionadores de aire, sistemas de foco automático en cámaras fotográficas, electrodomésticos familiares, optimización de sistemas de control industriales, sistemas de escritura, mejora en la eficiencia del uso de combustible en motores, sistemas expertos del conocimiento (simular el comportamiento de un experto humano)…

Uno de los problemas que se presenta en la clasificación difusa es la complejidad computacional cuando la cantidad de datos a analizar resulta demasiado grande: Big Data. ¿Cuánto es demasiado grande? Esta pregunta también podría tener una interpretación difusa. Como ejemplo, si estudiamos un base de datos con 5.000 registros y tres variables podemos tardar sobre 8.000 segundos, en un ordenador sencillo. Una de las líneas de investigación en la que estamos trabajando el Grupo de Investigación de Bioinformática y Computación de Altas prestaciones (BIOHPC), es en cómo reducir estos tiempos utilizando la computación de altas prestaciones(HPC).

Un primer trabajo lo hemos presentado en la pasada International Work-Conference on Bioinformatics and Biomedical Engineering (IWBBIO 2014), donde demostramos la gran ventaja que supondrá utilizar algoritmos de clasificación difusa en HPC, aplicándolo en datos biomédicos, obteniendo resultados válidos en un tiempo considerablemente menor.

poster

Hasta ahora los algoritmos de clasificación difusa han presentando dificultades en su intento de paralelización. Nosotros exploramos una nueva vía con mejoras en los algoritmos y utilizando las últimas arquitecturas de paralelización.