Razonamiento basado en casos para identificación automática de especies

El razonamiento basado en casos es una técnica de inteligencia artificial que, como todas las demás, se utiliza para resolver problemas que no son nada triviales para una máquina. Gran parte de la inspiración de este enfoque proviene del rol de los recuerdos en el razonamiento humano. (Schank, 1992. Citado en [2].)

Los problemas se resuelven adaptando una solución anterior que funcionó con un caso similar al actual. Los casos consisten en un problema, su solución, y anotaciones sobre cómo se obtuvo esa solución. [4]

Según Aamodt y Plaza [1], el razonamiento basado en casos «es capaz de usar el conocimiento específico de situaciones o casos concretos previamente experimentados». Además mencionan que este paradigma es muy distinto a otros enfoques de la inteligencia artificial, porque no se basa sólo en el conocimiento general del dominio del problema; ni hace asociaciones sobre relaciones generales, entre descripciones de problemas y conclusiones.

Este tipo de razonamiento artificial se puede formalizar en 4 etapas [4]:

  1. Recuperar: se recuperan casos de la memoria que son relevantes para solucionar el problema actual.
  2. Reutilizar: tomar la solución del caso anterior y adaptarla al actual.
  3. Revisar: probar la solución, y, si es necesario, ajustarla.
  4. Retener: luego de que la solución tuvo éxito con el problema actual, almacenar un nuevo caso en la memoria.

Este paradigma ha sido utilizado para problemas de clasificación, interpretación, calendarización, planeamiento, diseño, diagnosis, explicación, análisis, mediación, argumentación, proyección de efectos, monitoreo, razonamiento creativo, entre otros.[2]

El problema de identificación automática de especies es básicamente un problema de clasificación, que puede seguir dos enfoques: según el fenotipo o según el genotipo. La idea es sencilla, primero se estudian las características de algún espécimen, luego se comparan con las de las especies ya identificadas y se agrupa dentro de alguna de estas o, si no pertenece a ninguna, se nombra una nueva especie.

Pero la tarea no es nada sencilla. Hay millones de especies. Algunas tienen sutiles diferencias que sólo un taxónomo experto en esa especie (o un análisis de ADN) puede identificar; y otras tienen similitudes que no ayudan mucho a la clasificación, como las alas de un murciélago y de un ave.

Por esto toma mucho tiempo identificar a qué especie pertenece un espécimen, y por esto también sería muy útil una herramienta que lo haga de forma automática. Pero los mismos problemas aplican para un sistema de este tipo, agregando otras limitantes como menos capacidad visual y que algunas cosas que serían obvias para un clasificador humano, para una máquina no lo serán.

Sin embargo en los últimos años han habido muchos avances en el campo, principalmente en la digitalización de información sobre especies. Se ha trabajado en consolidar la información, y ya hay sistemas que permiten consultar fuentes dispersas geográficamente y con datos diversos, como Speciess2000. Además se están dedicando esfuerzos a estandarizar los formatos en los que se publica la información, como ABCD Schema. Ambos son problemas parcialmente resueltos y con mucho camino por recorrer, pero que ya tienen un producto muy útil: una cantidad masiva de información que se puede procesar en una computadora.

Ahora, ¿cómo aprovechar esta información para generar un clasificador artificial que pueda identificar especies? No lo sé :) Este tema da para ser estudiado por varios meses o varios años. Pero unas cuantas ideas iniciales podrían servir:

  • El enorme repositorio de información distribuida sobre especies y especímenes podría funcionar muy bien como grupo de entrenamiento para un sistema de inteligencia artificial. En particular podría ser muy útil seguir un enfoque de razonamiento basado en casos, que aprende tanto de los éxitos como de los fracasos.
  • El problema incluye el conjunto de características (fenotípicas y genotípicas) que se tienen de un espécimen no clasificado; y es muy probable que este conjunto varíe entre un espécimen y otro. Primero es necesario descartar las características irrelevantes, o sea, las que en problemas anteriores no ayudaron a llegar a una solución.
  • Luego se toman los éxitos almacenados para decidir si el espécimen es similar a un caso anterior. Aquí se podría descubrir si el individuo difiere lo suficiente de su especie más cercana como para ser clasificado en un grupo nuevo; o sea, que casos anteriores con el mismo grado de similitud terminaron en una especie nueva o fueron agrupados dentro de la especie ya existente.
  • Finalmente la revisión la puede hacer un taxónomo, para validar o rechazar el resultado y agregar el proceso de resolución a la base de conocimiento.
  • Si se lograra que el sistema utilizara como su memoria todos los datos publicados en estas diversas fuentes, la memoria del sistema iniciaría con miles de casos ya resueltos; que se pueden interpretar tanto como éxitos (el mapeo de un grupo de espécimenes a una especie) y como fracasos (todas las especies a las que un espécimen no pertenece). Además si los identificadores humanos se apoyan en el sistema en su trabajo diario, muchos nuevos casos de éxito y fracaso serán incluidos.

Aún quedan muchos problemas por solucionar para que un sistema como este tenga éxito: las bases de datos deben limpiarse para que no tengan errores ni datos redundantes que no estén bien enlazados, los tiempos de consulta a las bases de datos distribuidas deben acortarse, la información debe estar estandarizada, y las consultas deben ser más inteligentes que simples búsquedas textuales. Sin embargo el camino ya recorrido y la enorme cantidad de información disponible son un muy buen inicio para la automatización de los procesos de identificación.