Desarrollo de métricas para la clasificación supervisada en aplicaciones con datos empíricos

Revilla Ocejo, Julio Manuel

Desarrollo de métricas para la clasificación supervisada en aplicaciones con datos empíricos

Archivos

1707125690_410564.pdf (7.19 MB)

Fecha

2016-01-22

Autores

Revilla Ocejo, Julio Manuel

Editor

Universidad de Deusto

Resumen

El objetivo de esta tesis es el estudio y desarrollo de nuevas métricas que amplíen la forma tradicional de medir la distancia entre casos, siendo de aplicación en algoritmos de clasificación como k-NN y, plausiblemente, en otros como las máquinas de vectores de soporte (SVM). Su aplicación está ligada a problemas de clasificación en los que los casos se puedan expresar mediante un conjunto de atributos, los cuales serán representados como colecciones de valores numéricos (vectores). Partiendo de un conjunto de casos empíricos previamente bien clasificados, se elegirán u optimizarán los parámetros de la métrica, la cual será posteriormente aplicada para calcular la distancia entre dos casos cualesquiera (y así poder evaluar la similitud entre ellos). En esta tesis se ha diseñado en primer lugar una métrica, denominada BTW, inducida por una transformación. Propone una misma expresión matemática para realizar el cálculo de las distancias en todo el espacio de los atributos (es pues una métrica global). También se ha propuesto otra métrica, a la que se le ha puesto por nombre LOM, cuyo cálculo de la distancia depende de un conocimiento “a priori”, y en el que dicho cálculo varía dependiendo de la localización de ambos casos (es una métrica local). Estas nuevas métricas estarán orientadas, bien a disminuir el tiempo que se tarda en buscar los vecinos más próximos a uno dado y la cantidad de memoria requerida para almacenar la información que permite realizar esta tarea (métrica BTW); bien a mejorar la precisión de los algoritmos de clasificación (métrica LOM). Las prestaciones de la métrica BTW y su algoritmo asociado han sido evaluadas mediante problemas reales que nos permiten asegurar que, manteniendo una alta precisión en la clasificación, se consigue reducir el espacio de almacenamiento y el tiempo necesario para encontrar los vecinos más próximos de un caso dado. Para la métrica LOM se ha diseñado un problema sintético que, resuelto mediante un algoritmo de clasificación basado en los vecinos más próximos, permite comprobar una mejora en la precisión de la clasificación (al comparar sus prestaciones respecto al mismo algoritmo cuando usa una métrica euclídea).

Materias

Matemáticas
Ciencia de los ordenadores
Análisis numérico
Estadística

URI

http://hdl.handle.net/20.500.14454/922

Colecciones

Tesis doctorales

Página completa del ítem