Automatización del aprendizaje de máquinas (“Automl”): logros y obstáculos

Adrián Bender; Santiago Nicolet; Matías Macrino

Autores/as

Adrián Bender USAL
Santiago Nicolet
Matías Macrino

Palabras clave:

AutoML, Aprendizaje Automático, Automatización, Simulación, Minería de Datos

Resumen

La Automatización del Aprendizaje de Máquinas (AutoML) pretende complementar o simular la tarea de los expertos en Aprendizaje Automático en el desarrollo de un proceso de Minería de Datos. El avance reciente en el Aprendizaje Automático y las ventajas competitivas que permite el descubrimiento de conocimiento en los datos generan un auge por el desarrollo de aplicaciones que automaticen las tareas de este flujo de trabajo.Es por eso que existe una creciente comunidad generada en torno a la creación de herramientas que automatizan estas tareas, cuyo éxito hoy día depende fundamentalmente de expertos en Machine Learning, quienes preprocesan los datos, construyen los modelos eligiendo los algoritmos apropiados y configuran sus hiperparámetros.Diversas son las técnicas con las cuales se pretende automatizar estas actividades, que en el caso de los expertos humanos es llevada a cabo con conocimiento, intuición, juicio y razonamiento.Un tema a considerar en la evaluación de estas técnicas es que la productividad en la Minería de Datos no es una cuestión cuantitativa, es más bien un problema de la calidad de lo que los procesos produzcan. En el contexto de conocimiento de los datos, la calidad se refiere a la validez y relevancia de los patrones que los modelos pueden descubrir a partir de los datos. Entonces, será interesante saber:¿Qué sucederá cuando se automatice el trabajo de todos estos expertos?¿Qué pasará con la calidad cuando se “democratice” aún más el campo del Aprendizaje Automático proporcionando a cualquier persona las herramientas de análisis automático?Este proyecto de investigación se propuso como objetivo general el relevamiento del alcance y de la eficacia de las herramientas de AutoML disponibles, buscando que los resultados permitieran contribuir al conocimiento del estado del arte de esta incipiente área, cuantificar el grado de eficacia que tienen las herramientas existentes e identificar áreas de mejora para la automatización de esta ciencia que ha cobrado tanta importancia recientemente.Para ello, se desarrolló un sistema de métricas que permitiera relevar el alcance y las capacidades de automatización de los frameworks. Se seleccionaron los de mayor uso y se identificaron conjuntos de datos a ser utilizados como muestra de los problemas que estas herramientas permiten resolver.Se efectuó una prueba comparativa que evaluara la performance para la resolución de los problemas seleccionados.Como resultado del trabajo, se elaboró el documento “Evaluación Comparativa de Herramientas AutoML de Código Abierto”, enviado para su evaluación al CoNaIISI 2019 – 7. ° Congreso Nacional de Ingeniería Informática – Sistemas de Información. El paper fue aprobado y presentado en dichocongreso internacional. Allí se contrastaron los valores obtenidos por las tres herramientas evaluadas y por la línea base establecida. El análisis sobre estos permitió concluir que todas las herramientas mostraron cierto nivel de eficacia y que lograron mejores resultados que los que un usuario obtendríade forma básica. El trabajo incluyó una segunda instancia de evaluación, y allí las diferencias no resultaron significativas. Afirmamos que entre sus posibles causas podría estar la sobreadaptación de los pipelines generados, lo cual consideramos una interesante línea de investigación futura. Alcontrastar los resultados de las herramientas entre sí, no observamos diferencias significativas entre ellas. El trabajo también incluyó un detalle de la experiencia con dichas herramientas, y entre las conclusiones se mencionaron las principales características de cada una: la generación de modelosensamblados y el módulo de inicio rápido de Auto-sklearn, la posibilidad de exportación del modelo de TPOT para ser utilizado sin dependencias, y la facilidad de uso de Auto-WEKA, que permite obtener buenos resultados con un solo clic.

Automatización del aprendizaje de máquinas (“Automl”): logros y obstáculos

Autores/as

Palabras clave:

Resumen

Descargas

Publicado

Cómo citar

Número

Sección

Artículos más leídos del mismo autor/a

Información

Redes sociales