Sobre la Factibilidad de Usar Técnicas de Minería de Flujos de Trabajo Para Inferir Grafos de Ejecución en Sistemas de Procesamiento Distribuido

Gladys E. Carrillo, Cristina L. Abad

Resumen


En el presente trabajo, se considera el problema de la evaluación de nuevas mejoras a plataformas de procesamiento distribuido. Específicamente, se considera la evaluación utilizando cargas de trabajos reales publicadas por empresas con grandes clústeres de datos. Estas evaluaciones son comúnmente utilizadas por investigadores ya que permiten demostrar la utilidad de sus proyectos de investigación. Sin embargo, presentan el problema que hasta el momento no se ha liberado ninguna traza de trabajos que contenga información de las dependencias existentes entre los mismos.

La metodología propuesta está basada en técnicas de minería de flujos de trabajo (worfklow mining) para obtener cargas de trabajos distribuidos con dependencias realistas entre trabajos. Esta metodología permite obtener esta información a través del minado automatizado de trazas que carecen de información de dependencias entre trabajos. Finalmente, se demuestra que la metodología propuesta es capaz de encontrar flujos de trabajo realistas en trazas publicadas por Google.


Palabras clave


Procesamiento distribuido; clústeres; minería de datos; Hadoop; flujos de trabajo; cargas de trabajo

Texto completo:

.PDF

Enlaces refback

  • No hay ningún enlace refback.


Una publicación de la Escuela Superior Politécnica del Litoral (ESPOL).

Revista Tecnológica ESPOL - ISSN 1390-3659