Agrupación jerárquica vs agrupación particional

El agrupamiento es una técnica de aprendizaje automático para analizar datos y dividirlos en grupos de datos similares. Estos grupos o conjuntos de datos similares se conocen como grupos. El análisis de conglomerados analiza los algoritmos de conglomerado que pueden identificar los conglomerados automáticamente. Jerárquico y Particional son dos clases de algoritmos de agrupación. Los algoritmos de agrupación jerárquica dividen los datos en una jerarquía de agrupaciones. Los algoritmos parciales dividen el conjunto de datos en particiones mutuamente disjuntas.

¿Qué es el agrupamiento jerárquico?

Los algoritmos de agrupamiento jerárquico repiten el ciclo de fusionar grupos más pequeños en grupos más grandes o dividir grupos más grandes en grupos más pequeños. De cualquier manera, produce una jerarquía de clústeres llamada dendograma. La estrategia de agrupamiento aglomerativo utiliza el enfoque ascendente de fusionar agrupamientos en grupos más grandes, mientras que la estrategia de agrupamiento divisivo utiliza el enfoque descendente de dividir en grupos más pequeños. Por lo general, el enfoque codicioso se usa para decidir qué grupos más grandes / más pequeños se usan para fusionar / dividir. La distancia euclidiana, la distancia de Manhattan y la similitud de coseno son algunas de las métricas de similitud más utilizadas para datos numéricos. Para datos no numéricos, se utilizan métricas como la distancia de Hamming. Es importante tener en cuenta que las observaciones (instancias) reales no son necesarias para la agrupación jerárquica, porque solo la matriz de distancias es suficiente. El dendograma es una representación visual de los grupos, que muestra la jerarquía con mucha claridad. El usuario puede obtener diferentes agrupaciones según el nivel en el que se corta el dendograma.

¿Qué es el agrupamiento particional?

Los algoritmos de agrupamiento particional generan varias particiones y luego las evalúan por algún criterio. También se les conoce como no jerárquicos ya que cada instancia se coloca exactamente en uno de los k grupos mutuamente excluyentes. Debido a que solo un conjunto de clústeres es la salida de un algoritmo de clúster particional típico, el usuario debe ingresar el número deseado de clústeres (generalmente llamado k). Uno de los algoritmos de agrupación particional más utilizados es el algoritmo de agrupación k-means. Se requiere que el usuario proporcione el número de grupos (k) antes de comenzar y el algoritmo inicia primero los centros (o centroides) de las k particiones. En pocas palabras, el algoritmo de agrupamiento k-means luego asigna miembros en función de los centros actuales y vuelve a estimar los centros en función de los miembros actuales. Estos dos pasos se repiten hasta que se optimiza una determinada función objetivo de similitud intragrupo y una función objetivo de disimilitud entre grupos. Por lo tanto, la inicialización sensible de los centros es un factor muy importante para obtener resultados de calidad a partir de algoritmos de agrupamiento particional.

¿Cuál es la diferencia entre el agrupamiento jerárquico y el de partición?

Los clústeres jerárquicos y particionales tienen diferencias clave en el tiempo de ejecución, supuestos, parámetros de entrada y clústeres resultantes. Por lo general, la agrupación particional es más rápida que la agrupación jerárquica. La agrupación jerárquica requiere solo una medida de similitud, mientras que la agrupación particional requiere suposiciones más fuertes, como el número de grupos y los centros iniciales. La agrupación jerárquica no requiere ningún parámetro de entrada, mientras que los algoritmos de agrupación particional requieren la cantidad de agrupaciones para comenzar a ejecutarse. La agrupación jerárquica devuelve una división de agrupaciones mucho más significativa y subjetiva, pero la agrupación particional da como resultado exactamente k agrupaciones. Los algoritmos de agrupamiento jerárquico son más adecuados para datos categóricos siempre que se pueda definir una medida de similitud en consecuencia.