kmeans原理

kmeans原理

kmeans原理如下:

輸入:聚類個數k,以及包含n個數據對象的數據庫。輸出:滿足方差最小標準的k個聚類。

K-means算法是很典型的基於距離的聚類算法,採用距離作爲相似性的評價指標,即認爲兩個對象的距離越近,其相似度就越大。該算法認爲簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作爲最終目標。K-Means算法是無監督的聚類算法,它實現起來比較簡單,聚類效果也不錯,因此應用很廣泛。K-Means算法有大量的變體,本文就從最傳統的K-Means算法講起,在其基礎上講述K-Means的優化變體方法。包括初始化優化K-Means++,距離計算優化elkanK-Means算法和大數據情況下的優化MiniBatchK-Means算法。