Quillot Mathias / volia

Browse Code »

Commit 1c1f0f29a768a0519933f876ecc8a9494e8984a4

Authored by quillotm 2021-08-24 09:39:35 +0200

1 parent a9912f135f

Exists in master

Now we train n_init time with the basic multidistance implementation of k-means.

Showing 1 changed file with 48 additions and 5 deletions Inline Diff

volia/clustering_modules/kmeans_multidistance.py

volia/clustering_modules/kmeans_multidistance.py

Diff comments View file @ 1c1f0f2

 import pickle
 from abstract_clustering import AbstractClustering
 from KMeans_Multidistance.KMeans_Class import KMeans
+from random import seed
+from random import random
+import numpy as np
+from sklearn.metrics import pairwise_distances
 class kmeansMultidistance():
     def __init__(self, distance="cosine"):
-        self.kmeans_model = None
+        self.kmeans_model = None # Best model
         self.centroids = None
         self.distance = distance
+        self.seed = None # Seed of the best
+        self.seeds = None
     def predict(self, features):
         """
         @param features:
         @return:
         """
         return self.kmeans_model.assign_clusters(data=features, centroids=self.centroids, distance=self.kmeans_model.distance)
     def load(self, model_path: str):
         """
         @param model_path:
         @return:
         """
         with open(model_path, "rb") as f:
             data = pickle.load(f)
             self.kmeans_model = data["kmeans_model"]
             self.centroids = data["centroids"]
             self.distance = self.kmeans_model.distance
     def save(self, model_path: str):
         """
         @param model_path:
         @return:
         """
         with open(model_path, "wb") as f:
             pickle.dump({
                 "kmeans_model": self.kmeans_model,
                 "centroids": self.centroids
             }, f)
     def fit(self, features, k: int, tol: float, ninit: int, maxiter: int=300, debug: bool=False):
         """
         @param features:
         @param k:
         @return:
         """
-        model = KMeans(k=5, maxiter=maxiter, distance=self.distance, record_heterogeneity=[], verbose=True, seed=123)
+        # Initialization
-        centroids, _ = model.fit(features)
+        self.kmeans_model = None
-        self.centroids = centroids
+        self.centroids = None
-        self.kmeans_model = model
+        self.seed = None
+        # Compute seeds before using seeds
+        seed()
+        self.seeds = [random() for i in range(ninit)]
+        # Learning k-means model
+        results = []
+        for i in range(ninit):
+            model = KMeans(k=5,
+                           maxiter=maxiter,
+                           distance=self.distance,
+                           record_heterogeneity=[],
+                           verbose=True,
+                           seed=self.seeds[i])
+            centroids, closest_cluster = model.fit(features)
+            # Compute distance
+            kwds = {}
+            if self.distance == "mahalanobis":
+                VI = np.linalg.pinv(np.cov(features.T)).T
+                kwds = {"VI": VI}
+            distances = pairwise_distances(features, centroids, metric=self.distance, **kwds)
+            # Then compute the loss
+            loss = np.sum(distances[np.arange(len(distances)), closest_cluster])
+            results.append({
+                "model": model,
+                "centroids": centroids,
+                "seed": self.seeds[i],
+                "loss": loss
+            })
+        losses = [result["loss"] for result in results]
+        best = results[losses.index(min(losses))]
+        self.kmeans_model = results[best]["model"]
+        self.centroids = results[best]["centroids"]
+        self.seed = results[best]["seed"]