ホーム ブログ 第24回 統計科学セミナー 「Sparse kernel k-means clustering for high-dimensional data (高次元データに対するスパースカーネルk-means法)」 第24回 統計科学セミナー 「Sparse kernel k-means clustering for high-dimensional data (高次元データに対するスパースカーネルk-means法)」 2025.04.10 seminar 日時 : 2025年4月30日(水)16:30 ~ 17:30場所 : 東北大学大学院情報科学研究科棟2階大講義室講演者 : Guan Xin(情報科学研究科・特任助教)概要 : k-means法は最も基本的なクラスタリング法の一つであり、高次元データの場合、クラスタ構造とは無関係な特徴量(ノイズ変数と呼ぶ)が存在するため、k-means法は上手く機能しない場合がある。従来のスパースk-means法は、特徴量の選択とクラスタリングを同時に実行するが、線形なクラスタ境界を持つ単純なクラスタ構造しか考慮できないという欠点がある。一方、カーネルk-means法は非線形なクラスタ構造を持つデータに対して有効な方法である。しかし、この方法はノイズ変数を含む高次元データに対しては上手く機能しない。本研究では非線形クラスタリングと特徴選択を同時に実行できるスパースカーネルk-means法を提案した。提案手法は各特徴量が選択されるかどうかを表すインディケーターを導入し、このインディケーターに関する制約を考えた。それで、特徴選択により、ノイズ変数の影響を受けることなく、高次元データに対してもカーネルk-means法の長所を活かすことができる。本研究では理論分析を通じて、適切な条件の下で提案手法のクラスタリング一致性と特徴選択一致性を示した。また、数値実験および実データ解析を通じて、提案手法が既存の高次元クラスタリング法の性能を大幅に改善することを示した。Guan Xin (Graduate School of Information Sciences, Tohoku Univ.). Sparse Kernel k-means Clustering for High-dimensional Data . 目次 一覧に戻る