ホーム ブログ 2026/07/22開催: 第45回統計科学セミナー「マスクを学習する — 深層モデルのスパース性に対する情報理論的視点」 2026/07/22開催: 第45回統計科学セミナー「マスクを学習する — 深層モデルのスパース性に対する情報理論的視点」 2026.06.15 seminar 日時:2026年7月22日(水)16:30 - 17:30 場所:東北大学大学院情報科学研究科2階大講義室タイトル:マスクを学習する — 深層モデルのスパース性に対する情報理論的視点講演者:孫 露 准教授(東北大学 未踏スケールデータアナリティクスセンター)概要:現代の機械学習における多くの問題は、「高次元の対象から有用な部分のみを残し、それ以外を捨てる離散的な二値マスクをいかに学習するか」という共通の統計的問いに帰着する。本講演では、マスク学習に対する統一的な情報理論的・変分的視点を提示し、それを最近の二つの研究に具体化する。HyperPrune(ICLR 2026)は大規模言語モデルの n:m 半構造化枝刈りを行う手法であり、層間で共有され学習可能な埋め込みで条件づけられた軽量なハイパーネットワークが層ごとに構造化マスクを生成する。小摂動下の線形・ガウス近似のもとで、層ごとの再構成誤差の最小化が密なモデルと枝刈り後モデルの相互情報量の最大化と等価であることを示し、これにより離散的な選択を Gumbel–softmax 緩和を通じて微分可能な目的関数へと変換する。本手法は単一のGPU上で7Bから70BまでのLLaMAに対して高い精度・スパース性のトレードオフを達成する。VIBMask(IJCAI–ECAI 2026)は変分情報ボトルネックを通じてインスタンスごとの特徴選択を定式化する手法であり、選択されなかった特徴とラベルの間の相互情報量を罰則化することで、選択器がマスク自体にラベル情報を埋め込んでしまう情報漏洩現象である co-adaptation(共適応)に直接対処する。同時に、多様な選択器のアンサンブルが不均質なスパース性を捉える。最後に、両研究を貫く共通の統計的な糸 — 離散マスクの確率的緩和、相互情報量に基づく目的関数、そしてそれらが依拠する仮定 — を整理し、限界と今後の方向性について議論する。 Lu Sun (Unprecedented-scale Data Analytics Center, Tohoku University) 目次 一覧に戻る