クラスタ分析の新アルゴリズム:特徴量を1/100まで減らし計算コストを削減

2024/06/26 14:34 By Tech Manage

Advantages

  • クラスタ分析の計算コストを大きく削減する、新しいアルゴリズム
  • 特殊な主成分分析を提案。クラスタ分析に用いる特徴量を従来の1%未満まで削減
  • 扱う特徴量が大きく減るにもかかわらず、クラスタ分析の精度は高いまま
  • 企業内のビッグデータ解析において、大きなコスト削減に寄与
  • 筑波大学との協業を通して技術を提供。事業での利用を支援

Background and Technology

データサイエンスにおいて、クラスタリング(クラスタ分析)の普及が進んでいるが、実用上の問題がある。より正確・分解能が高い解析への要求から、測定する要素=特徴量とサンプル数が増大し、全体のデータ量が爆発的に増えていることだ。つまり、クラスタリングに要するコスト(計算機のハードウェア・消費エネルギー・時間・運用保守のコスト)を抑えつつ、よりよい解析をおこなうことが求められる。
筑波大学 人工知能科学センター 櫻井鉄也 教授の研究グループは、クラスタリングにおいて分析の精度を劣化せずに、扱う特徴量を著しく縮小し、コストを削減するあたらしい手法を開発した。この手法のコアは、データに「コロンブスの卵」のような逆転の発想を持つ特別な主成分分析をほどこすことだ。この処理によって、特徴量の数を元データの1万分の1程度まで減らしたとしても、分割の精度を落とすことなくクラスタリングが可能になる。クラスタリング処理におけるコストを削減するという課題を、この筑波大学開発の技術が一挙に解決すると期待される。

【詳しいアルゴリズムの説明】
本技術の処理は、大きく4つの段階に分かれる。第1段階が、特殊な主成分分析、第2段階が採用する主成分の選別、第3段階が特徴量の選別、そして第4段階でクラスタリングをおこなう。
第1段階について説明する(図左上)。ここでは「特殊な主成分分析」をおこなう。普通の主成分分析(PCA)では、主成分となる特徴量を軸としてサンプルがグラフ上に散布するような処理がなされる。これを「特徴量空間でのPCA」という。一方で、本技術の主成分分析は、特徴量とサンプルの行と列を転置した「サンプル空間」でPCAをする。つまり、得られる結果が、主成分となる“サンプル“を軸とするグラフ上に、対応する特徴量が散布する。
次に、第2段階だ(図右上)。ここでは後段の処理に使う主成分を選別する。選ぶ基準は、主成分に対する分布を見た時に正規分布に近いことである。すなわち、性質の良い主成分が選択される。
第3段階について説明する(図左下)。ここでは、第1段階で得た「サンプル空間のPCA」からクラスタリングで用いる特徴量を選び出す。選ぶ基準は、第2段階で選別した主成分を使ったサンプル空間に特徴量を分布したとき、原点からより遠い位置にあることである。つまり、サンプル空間において原点からのユークリッド距離が大きい順にある程度の個数の特徴量を選ぶ。この個数は任意だが、前述の通り、一般のクラスタリング技術よりも少ない個数で十分である。
最後に第4段階として、実際のクラスタリング処理をおこなう。通常のクラスタリングアルゴリズムを施すが、採用する特徴量が第3段階で決まっていることが大きな特徴である。
結果、得られたクラスタ構造は、従来のクラスタリングアルゴリズムとほぼ同等のであるが、扱う特徴量の数が100分の1程度まで削減できた。

Data

  • ジェノタイプデータ(※)を対象に検証(※遺伝子配列のデータの一種。参照となる遺伝子配列と、サンプルの配列との差異をデータベース化したもの)
  • データのサンプル数は600、特徴量は2000万個。
  • 典型的な教師なしクラスタリングアルゴリズム(PCA、t-SNE、UMAPなど)では、特徴量を10万個扱う。
  • 本技術のアルゴリズムで、特徴量を1000個としてクラスタリングした
  • 得られたクラスタ分割は本技術と従来方法とでは、ほとんど同じになる(図右下)。
  • 処理する特徴量が100分の1に削減できた。特徴量を抽出する処理(前述の第1から第3段階)にかかる計算を考慮しても、従来方法に比べて、計算コストは小さい。

Expectations

本技術をお使いいただくことで、貴社の製品やサービスに新たな価値をご提供できると考えます。
データサイエンスの解析サービスやパッケージ製品を提供する企業様では、ぜひ貴社事業へ本アルゴリズムを導入し、高速・高精度なクラスタリングソリューションをユーザーにおとどけください。
自社内でデータサイエンスを活用したマーケティング、セールス、設計、製造、管理、などされている企業様では、本技術を活用することで、大きなコスト削減が期待できます。ぜひ、貴社のデータサイエンティストに本技術をご紹介ください。大学から直接技術をご紹介する機会もご相談できます。
ご関心をお持ちいただいた企業様との以下の様なプロセスで技術の活用に向けた活動をお手伝いします。
  • ご質問への対応
  • 先生とのご面談による詳細説明
  • NDA締結下での情報交換
  • 共同研究などによる実用化に向けたフィジビリティスタディ
  • 特許ライセンス

Patents

  • 知財1:国際公開 WO2022107835
  • 知財2:特開2023-006500

Researchers

櫻井 鉄也(筑波大学 システム情報系 教授、人工知能科学センター長)
以下のフォームからお問い合わせください

Tech Manage