非負値行列因子分解

非負値行列因子分解（ひふちぎょうれついんしぶんかい、英: Non-negative matrix factorization、略称：NMFまたはNNMF）、あるいは非負値行列近似^[1]^[2]は、多変量解析および線形代数における一群のアルゴリズムであり、行列 $V$ を、通常2つの行列 $W$ と $H$ に分解するものである。このとき、3つの行列すべての要素が負でない（非負）という制約がある。

この非負性制約により、得られた行列は直感的に解釈しやすくなる。また、音声スペクトログラムや筋活動などのデータでは、そもそも非負性が前提となっている。一般には問題を厳密に解けないため、通常は数値的に近似解を求める。

NMFは、天文学^[3]^[4]、コンピュータビジョン、文書クラスタリング^[1]、欠損データ補完^[5]、計量化学、音声信号処理、レコメンダシステム^[6]、およびバイオインフォマティクス^[7]など、さまざまな分野に応用されている。

歴史

計量化学において、非負値行列因子分解（NMF）は「自己モデリング曲線分解（Self Modeling Curve Resolution）」という名称で古くから知られていた^[8]。この枠組みにおいては、右側の行列のベクトルは離散ベクトルではなく連続的な曲線として表現される。

また、1990年代にはフィンランドの研究グループによって「正値行列因子分解（Positive Matrix Factorization）」という名称で初期の研究が進められた^[9]^[10]^[11]。

「非負値行列因子分解（Non-negative Matrix Factorization）」という名称は、ダニエル・リーとセバスチャン・スンがアルゴリズムの性質を研究し、2種類の因子分解手法に対する単純かつ有用なアルゴリズムを発表した1999年以降、広く知られるようになった^[12]^[13]。

背景

行列 $V$ を $W$ と $H$ の積として表すとする：

\mathbf {V} =\mathbf {W} \mathbf {H} \,.

行列の積は、 $V$ の各列ベクトルを、 $W$ の列ベクトルの線形結合として計算することで実装できる。このとき、係数は $H$ の列によって与えられる。すなわち、 $V$ の各列は以下のように計算できる：

\mathbf {v} _{i}=\mathbf {W} \mathbf {h} _{i}\,,

ここで、 $v i$ は $V$ の第 i 列ベクトル、 $h i$ は $H$ の第 i 列ベクトルである。

行列の積では、因子行列の次元が積の行列（ $V$ ）よりも大幅に小さくできる場合があり、この特性がNMFの基礎となっている。NMFは、元の行列と比べて大幅に次元が削減された因子を生成する。たとえば、 $V$ が $m \times n$ の行列、 $W$ が $m \times p$ の行列、 $H$ が $p \times n$ の行列であれば、 $p$ は $m$ および $n$ よりもかなり小さくすることができる。

以下にテキストマイニングに基づく例を示す：

入力行列 $V$ は 10000 行 × 500 列の行列であり、行に単語、列に文書が対応する。すなわち、10000語によってインデックス付けされた500の文書がある。
アルゴリズムに対して、10個の特徴を見つけるように指定したとすると、「特徴行列」 $W$ は 10000 行 × 10 列、「係数行列」 $H$ は 10 行 × 500 列の行列となる。
$W$ と $H$ の積は 10000 行 × 500 列の行列となり、これは元の入力行列 $V$ と同じサイズであり、うまく因子分解ができていれば、 $V$ の妥当な近似になっている。
先述の行列積の説明から、 $WH$ の各列は、 $W$ の10個の列ベクトルの線形結合として構成されることが分かる。係数は $H$ の列によって与えられる。

この最後の点がNMFの本質である。元の文書（入力行列の各列ベクトル）を、少数の隠れた特徴（ $W$ の列ベクトル）によって構成されたものと考えることができる。NMFはこれらの特徴を自動的に抽出する。

特徴行列 $W$ の各特徴（列ベクトル）は、単語の集合から成る「文書の原型（アーキタイプ）」と考えることができ、各単語のセル値は、その単語がその特徴においてどれだけ重要か（ランク）を示す。係数行列 $H$ の各列は元の文書を表し、各セル値はその文書が各特徴に対してどれだけ関連しているか（ランク）を表す。元の文書は、 $W$ の各特徴ベクトルを、 $H$ の各セル値で重み付けした線形結合として再構成できる。

クラスタリング特性

NMF（非負値行列因子分解）には、内在的にクラスタリングの特性があるとされる^[14]。すなわち、入力データの列ベクトル $\mathbf {V} =(v_{1},\dots ,v_{n})$ を自動的にクラスタリングする性質を持つ。

より具体的には、 $\mathbf {V} \simeq \mathbf {W} \mathbf {H}$ によって $\mathbf {V}$ を近似するために、 $\mathbf {W}$ および $\mathbf {H}$ を誤差関数（フロベニウスノルム）の最小化によって求めると

$\left\|V-WH\right\|_{F}$

ここで、制約条件 $W\geq 0,H\geq 0$ を満たす。

さらに、 $\mathbf {H} \mathbf {H} ^{T}=I$ （すなわち $\mathbf {H}$ の直交性）という制約を追加すると、この最小化問題は数学的に K-meansクラスタリングの最小化問題と等価になる^[14]。

このとき、求められた $\mathbf {H}$ はクラスタの所属情報を示し、たとえば $\mathbf {H} _{kj}>\mathbf {H} _{ij}$ がすべての i ≠ k に対して成り立つ場合、データ $v_{j}$ は第 $k$ クラスタに属すると考えられる。また、 $\mathbf {W}$ はクラスタの重心（セントロイド）を示し、第 $k$ 列が第 $k$ クラスタの重心を与える。このクラスタ重心の表現は、凸NMF（Convex NMF）によってさらに明確になる。

この直交制約 $\mathbf {H} \mathbf {H} ^{T}=I$ を明示的に課さない場合でも、 $\mathbf {H}$ はある程度の直交性を自然に持ち、クラスタリング特性は依然として維持される。

また、誤差関数としてカルバック・ライブラー情報量を使用した場合、NMFは確率的潜在意味解析（PLSA）と等価になる。PLSA は、文書クラスタリングにおいて広く用いられている手法である^[15]。

種類

近似的非負値行列因子分解

通常、NMF における $W$ の列数と $H$ の行数は、 $WH$ が $V$ に近似するように選ばれる。完全な分解は、 $W$ と $H$ 、および残差行列 $U$ によって表され、

\mathbf {V} =\mathbf {WH} +\mathbf {U}

となる。残差行列 $U$ の要素は負の値または正の値をとる可能性がある。

$W$ および $H$ のサイズが $V$ より小さい場合、それらの格納と操作が容易になる。また、 $V$ の各要素をより少ないデータで表現したい場合には、潜在的な構造を推定する必要があり、そのために小さい行列への因子分解が有効である。

凸非負値行列因子分解 (Convex NMF)

標準的な NMF では、因子 $W \in R + m \times k$ は任意の非負値をとる。凸NMF^[16] では、 $W$ の列が入力データベクトル $(v_{1},\dots ,v_{n})$ の凸結合となるよう制限する。これにより、 $W$ によるデータ表現の質が大幅に向上し、 $H$ はより疎で直交的になる傾向がある。

非負ランク因子分解

もし $V$ の非負ランクがその通常のランクと等しい場合、 $V = WH$ は非負ランク因子分解（NRF）と呼ばれる^[17]^[18]^[19]。

$V$ の NRF（存在する場合）を求める問題は、NP困難であることが知られている^[20]。

異なるコスト関数と正則化

非負値行列因子分解にはさまざまなタイプがあり、それらは $V$ と $WH$ の間の差異（損失関数）を測る方法や、 $W$ および $H$ に対する正則化により区別される^[1]。

リーとスンによって研究された2つの単純な誤差関数は、二乗誤差（フロベニウスノルム）と、正の行列に対するカルバック・ライブラー情報量の拡張である。各誤差関数は、異なる反復更新規則に基づく異なる NMF アルゴリズムを導く。

二乗誤差を用いた NMF の場合、最小化する目的関数は以下のように表される：

F(\mathbf {W} ,\mathbf {H} )=\left\|\mathbf {V} -\mathbf {WH} \right\|_{F}^{2}

画像データに対する別の種類の NMF は、全変動ノルムに基づいている^[21]。

また、L1正則化（ラッソ回帰に類似）を追加した NMF は、「非負値スパースコーディング」とも呼ばれ、スパースコーディング問題に類似している^[22]^[23]。ただし、これも依然として NMF と呼ばれることがある^[24]。

オンラインNMF

多くの標準的なNMFアルゴリズムは、全データを一括で処理する前提で設計されており、すなわち、全体の行列が初めから利用可能である必要がある。しかし、データが膨大でメモリに収まりきらない場合や、データがデータストリームとして逐次的に提供される場合、このような手法は不都合である。例えば、レコメンダシステムにおける協調フィルタリングでは、ユーザー数やアイテム数が非常に多く、1ユーザーまたは1アイテムが追加されるたびに再計算するのは非効率である。これらのケースでは、標準のNMFとは異なるアルゴリズムが必要とされる^[25]^[26]。

畳み込みNMF

もし $V$ の列が時間や空間といった次元に沿ってサンプリングされたデータ（例：音声信号、画像、動画）を表す場合、これらの次元に対する平行移動不変性を持つ特徴を学習するために「畳み込みNMF」が利用される。この場合、 $W$ はスパースであり、その各列は $V$ の空間・時間次元に沿った平行移動によって共有される畳み込みカーネルを表す。 $H$ の空間的・時間的プーリングを行い、その結果を再び入力として畳み込みNMFに使用することで、深い特徴階層を学習できる^[27]。

アルゴリズム

$W$ と $H$ を求める方法にはいくつかの選択肢がある。LeeとSeungによる乗法更新則^[13] は、実装の容易さから人気のある手法である。このアルゴリズムは以下のようになる：

初期化：

W

および

H

を非負値で初期化する。

次に、反復ごとに以下を計算して

n

を反復のインデックスとする：

\mathbf {H} _{[i,j]}^{n+1}\leftarrow \mathbf {H} _{[i,j]}^{n}{\frac {((\mathbf {W} ^{n})^{T}\mathbf {V} )_{[i,j]}}{((\mathbf {W} ^{n})^{T}\mathbf {W} ^{n}\mathbf {H} ^{n})_{[i,j]}}}

および

\mathbf {W} _{[i,j]}^{n+1}\leftarrow \mathbf {W} _{[i,j]}^{n}{\frac {(\mathbf {V} (\mathbf {H} ^{n+1})^{T})_{[i,j]}}{(\mathbf {W} ^{n}\mathbf {H} ^{n+1}(\mathbf {H} ^{n+1})^{T})_{[i,j]}}}

W

と

H

が収束するまで繰り返す。

この更新は行列全体ではなく要素単位で実施される。

乗法更新における $W$ および $H$ の更新因子、すなわち ${\frac {\mathbf {W} ^{\mathsf {T}}\mathbf {V} }{\mathbf {W} ^{\mathsf {T}}\mathbf {W} \mathbf {H} }}$ および ${\textstyle {\frac {\mathbf {V} \mathbf {H} ^{\mathsf {T}}}{\mathbf {W} \mathbf {H} \mathbf {H} ^{\mathsf {T}}}}}$ は、 $\mathbf {V} =\mathbf {W} \mathbf {H}$ となるときはすべて1の行列になる。

最近では他のアルゴリズムも提案されている。いくつかの手法は、非負最小二乗法に基づく交互最適化に依拠しており、1ステップごとに $H$ を固定して $W$ を非負最小二乗法で解き、次に $W$ を固定して $H$ を解く。このとき $W$ と $H$ の最適化方法は同じでも異なっていてもよい。他の手法としては、射影最急降下法^[28]、有効制約法^[29]、最適勾配法、ブロック主ピボット法^[30] などが挙げられる。

逐次NMF

NMFの構成要素（ $W$ および $H$ ）を逐次構築する手法は、天文学における主成分分析（principal component analysis; PCA）との関係を示すために初めて使用された^[31]。PCAでは、構成要素の寄与は対応する固有値の大きさによってランク付けされる。一方、NMFでは構成要素が1つずつ順次に構築されるため、経験的に寄与をランク付けすることができる。

逐次NMFの構成要素の寄与は、カルフーネン・ロエヴェ展開（PCAの応用）と比較でき、これは固有値のプロットによって示される。PCAでは、構成要素の選択において典型的な方法は「エルボー」に基づいており、固有値プロットにおいて平坦な部分が存在すると、PCAがデータを効率的に捉えられていないことを示す。最後に急激な減少が生じる部分では、ランダムノイズを捉えてしまい、過学習の領域に入ることを示している^[32]^[33]。

逐次NMFの場合、固有値の代わりに残差分散の比率（Fractional Residual Variance, FRV）カーブが用いられ、これが連続的に減少し、PCAよりも高いレベルで収束することが示されている^[4]。これは、逐次NMFが過学習を抑える特性を持つことを示している。

厳密NMF

NMFの変種において、追加の制約が行列 $V$ に対して成り立つ場合、（多項式時間で）厳密解を得ることができる。行列 $V$ がそのランクと等しいランクを持つ一般化置換部分行列を含む場合、非負ランク因子分解を解くための多項式時間アルゴリズムが Campbell と Poole によって1981年に提案された^[34]。

Kalofolias および Gallopoulos（2012）^[35] はこの問題の対称なバージョン（ $V$ が対称行列であり、ランク $r$ の主対角部分行列を含む）を解いた。彼らのアルゴリズムは $V$ が密な場合に $O(rm 2)$ の時間で動作する。

Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, & Zhu（2013）^[36]は、因子行列 $W$ の一方が可分性条件を満たす場合に、厳密なNMFを実行するための多項式時間アルゴリズムを提案している。

他の手法との関係

1999年の論文「Learning the parts of objects by non-negative matrix factorization」において、Lee と Seung は主に画像のパーツベース分解のためにNMFを提案した^[37]。この研究では、NMFをベクトル量子化や主成分分析（PCA）と比較し、3つの手法すべてが因子分解として書き表せるにもかかわらず、課す制約が異なるため、異なる結果を生むことを示している。

一部のNMFは、より一般的な確率モデル「多項分布主成分分析（multinomial PCA）」の一形態と見なすことができる^[38]。NMFがカルバック・ライブラー情報量（KLダイバージェンス）を最小化する場合、これは確率的潜在意味解析（PLSA）と数学的に同値である。これは、最尤推定により学習される多項分布PCAの別の実装とみなされる^[39]。

NMFにおける最小二乗法目的関数を用いた場合、これはK-meansクラスタリングの緩和版と等価である。ここでは、因子行列 $W$ がクラスタの重心を表し、 $H$ がクラスタの所属指標を示す^[40]。ただし、k-meansでは重心の非負制約がないため、最も近い類似手法は「semi-NMF」である^[41]。

NMFは、ベイジアンネットワークの2層有向グラフィカルモデルともみなすことができる。1層が観測変数、もう1層が隠れ変数である^[42]。

NMFはテンソルにも拡張できる。これは、たとえばPARAFACモデルに対応する非負制約付きバージョンとみなされる^[43]^[44]。

さらに、複数のデータ行列やテンソルを同時に因子分解し、一部の因子を共有する「共通因子分解」も存在する。これはセンサーフュージョンや関係学習に有用である^[45]。

NMFは非負二次計画法の一例でもあり、これはサポートベクターマシン（support-vector machine; SVM）とも共通する性質である。さらに、両者の関係性はアルゴリズムレベルでも見られ、一方の手法において提案された解法が他方にも応用することができる^[46]。

一意性

NMFの因子分解は一意ではない。行列とその逆行列を使って、2つの因子行列を次のように変換することができる^[47]。

\mathbf {WH} =\mathbf {WBB} ^{-1}\mathbf {H}

ここで、新たに定義された行列 $\mathbf {\tilde {W}} =\mathbf {WB}$ および $\mathbf {\tilde {H}} =\mathbf {B} ^{-1}\mathbf {H}$ が非負行列であれば、これらもまた元の因子分解の別の表現となる。

$\mathbf {\tilde {W}}$ と $\mathbf {\tilde {H}}$ の非負性は、 $\mathbf {B}$ が非負な一般化置換行列である場合には必ず満たされる。この単純なケースでは、スケーリングや置換に相当する変換となる。

NMFの非一意性に対してより強い制御を与える手法として、スパース性制約を加える方法がある^[48]。

応用

天文学

天文学において、NMF（非負値行列因子分解）は、天体物理学的信号が非負であるという特性から、次元削減手法として有望である。NMFはスペクトル観測^[49]^[3] や直接撮像観測^[4] に適用されており、天体の共通特性の解析や観測データの後処理に用いられている。

Blanton と Roweis（2007）によるスペクトル観測への応用では、天文観測に伴う不確かさを考慮した。Zhu（2016）^[31]はこの手法を拡張し、欠損データや並列計算への対応も導入した。これらの手法はRenら（2018）により系外惑星や原始惑星系円盤の直接撮像観測に応用されている。

Renら（2018）は、NMFの構成要素（コンポーネント）を逐次的に構築する際の安定性を証明し、NMFモデリングの線形性を保証した。この線形性は、恒星光と惑星や円盤からの散乱光を分離する上で重要である。

直接撮像観測において、非常に明るい恒星光の中から、暗い系外惑星や原始惑星系円盤を明らかにするために、統計的手法が多数利用されている^[50]^[51]^[32]。しかし、これらの手法ではしばしば対象天体（惑星や円盤）からの光も過剰に除去されてしまう（過学習／オーバーフィッティング）ため、真のフラックスを推定するにはフォワードモデリング（順方向モデリング）が必要となる^[52]^[33]。

このフォワードモデリングは点状光源（惑星など）に対しては最適化されているが、原始惑星系円盤のような不規則な形状の拡張構造には適していない。そのため、NMFの非負性およびスパース性（疎性）といった性質による過学習の抑制効果が注目されており、少数のスケーリング係数を用いたフォワードモデリングが可能になる^[4]。

データ補完

統計における欠損データの補完において、NMFはコスト関数を最小化する際に欠損データを無視できるため、欠損値を0として扱うことなく処理することが可能である^[5]。この性質により、NMFはデータ補完の数学的に正当な手法として利用されている^[5]。

まず、NMFコンポーネントが既知の場合、Renら（2020）は、データ補完中に欠損データが与える影響は2次の効果（セカンドオーダー効果）であることを証明した。次に、NMFコンポーネントが未知の場合においても、欠損データが与える影響は1次または2次の効果であることが示された。

NMFコンポーネントの取得方法によっては、上記の2つのステップは相互に独立、または依存的である可能性がある。また、NMFコンポーネント数を増やすことで補完品質が向上することが確認されており、その例はRenら（2020）の図4に示されている^[5]。

テキストマイニング

NMFはテキストマイニングへの応用が可能である。このプロセスでは、さまざまな単語の重み（通常は重み付けされた単語頻度情報）から構成された文書-単語行列が作成される。この行列は、「単語-特徴量行列」と「特徴量-文書行列」に分解される。

特徴量は文書の内容から導き出され、特徴量-文書行列は関連する文書のクラスタリングを表す。

具体的な応用例としては、PubMedの科学論文要旨の小規模サブセットに対して階層的NMFを使用した研究がある^[53]。

別の研究グループは、エンロンの電子メールデータセット^[54]の一部、65,033通のメッセージと91,133語の語彙を50のクラスタに分類した^[55]。

また、NMFは引用データにも応用されており、その一例として、英語版ウィキペディア記事と学術雑誌を、ウィキペディア内の外部科学論文への引用に基づいてクラスタリングする研究がある^[56]。

Aroraら（2013）は、NMFを用いたトピックモデルの学習に関して多項式時間アルゴリズムを提示している。このアルゴリズムでは、トピック行列が「可分性」条件を満たすことを仮定しており、この条件は実際の応用においてしばしば成立する^[36]。

Hassani、Iranmanesh、Mansouri（2019）は、NMFを利用した特徴凝集法（feature agglomeration）を提案しており、これは文書-単語行列をテキストクラスタリングに適したより小さな行列に変換する手法である^[57]。

スペクトルデータ解析

NMFはスペクトルデータの解析にも使用されており、その一例として宇宙物体や宇宙ごみの分類が挙げられる^[58]。

スケーラブルなインターネット距離予測

NMFはスケーラブルなインターネット距離（ラウンドトリップタイム）の予測にも応用されている。N個のホストからなるネットワークでは、NMFの助けを借りることで、すべての N² 個のエンドツーエンドリンクの距離を、O(N) の測定だけで予測できる。この種の手法は、最初に Internet Distance Estimation Service (IDES) で導入された^[59]。

非定常音声のノイズ除去

音声のノイズ除去は、音声信号処理における長年の課題である。ノイズが定常的（時間的に変化しない）である場合には、多くのアルゴリズムが存在する。たとえば、ウィーナーフィルタは加法的なガウス雑音に対して適している。

しかし、ノイズが非定常的（時間とともに変化する）である場合には、古典的なノイズ除去アルゴリズムは性能が劣る傾向がある。これは、非定常ノイズの統計情報を正確に推定するのが困難であるためである。Schmidtら^[60]は、非負スパースコーディング（NMFの一種）を用いて非定常ノイズ下の音声を除去する手法を提案した。このアプローチは、従来の統計的手法とはまったく異なる。

この手法の鍵となる考え方は、「クリーンな音声信号は音声辞書によってスパースに表現可能であるが、非定常ノイズはそれができない」というものである。同様に、非定常ノイズもノイズ辞書によってスパースに表現できるが、音声信号はそうではない。

NMFによるノイズ除去のアルゴリズムは以下のように進められる：

音声辞書とノイズ辞書の2つを事前にオフラインで学習しておく。
ノイズのある音声信号が与えられたら、その短時間フーリエ変換の振幅スペクトルを計算する。
このスペクトルを、NMFにより2つの部分に分解する。一方は音声辞書によってスパースに表現でき、もう一方はノイズ辞書によってスパースに表現できる。
最終的に、音声辞書で表現された部分がクリーンな音声信号として推定される。

集団遺伝学

スパースNMFは、集団遺伝学において、個体の混血係数（admixture coefficients）の推定や、集団サンプル中の個体の遺伝的クラスタリング、ゲノムの遺伝子混合評価に利用されている。

ヒトの遺伝的クラスタリングにおいては、NMFアルゴリズムによって得られる推定結果は、コンピュータプログラムSTRUCTUREと類似しているが、NMFのほうが計算効率に優れており、大規模なゲノムデータセットの解析が可能である^[61]。

バイオインフォマティクス

NMFは、バイオインフォマティクスにおいて、遺伝子発現やDNAメチル化データのクラスタリング、クラスタを最もよく表す遺伝子の抽出などに成功裏に応用されている^[23]^[62]^[63]^[64]。

がんの変異解析では、NMFを用いて多くのがんに共通する変異パターンを同定し、それらが異なる原因によって引き起こされている可能性を示している^[65]。 NMF技術は、細胞型、疾患のサブタイプ、集団構造、組織構成、腫瘍のクローン性などの変動要因の識別にも役立つ^[66]。

NMFの特定の変種である非負値三因子分解（Non-Negative Matrix Tri-Factorization, NMTF）は、ドラッグリポジショニング（既存薬の新たな適応探索）のタスクにおいて、承認薬に対する新たなタンパク質標的および治療適応を予測するために用いられている^[67]。

また、NMTFは抗がん剤の組み合わせ効果（薬剤の相乗効果）の推定にも利用されており、がん治療における有効な薬剤ペアの発見を支援している^[68]。

核医学イメージング

非負値行列因子分解（NMF）は、この分野では「因子分析（Factor Analysis）」とも呼ばれ、1980年代からSPECTおよびPETといった動的核医学イメージングにおける画像列の解析に使用されてきた^[69]。

NMFの非一意性（解が一つに定まらないこと）は、スパース性制約を導入することによって対処されている^[70]。

例えば、Boutchkoらは、脳PET画像において、クラスタリングによる初期化を用いた「クラスタリング初期化因子分析（Clustering Initiated Factor Analysis: CIFA）」を提案し、脳血流に関連する組織の分類に応用している^[71]。

さらに、SPECT画像における不整合な投影データから4次元動的画像を再構成するために、「スプライン初期化FADSアルゴリズム（SIFADS）」が提案されている^[72]。

脚注

[脚注の使い方]

^ ^a ^b ^c Dhillon, Inderjit S.; Sra, Suvrit (2005). "Generalized Nonnegative Matrix Approximations with Bregman Divergences". Advances in Neural Information Processing Systems 18 [Neural Information Processing Systems, NIPS 2005, December 5-8, 2005, Vancouver, British Columbia, Canada]. pp. 283–290.
^ Tandon, Rashish; Sra, Suvrit (13 September 2010). Sparse nonnegative matrix approximation: new formulations and algorithms (PDF) (Report). Max Planck Institute for Biological Cybernetics. Technical Report No. 193。
^ ^a ^b Blanton, Michael R.; Roweis, Sam (2007). “K-corrections and filter transformations in the ultraviolet, optical, and near infrared”. The Astronomical Journal 133 (2): 734–754. arXiv:astro-ph/0606170. Bibcode: 2007AJ....133..734B. doi:10.1086/510127.
^ ^a ^b ^c ^d Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). “Non-negative Matrix Factorization: Robust Extraction of Extended Structures”. The Astrophysical Journal 852 (2): 104. arXiv:1712.10317. Bibcode: 2018ApJ...852..104R. doi:10.3847/1538-4357/aaa1f2.
^ ^a ^b ^c ^d Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H; Duechene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). “Using Data Imputation for Signal Separation in High Contrast Imaging”. The Astrophysical Journal 892 (2): 74. arXiv:2001.00563. Bibcode: 2020ApJ...892...74R. doi:10.3847/1538-4357/ab7024.
^ Yang Bao; et al. (2014). TopicMF: Simultaneously Exploiting Ratings and Reviews for Recommendation. AAAI.
^ Ben Murrell (2011). “Non-Negative Matrix Factorization for Learning Alignment-Specific Models of Protein Evolution”. PLOS ONE 6 (12): e28898. Bibcode: 2011PLoSO...628898M. doi:10.1371/journal.pone.0028898. PMC 3245233. PMID 22216138.
^ William H. Lawton; Edward A. Sylvestre (1971). “Self modeling curve resolution”. Technometrics 13 (3): 617–633. doi:10.2307/1267173. JSTOR 1267173.
^ Pentti Paatero; Unto Tapper; Pasi Aalto; Markku Kulmala (1991年), “Matrix factorization methods for analysing diffusion battery data” (英語), Journal of Aerosol Science 22: S273-S276, doi:10.1016/S0021-8502(05)80089-8, ISSN 0021-8502 , Wikidata Q58065673
^ Pentti Paatero; Unto Tapper (1994年6月), “Positive matrix factorization: A non-negative factor model with optimal utilization of error estimates of data values” (英語), Environmetrics 5 (2): 111-126, doi:10.1002/ENV.3170050203, ISSN 1180-4009 , Wikidata Q29308406
^ Pia Anttila; Pentti Paatero; Unto Tapper; Olli Järvinen (1995). “Source identification of bulk wet deposition in Finland by positive matrix factorization”. Atmospheric Environment 29 (14): 1705–1718. Bibcode: 1995AtmEn..29.1705A. doi:10.1016/1352-2310(94)00367-T.
^ ^a ^b Daniel D. Lee & H. Sebastian Seung (1999). “Learning the parts of objects by non-negative matrix factorization”. Nature 401 (6755): 788–791. Bibcode: 1999Natur.401..788L. doi:10.1038/44565. PMID 10548103.
^ ^a ^b Daniel D. Lee & H. Sebastian Seung (2001). Algorithms for Non-negative Matrix Factorization (PDF). Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. MIT Press. pp. 556–562.
^ ^a ^b C. Ding, X. He, H.D. Simon (2005). "On the Equivalence of Nonnegative Matrix Factorization and Spectral Clustering". Proc. SIAM Int'l Conf. Data Mining, pp. 606-610. May 2005
^ “On the equivalence between non-negative matrix factorization and probabilistic latent semantic indexing”. Computational Statistics & Data Analysis 52 (8): 3913–3927. (2008). doi:10.1016/j.csda.2008.01.011. オリジナルの2016-03-04時点におけるアーカイブ。.
^ C Ding, T Li, MI Jordan, Convex and semi-nonnegative matrix factorizations, IEEE Transactions on Pattern Analysis and Machine Intelligence, 32, 45-55, 2010
^ Berman, A.; R.J. Plemmons (1974). “Inverses of nonnegative matrices”. Linear and Multilinear Algebra 2 (2): 161–172. doi:10.1080/03081087408817055.
^ A. Berman; R.J. Plemmons (1994). Nonnegative matrices in the Mathematical Sciences. Philadelphia: SIAM
^ Thomas, L.B. (1974). “Problem 73-14, Rank factorization of nonnegative matrices”. SIAM Rev. 16 (3): 393–394. doi:10.1137/1016064.
^ Vavasis, S.A. (2009). “On the complexity of nonnegative matrix factorization”. SIAM J. Optim. 20 (3): 1364–1377. arXiv:0708.4149. doi:10.1137/070709967.
^ Zhang, T.; Fang, B.; Liu, W.; Tang, Y. Y.; He, G.; Wen, J. (2008). “Total variation norm-based nonnegative matrix factorization for identifying discriminant representation of image patterns”. Neurocomputing 71 (10–12): 1824–1831. doi:10.1016/j.neucom.2008.01.022.
^ Hoyer, Patrik O. (2002). Non-negative sparse coding. Proc. IEEE Workshop on Neural Networks for Signal Processing. arXiv:cs/0202009。
^ ^a ^b Leo Taslaman & Björn Nilsson (2012). “A framework for regularized non-negative matrix factorization, with application to the analysis of gene expression data”. PLOS One 7 (11): e46331. Bibcode: 2012PLoSO...746331T. doi:10.1371/journal.pone.0046331. PMC 3487913. PMID 23133590.
^ Hsieh, C. J.; Dhillon, I. S. (2011). Fast coordinate descent methods with variable selection for non-negative matrix factorization (PDF). Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining - KDD '11. p. 1064. doi:10.1145/2020408.2020577. ISBN 9781450308137。
^ Fung, Yik-Hing; Li, Chun-Hung; Cheung, William K. (2 November 2007). Online Discussion Participation Prediction Using Non-negative Matrix Factorization. Wi-Iatw '07. IEEE Computer Society. pp. 284–287. ISBN 9780769530284
^ Naiyang Guan; Dacheng Tao; Zhigang Luo & Bo Yuan (July 2012). “Online Nonnegative Matrix Factorization With Robust Stochastic Approximation”. IEEE Transactions on Neural Networks and Learning Systems 23 (7): 1087–1099. doi:10.1109/TNNLS.2012.2197827. PMID 24807135.
^ Behnke, S. (2003). “Discovering hierarchical speech features using convolutional non-negative matrix factorization”. Proceedings of the International Joint Conference on Neural Networks, 2003. 4. Portland, Oregon USA: IEEE. pp. 2758–2763. doi:10.1109/IJCNN.2003.1224004. ISBN 978-0-7803-7898-8
^ Lin, Chih-Jen (2007). “Projected Gradient Methods for Nonnegative Matrix Factorization”. Neural Computation 19 (10): 2756–2779. doi:10.1162/neco.2007.19.10.2756. PMID 17716011.
^ Hyunsoo Kim; Haesun Park (2008). “Nonnegative Matrix Factorization Based on Alternating Nonnegativity Constrained Least Squares and Active Set Method”. SIAM Journal on Matrix Analysis and Applications 30 (2): 713–730. doi:10.1137/07069239x.
^ Jingu Kim; Haesun Park (2011). “Fast Nonnegative Matrix Factorization: An Active-set-like Method and Comparisons”. SIAM Journal on Scientific Computing 58 (6): 3261–3281. doi:10.1137/110821172.
^ ^a ^b Zhu, Guangtun B. (19 December 2016). "Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data". arXiv:1612.06037 [astro-ph.IM]。
^ ^a ^b Soummer, Rémi; Pueyo, Laurent; Larkin, James (2012). “Detection and Characterization of Exoplanets and Disks Using Projections on Karhunen-Loève Eigenimages”. The Astrophysical Journal Letters 755 (2): L28. arXiv:1207.4197. Bibcode: 2012ApJ...755L..28S. doi:10.1088/2041-8205/755/2/L28.
^ ^a ^b Pueyo, Laurent (2016). “Detection and Characterization of Exoplanets using Projections on Karhunen Loeve Eigenimages: Forward Modeling”. The Astrophysical Journal 824 (2): 117. arXiv:1604.06097. Bibcode: 2016ApJ...824..117P. doi:10.3847/0004-637X/824/2/117.
^ Campbell, S.L.; G.D. Poole (1981). “Computing nonnegative rank factorizations”. Linear Algebra Appl. 35: 175–182. doi:10.1016/0024-3795(81)90272-x.
^ Kalofolias, V.; Gallopoulos, E. (2012). “Computing symmetric nonnegative rank factorizations”. Linear Algebra Appl 436 (2): 421–435. doi:10.1016/j.laa.2011.03.016.
^ ^a ^b Arora, Sanjeev; Ge, Rong; Halpern, Yoni; Mimno, David; Moitra, Ankur; Sontag, David; Wu, Yichen; Zhu, Michael (2013). A practical algorithm for topic modeling with provable guarantees. Proceedings of the 30th International Conference on Machine Learning. arXiv:1212.4777. Bibcode:2012arXiv1212.4777A。
^ Lee, Daniel D.; Seung, H. Sebastian (1999). “Learning the parts of objects by non-negative matrix factorization”. Nature 401 (6755): 788–791. Bibcode: 1999Natur.401..788L. doi:10.1038/44565. PMID 10548103.
^ Wray Buntine (2002). Variational Extensions to EM and Multinomial PCA (PDF). Proc. European Conference on Machine Learning (ECML-02). LNAI. Vol. 2430. pp. 23–34.
^ Eric Gaussier; Cyril Goutte (2005). Relation between PLSA and NMF and Implications (PDF). Proc. 28th international ACM SIGIR conference on Research and development in information retrieval (SIGIR-05). pp. 601–602.
^ C. Ding, X. He, H.D. Simon (2005). "On the Equivalence of Nonnegative Matrix Factorization and Spectral Clustering". Proc. SIAM Int'l Conf. Data Mining, pp. 606-610.
^ C Ding, T Li, MI Jordan, Convex and semi-nonnegative matrix factorizations, IEEE Transactions on Pattern Analysis and Machine Intelligence, 32, 45-55, 2010
^ Max Welling (2004). Exponential Family Harmoniums with an Application to Information Retrieval. NIPS.
^ Pentti Paatero (1999). “The Multilinear Engine: A Table-Driven, Least Squares Program for Solving Multilinear Problems, including the n-Way Parallel Factor Analysis Model”. Journal of Computational and Graphical Statistics 8 (4): 854–888. doi:10.2307/1390831.
^ Max Welling; Markus Weber (2001). “Positive Tensor Factorization”. Pattern Recognition Letters 22 (12): 1255–1261. doi:10.1016/S0167-8655(01)00070-8.
^ Kenan Yilmaz; A. Taylan Cemgil; Umut Simsekli (2011). Generalized Coupled Tensor Factorization (PDF). NIPS.
^ Vamsi K. Potluru; Sergey M. Plis; Morten Morup; Vince D. Calhoun; Terran Lane (2009). Efficient Multiplicative updates for Support Vector Machines. SIAM Conference on Data Mining (SDM). pp. 1218–1229.
^ Wei Xu; Xin Liu; Yihong Gong (2003). Document clustering based on non-negative matrix factorization. Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval. New York: Association for Computing Machinery. pp. 267–273.
^ Eggert, J.; Körner, E. (2004). “Sparse coding and NMF”. 2004 IEEE International Joint Conference on Neural Networks (IEEE Cat. No.04CH37541). 4. pp. 2529–2533. doi:10.1109/IJCNN.2004.1381036. ISBN 978-0-7803-8359-3
^ Berné, O.; Joblin, C.; Deville, Y.; Smith, J. D.; Rapacioli, M.; Bernard, J. P.; Thomas, J.; Reach, W. et al. (2007-07-01). “Analysis of the emission of very small dust particles from Spitzer spectro-imagery data using blind signal separation methods”. Astronomy & Astrophysics 469 (2): 575–586. arXiv:astro-ph/0703072. doi:10.1051/0004-6361:20066282.
^ Lafrenière, David (2009). “HST/NICMOS Detection of HR 8799 b in 1998”. The Astrophysical Journal Letters 694 (2): L148. arXiv:0902.3247. doi:10.1088/0004-637X/694/2/L148.
^ Amara, Adam (2012). “PYNPOINT: an image processing package for finding exoplanets”. Monthly Notices of the Royal Astronomical Society 427 (2): 948. arXiv:1207.6637. doi:10.1111/j.1365-2966.2012.21918.x.
^ Wahhaj, Zahed (2015). “Improving signal-to-noise in the direct imaging of exoplanets and circumstellar disks with MLOCI”. Astronomy & Astrophysics 581 (24): A24. arXiv:1502.03092. doi:10.1051/0004-6361/201525837.
^ Nielsen, Finn Årup; Balslev, Daniela; Hansen, Lars Kai (2005). “Mining the posterior cingulate: segregation between memory and pain components”. NeuroImage 27 (3): 520–522. doi:10.1016/j.neuroimage.2005.04.034. PMID 15946864.
^ “Enron Email Dataset” (2005年4月4日). 2008年8月26日閲覧。
^ Berry, Michael W.; Browne, Murray (2005). “Email Surveillance Using Non-negative Matrix Factorization”. Computational and Mathematical Organization Theory 11 (3): 249–264. doi:10.1007/s10588-005-5380-5.
^ Nielsen, Finn Årup (2008). Clustering of scientific citations in Wikipedia. Wikimania. arXiv:0805.1154。
^ Hassani, Ali; Iranmanesh, Amir; Mansouri, Najme (12 November 2019). "Text Mining using Nonnegative Matrix Factorization and Latent Semantic Analysis". arXiv:1911.04705 [cs.LG]。
^ Berry, Michael W.; Browne, Murray; Langville, Amy N.; Paucac, V. Paul; Plemmonsc, Robert J. (2007-09-15). “Algorithms and Applications for Approximate Nonnegative Matrix Factorization”. Computational Statistics & Data Analysis 52 (1): 155–173. doi:10.1016/j.csda.2006.11.006.
^ Yun Mao; Lawrence Saul & Jonathan M. Smith (2006). “IDES: An Internet Distance Estimation Service for Large Networks”. IEEE Journal on Selected Areas in Communications 24 (12): 2273–2284. doi:10.1109/JSAC.2006.884026.
^ Schmidt, M.N., J. Larsen, and F.T. Hsiao. (2007). "Wind noise reduction using non-negative sparse coding", Machine Learning for Signal Processing, IEEE Workshop on, 431–436
^ “Fast and efficient estimation of individual ancestry coefficients”. Genetics 196 (4): 973–983. (2014). doi:10.1534/genetics.113.160572. PMC 3982712. PMID 24496008.
^ Devarajan, K. (2008). “Nonnegative Matrix Factorization: An Analytical and Interpretive Tool in Computational Biology”. PLOS Computational Biology 4 (7): e1000029. Bibcode: 2008PLSCB...4E0029D. doi:10.1371/journal.pcbi.1000029. PMC 2447881. PMID 18654623.
^ Hyunsoo Kim & Haesun Park (2007). “Sparse non-negative matrix factorizations via alternating non-negativity-constrained least squares for microarray data analysis”. Bioinformatics 23 (12): 1495–1502. doi:10.1093/bioinformatics/btm134. PMID 17483501.
^ Schwalbe, E. (2013). “DNA methylation profiling of medulloblastoma allows robust sub-classification and improved outcome prediction using formalin-fixed biopsies”. Acta Neuropathologica 125 (3): 359–371. doi:10.1007/s00401-012-1077-2. PMC 4313078. PMID 23291781.
^ Alexandrov, Ludmil B.; Nik-Zainal, Serena; Wedge, David C.; Campbell, Peter J.; Stratton, Michael R. (2013-01-31). “Deciphering signatures of mutational processes operative in human cancer”. Cell Reports 3 (1): 246–259. doi:10.1016/j.celrep.2012.12.008. ISSN 2211-1247. PMC 3588146. PMID 23318258.
^ Stein-O’Brien, Genevieve L.; Arora, Raman; Culhane, Aedin C.; Favorov, Alexander V.; Garmire, Lana X.; Greene, Casey S.; Goff, Loyal A.; Li, Yifeng et al. (2018-10-01). “Enter the Matrix: Factorization Uncovers Knowledge from Omics” (英語). Trends in Genetics 34 (10): 790–805. doi:10.1016/j.tig.2018.07.003. ISSN 0168-9525. PMC 6309559. PMID 30143323.
^ Ceddia; Pinoli; Ceri; Masseroli (2020). “Matrix factorization-based technique for drug repurposing predictions”. IEEE Journal of Biomedical and Health Informatics 24 (11): 3162–3172. doi:10.1109/JBHI.2020.2991763. PMID 32365039.
^ Pinoli; Ceddia; Ceri; Masseroli (2021). “Predicting drug synergism by means of non-negative matrix tri-factorization”. IEEE/ACM Transactions on Computational Biology and Bioinformatics PP (4): 1956–1967. doi:10.1109/TCBB.2021.3091814. PMID 34166199.
^ DiPaola; Bazin; Aubry; Aurengo; Cavailloles; Herry; Kahn (1982). “Handling of dynamic sequences in nuclear medicine”. IEEE Trans Nucl Sci 29 (4): 1310–21. Bibcode: 1982ITNS...29.1310D. doi:10.1109/tns.1982.4332188.
^ Sitek; Gullberg; Huesman (2002). “Correction for ambiguous solutions in factor analysis using a penalized least squares objective”. IEEE Trans Med Imaging 21 (3): 216–25. doi:10.1109/42.996340. PMID 11989846.
^ Boutchko; Mitra; Baker; Jagust; Gullberg (2015). “Clustering Initiated Factor Analysis (CIFA) Application for Tissue Classification in Dynamic Brain PET”. Journal of Cerebral Blood Flow and Metabolism 35 (7): 1104–11. doi:10.1038/jcbfm.2015.69. PMC 4640278. PMID 25899294.
^ Abdalah; Boutchko; Mitra; Gullberg (2015). “Reconstruction of 4-D Dynamic SPECT Images From Inconsistent Projections Using a Spline Initialized FADS Algorithm (SIFADS)”. IEEE Trans Med Imaging 34 (1): 216–18. doi:10.1109/TMI.2014.2352033. PMID 25167546.

参考文献

J. Shen; G. W. Israël (1989). “A receptor model using a specific non-negative transformation technique for ambient aerosol”. Atmospheric Environment 23 (10): 2289–2298. Bibcode: 1989AtmEn..23.2289S. doi:10.1016/0004-6981(89)90190-X.
Pentti Paatero (1997). “Least squares formulation of robust non-negative factor analysis”. Chemometrics and Intelligent Laboratory Systems 37 (1): 23–35. doi:10.1016/S0169-7439(96)00044-5.
Raul Kompass (2007). “A Generalized Divergence Measure for Nonnegative Matrix Factorization”. Neural Computation 19 (3): 780–791. doi:10.1162/neco.2007.19.3.780. PMID 17298233.
Liu, W.X.; Zheng, N.N. & You, Q.B. (2006). “Nonnegative Matrix Factorization and its applications in pattern recognition”. Chinese Science Bulletin 51 (17–18): 7–18. Bibcode: 2006ChSBu..51....7L. doi:10.1007/s11434-005-1109-6.
Ngoc-Diep Ho; Paul Van Dooren & Vincent Blondel (2008). "Descent Methods for Nonnegative Matrix Factorization". arXiv:0801.3199 [cs.NA]。
Andrzej Cichocki; Rafal Zdunek & Shun-ichi Amari (2008). “Nonnegative Matrix and Tensor Factorization”. IEEE Signal Processing Magazine 25 (1): 142–145. Bibcode: 2008ISPM...25R.142C. doi:10.1109/MSP.2008.4408452.
Cédric Févotte; Nancy Bertin & Jean-Louis Durrieu (2009). “Nonnegative Matrix Factorization with the Itakura-Saito Divergence: With Application to Music Analysis”. Neural Computation 21 (3): 793–830. doi:10.1162/neco.2008.04-08-771. PMID 18785855.
Ali Taylan Cemgil (2009). “Bayesian Inference for Nonnegative Matrix Factorisation Models”. Computational Intelligence and Neuroscience 2009 (2): 1–17. doi:10.1155/2009/785152. PMC 2688815. PMID 19536273.
Andrzej Cichocki, Morten Mrup, et al.: "Advances in Nonnegative Matrix and Tensor Factorization", Hindawi Publishing Corporation, ISBN 978-9774540455 (2008).
Andrzej Cichocki, Rafal Zdunek, Anh Huy Phan and Shun-ichi Amari: "Nonnegative Matrix and Tensor Factorizations: Applications to Exploratory Multi-way Data Analysis and Blind Source Separation", Wiley, ISBN 978-0470746660 (2009).
Andri Mirzal: "Nonnegative Matrix Factorizations for Clustering and LSI: Theory and Programming", LAP LAMBERT Academic Publishing, ISBN 978-3844324891 (2011).
Yong Xiang: "Blind Source Separation: Dependent Component Analysis", Springer, ISBN 978-9812872265 (2014).
Ganesh R. Naik(Ed.): "Non-negative Matrix Factorization Techniques: Advances in Theory and Applications", Springer, ISBN 978-3662517000 (2016).
Julian Becker: "Nonnegative Matrix Factorization with Adaptive Elements for Monaural Audio Source Separation: 1 ", Shaker Verlag GmbH, Germany, ISBN 978-3844048148 (2016).
Jen-Tzung Chien: "Source Separation and Machine Learning", Academic Press, ISBN 978-0128177969 (2018).
Shoji Makino(Ed.): "Audio Source Separation", Springer, ISBN 978-3030103033 (2019).
Nicolas Gillis: "Nonnegative Matrix Factorization", SIAM, ISBN 978-1-611976-40-3 (2020).