2014/02/05 (水) 統計数理研究所のベイズ法によるマーケッティング講座に参加 樋口所長の状態空間の内容はいつも同じ 佐藤忠彦先生の状態空間のマーケッティングの説明が素晴らしく良い。 内容は本人も言っていたが状態空間モデルの限界を極めたものとの感触がある。 @観測システムが非対称モデル:簡単な隠れマルコフでは対応が困難と感じた Aレジームスイッチモデル B粒子フィルターによる2段階効用モデル C固体差を反映するためMCMCによる階層ベイズモデル 注意点は @最尤法のパラメータ推定。  状態空間モデルを繰返し毎の最尤関数で更新する必要がある。→実装すべき課題 A状態空間モデルはシステムモデルのパラメータ推定が困難で  この点隠れマルコフ等モデルに比べ劣っている。 全般的には、状態空間モデル以外は隠れ変数推定ベイズモデルを使っており、 自分で全てプログラムを作成すべきと言い、自分の方向と合っているので安心した。 カルマンフィルターは実装したが、粒子フィルターは簡単なので実装すべきと考える。 佐藤先生が後輩のK君の恩師であると知って吃驚した。 2014/01/13 (火) 統計数理研究所のゲノム統計の講座に参加 当研究所の吉田亮教授以外の講演は専門用語が多く全く理解できず。 吉田亮さんの遺伝子統計モデルには一見立派だが中身に不安を覚えた。 ・アイソフォームの推定:Lassoを使用しているが変数縮減による精度の劣化に言及せず。 ・モチーフ発見:MCMCは既約性があるのに局所解があるといい、焼きなまし法のEMを推奨した。 ・ベイズ法による化学式の発見:カーネル法による組合せ問題の限界に言及せず。 島村徹平先生のベイズモデルは実験の裏付けがありかなり先進的で立派と思われた。 2013/03/26 統数研 大規模混合整数計画の並列処理の成果報告  科学技術振興機構 品野勇治氏 整数計画とはある条件下で最適な整数解を求める問題で、典型的な例ではナップサック問題と云い、 ナップサックの制限重量が10Kの場合に、商品の金額が最大になる様に各々何個(整数)入れるかの問題 [X商品 1K $10] [Y商品 2K $20] [Z商品 3K $30] 整数でなく実数なら線形計画法で簡単に数値計算で解ける x=0 y=0 z=3.333 PADOCの整数計画法(分岐制限法)での解では x=1 y=0 z=3 この様な問題は、選択木(分岐制限法)で解くのが一般的で、今日の大規模(変数が10万個)でも 同じ手法で解き、選択木の枝を並列処理で分散して解くことができる。 混合整数計画とは、変数の1部に実数を許容する場合である。(PADOCは整数のみしか解けない) セミナーの内容はこれを大規模に解くツールの紹介と分岐を並列的に処理した場合の効果の報告 ツールの紹介 相当難しい問題でもSCIPという公開C言語プログラムがありダウンロードが可能である。 並列化の報告 講演者の勇次を冠したUGフレームワークとしてダウンロードして分散環境で試せるとのこと 2013/03/12 統数研の公開講座(圧縮センシング) 統数研 池田思朗准教授 京大 田中利幸教授 観測されたデータには結果になるものと要因となるものがある。 普通は要因の数が多く、観測される結果は少ないのが普通である。 この様な問題をXを要因、Yを結果として以下の線形(行列)モデルで解くことを考える。 Y = A * X Y:M次元 X:N次元 A:N×Mの行列 一般に要因がN個、結果M個である場合 M = Nなら連立方程式でとける。 M > Nなら解けない。(要因数より結果が多い) M < Nなら解は不定になる(要因数が結果数より多い)  今回のテーマは要因数が結果数より多い(M < N)だがAに零が多いと(Aは疎と云う) 想定できる場合、解ける可能性があり、この理論と応用の話 方法としては、以下でXの幾つかを0として解く。 @X(要因)のいくつかを零として最適に配置して解く方法 A誤差のレベルを設定できる様にし、この誤差の範囲でX(要因)の数を減らして解く方法 誤差のレベルを大きく許容できれば、X(要因)の数を少なくできる。 誤差のレベルを設定するのに誤差を最小2乗とせず誤差の絶対値を使う場合 LASSOと云い、疎な行列を解く場合に精度がよいことが知られている。 表題の圧縮センシングというのは、要因をできるだけ少なくして説明しようとする技術である。 ・ビックデータを少ないデータに圧縮する ・少ない説明データでも精度を維持できる様にする データが氾濫する社会を反映してこの分野は論文の量が激増していて、かなり注目されている。   講座の半分はLASSOが成立する条件の説明(田中先生)で相当難しく数式の説明がなかった。 後の半分はアルゴリズム(池田先生)の話で、これは実装して理解を深めることができる。 2013/01/16 統数研の公開講座(確率的トピックモデル)統数研 持橋大地先生 NTTC&S基礎研 石黒勝彦先生 容は文書上の単語がランダムに生起するとして、文章->トピック->単語と階層的に 区分する手法である。この階層には階層ベイズを当てはめ、末端は、確率分布と共役な 事前分布を仮定して変分ベイズ法か階層ベイズMCMCの何れかでMAP推定するモデル。 このモデルによって教師データなしに最適な確率を推定することができる。 (講演では何故か階層ベイズやMAP推定とは一切言わなかったが後で問い合わせて確認した) よって分布型と階層をモデル化すれば何でも応用でき、階層ベイズに相関を入れなければ 大規模で疎なデータでも適用できるので、現状のビックデータの代表的な手法になる可能性がある。 階層ベイズモデルの応用と実績は本当に瞠目する進歩を見せている。 2012/12/19 統計数理研究所 制御と機械学習のセミナーに参加 産総研 新田徹先生 複素数によるニューロネットワーク  複素数は実数同様に線形数学が使え虚数部の存在で複素平面では精度と速度が向上する様だ。 実数では、極大極小の局所解が複素数ニューロは鞍点になるので、最適値が得やすい。 虚数部を意図的に増やした双曲線モデル、クリホード代数によるモデルを紹介 統数研 池田思朗先生 疎データの扱い 疎データを扱う有名なLASSOなるモデルの解説がやっと聞けた。 疎データから有意なものでモデル化する手法で、Bayes統計では事前分布を絶対値の和としたMAP推定 LASSOの日本語の本格的な文献がない現状で 緻密で理論的な説明が聞けなかったのは残念 2012/12/05 数理システムのビックデータツール 二反田さん 彼らの説明でHadoopは並列処理なので、並列間の相関が無視され協調フィルターは無理との  考えは正しかった。彼らはHadoopは前処理として使い本格的には、オンライン機械学習SGDと  統計的検索のLSHを提案している。 SGDは大容量のデータを分割して逐次投入してMAP(事後分布最大化)による手法である。  ロジット、SVMが実装するとの事で、以前より技術的な成長が見られ人材も集まっている様だ。 LSHは統計的な近傍検索キーによる次元圧縮したハッシュ変換表による高速アクセスする手法 疎なデータを扱うLASSOについて見解を尋ねたところ、現在開発中とのこと 2012/12/01 統数研のR研究集会 北大の石倉さん発表のSTANによるMCMCはWINBUGSと異なって内容が公開され  C言語ソースを生成するとのことで、階層ベイズのアルゴリズムを是非調べてみたい。 鈴木了太さんのR用のGUIツールはRを前提としている事が汎用的でなく、  北大の中谷先生が指摘した様にSEMに対応していないが、よい発展を見せている。 2012/11/20 統計数理研究所でグラフイカルモデルの公開講座 栗木哲 原尚幸先生 ノード点をデータの列に割当て、ノード間がマルコフ独立とした場合、平均と共分散が最尤値で推定できる 理論でノード間の結合度をモデル化する様だ。原先生はマルコフ独立をノード間をコーダルに分解して ネットワーク全体のノード間計算を高速化するものだ。是非実装化してみたい。 LASSOは大規模データを解く方法として紹介された。 栗木先生からの推薦図書 グラフィックモデルの理論:グラフィックモデル(宮川)注文済み LASSO関連 : パターン認識と機会学習