Big live-Data Meets Machine Learning on Database の変更点

Top > Big live-Data Meets Machine Learning on Database


* Big Live-Data meets the Machine Learning on the Database beyond the Border
** 大規模多次元実データと機械学習の邂逅
-日時:2015年2月14日(土)10:00 - 18:00 ( -20:00 懇親会予定)
-場所:京都タワー2F TKPガーデンシティ京都 皐月 http://tkpkyoto.net/access.shtml
-形式:Closed meeting
-参加者:14人
-- 発表メンバー:
坂東@Denso、本田@京大、塚田@名大、松谷@慶大、植野@阪大、五十嵐、鹿内学@ATR
-- ディスカッションパートナー:
松原@NAIST、小山田@京大、西田@CiNet、鹿内友美@京大、石川@生理研、井本@京大、他1名

**プログラム:
- 10:00 - 10:15 Opening Remark:鹿内学@ATR(実データ・実験データのビッグデータをみすえて)

*** 第1部 実データとモデルと機械学習
- 10:15 - 10:45 Talk 1: 鹿内学@ATR (キーワード:ヒト、脳イメージング、ネットワーク、因果推論など)
- 10:50 - 11:20 Talk 2: 塚田@名大 (キーワード:線虫、実験計測システム、イメージングなど)
- 10:25 - 11:55 Talk 3: 本田@京大(キーワード:線虫、数理モデルなど)
- 12:00 - 12:30 Talk 4: 坂東@Denso(キーワード:自動車、センサー、大規模データ収集など)
(12:30-14:00 Lunch break: [[麺どころ 晃庵:http://r.gnavi.co.jp/c576904/menu5/]] ToDo 朝10時に注文を決めて店に電話 )
//Google view https://goo.gl/maps/9h60j
- ''14:00 - 16:00 Talk 5: 植野剛@大阪大学(データとモデルをつなぐ機械学習)''

(16:00-16:15 Coffee/Tea break)

*** 第2部 ビッグデータ化とオープンサイエンス/イノベーション
- 16:15 - 16:30 Talk 6: 鹿内学(データ収集とアカデミックにおけるデータ再利用の動き)
- 16:30 - 17:00 Talk 7: 松谷@慶大(キーワード:データベース、NOSQL、ポリグロット永続化)
- 17:05 - 17:35 Talk 8: 五十嵐(キーワード:オープンイノベーション)
-- 皆さんのPCを使ってデモをしますので、パソコンを持ってくる方は事前に下記の設定をお願いします!
--- 1. https://onedrive.live.com/about/ja-jp/にアクセスして、作成→エクセルブックで、エクセルが開けること確認(MSアカウントを持っていない方は作成をお願いいたします)。
--- 2. 当日すぐに開けるように、https://onedrive.live.com/about/ja-jp/をbookmark! 
- 17:35 - 17:50 Free Talk Session

*** 第3部 オープンディスカッション
- 18:00-20:00 食事をしながら議論@[[楽座:http://r.gnavi.co.jp/k400103/photo/]] 
//  参加者:鹿内学、松谷さん、坂東さん、本田、石川さん、
//      西田くん、五十嵐さん、小山田さん、井本くん、松原くん、
//      植野、鹿内友美、(宮西さん):10人(その他、返信待ち)
// 不参加:塚田さん、


** 目的・趣旨
目的
- 新しいデータサイエンス(機械学習、データベース、データ共有/再利用、取り組み方)の論点を理解すること 
-- 目的達成の評価基準:開催から半年の間に、研究会参加者の誰かが、研究会の中で発見した論点を解決するような新しいプロジェクト(共同研究・開発など)が始まること。

趣旨

 検索やSNS、POSが扱うテキストなどのビッグデータ化はすでに実現された。次にビッグデータ化するだろう実データ(センサー・実験計測データ、また、それら複数を統合して扱うデータなど)をみすえ、計測もしている研究者、機械学習の研究者で議論したい。これまで機械学習が担っていた役割の一部は、データの大量取得(ビッグデータ化)により解消されている部分もありそうだ。さらには、ビッグデータを利用するための新しい機械学習があるかもしれない。''ビッグデータとモデルを円滑につなぐ新しい方法論を発見・共有したい。''

 まだビッグデータ化していない実データにおいては、ビッグデータ化するためのスキームを確立することも重要な課題である。IoT(Internet of Things)に関連した技術により、自ら手を動かさなくてもデータが指数的に増えるようなデータ収集のエコシステム・ビジネスモデルを確立できた者・企業が次の10年の主役になるはず。今後も継続的な運営の視点をもつ企業がビッグデータをもつことになり、それにともない実データの研究開発の最前線も企業になるだろう。実データの延長には、ヒトの脳活動などを含む生体情報などの計測データも含まれていくことだろう。

 ところで、ビッグデータを運用する箱であるデータベースも重要である。昨年5月にNature Publishing GroupがScientific Dataを創刊したことに象徴されるように、科学においてデータ共有・再利用の機運が高まっている。Impact Factorで有名なThomson Reutersは、2012年にData Citation Indexを発表している。しかし、データは、データベース上ではなく、単にリポジトリにおかれることがほとんどである。データベースは、ただのリポジトリやストレージではなく、データ収集、解析の効率を上げるためにある。学術研究におけるデータベース界隈では、実データをもって研究している人はあまりいないようなので、共同研究の促進になればうれしい。
 今後、ビッグデータを扱う研究ではもちろんだが、研究室レベルの個々の小さな研究においても、データを蓄積するだけでなく、データベース化し、運用することは研究発展の鍵になるはずである。研究倫理上の問題においても、実験研究者の知財・財産権の保護になる。善意ある研究者が疑われた時、データベース化によるデータのトレーサビリティ確保は、自らの身を守る術になるだろう。

 最後。実データのビッグデータに関わる分野は、大学や企業の境界を越えることはもちろんのことながら、さらには、組織の境界を越えて個人のつながりによって発展していくだろう。Open Science/Open innovation のあり方も視野にいれつつ、上記の研究・開発の展望を議論したい。場合によって、生体情報のデータ共有・再利用に関わる課題についても議論をする(生命倫理、法律、ITセキュリティなどの観点から)。ビッグデータ化において、技術的システムだけでなく社会的システムを構築し、社会的に受容されていくことも重要な課題である。
 実データのビッグデータに関わる分野は、大学や企業の境界を越えることはもちろんのことながら、さらには、組織の境界を越えて個人のつながりによって発展していくだろう。Open Science/Open innovation のあり方も視野にいれつつ、上記の研究・開発の展望を議論したい。場合によって、生体情報のデータ共有・再利用に関わる課題についても議論をする(生命倫理、法律、ITセキュリティなどの観点から)。ビッグデータ化において、技術的システムだけでなく社会的システムを構築し、社会的に受容されていくことも重要な課題である。


** 事前勉強のための参考資料(簡単なのから論文まで) in construction
-fMRIのネットワーク推定・因果推論
-- [[Friston, Harrison & Penny. (2003). Dynamic causal modelling. NeuroImage, 19(4), 1273–1302.:http://www.sciencedirect.com/science/article/pii/S1053811903002027]] 
--- THE DCMな論文.DCMは、構造方程式モデリング(共分散構造分析)を用いた方法。
-- [[Valdes-Sosa, Roebroeck, Daunizeau, & Friston. (2011). Effective connectivity: Influence, causality and biophysical modeling. NeuroImage.:http://www.sciencedirect.com/science/article/pii/S1053811911003375]] Open Access 
--- fMRI界隈では、Granger causality Analysis(GCA) とDCMがネットワーク推定の2本柱。この論文が掲載された号で、GCAを推すRoebroeck とDCMのFristonらが、9本もの論文で論争をくりひろげ、これは、その9本目の論文。キューバのValdes-Sosa が仲介し、論争をひとまずおさめた。一連の論文によってfMRIのネットワーク推定における論点が明確になった。論争 楽し。

- 自動車の大規模データ研究
--[[Bando, T. Takenaka, K. Nagasaka, S. Taniguchi, T., "Unsupervised drive topic finding from driving behavioral data," Intelligent Vehicles Symposium (IV), 2013 IEEE , vol., no., pp.177,182, 23-26 June 2013:http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6629467&isnumber=6629437]]
-- 'by using a massive data set of driving behavior, including 90 drives for more than 78 hours over 3700km in total.'(坂東さんのトークの内容に含まれるかは分かりません。勝手にあげました。 by しか)

- データ共有/再利用
-- [[Scientific Data データの再利用を促進するオープンアクセス・オープンデータジャーナル (PDF):https://www.jstage.jst.go.jp/article/johokanri/57/9/57_629/_pdf]]
- データベース
-- [[ビッグデータ利活用のための計算機アーキテクチャ(松谷研紹介ビデオ youtube 4分17秒):https://www.youtube.com/watch?x-yt-cl=84503534&v=k1M3adOVLHw&x-yt-ts=1421914688]]
- オープンイノベーション
-- [[E2D3 (五十嵐さんのプロジェクト):http://www.e2d3.org/]]

** 



** 用意・準備(鹿内用)

プログラム構成の意図
-第1部 実データとモデルと機械学習

鹿内、塚田さん、本田さん、坂東さん; 具体的な実データを扱い、数理モデルを用いて解析している人が発表。
・午後の議論のための材料提供が午前中の目的。
・・推定方法、学習アルゴリズムは 省略してもいい。午後の部で植野のパートで適宜 議論しましょう。
・次の3つを明かにして、参加者全員が午後の議論の材料を共有する。
  1.データ: 実データ群の取得・計測方法、
       性質(時空間の離散性・連続性、多次元性、データの組合わせ、etc)
  2. モデル: 仮説となるモデル・生成モデル、判別・予測モデル、etc
  3. 目的:データとモデルから明かになること、どの様なことがどれくらい分かると嬉しいのか。
       これは分野の価値観に依存する部分。分野外の方にもわかるようにお願いします。

Lunch:会場周辺で適当なところを用意しておきます。

植野さん; 機械学習の利用について議論する。適宜、午前中にでた材料を拾いつつ。

-第2部 ビッグデータ化におけるデータベースとオープンサイエンス/イノベーション

鹿内; 導入として、学術界隈におけるデータ共有/再利用の動きを簡単に紹介します。
松谷さん; 実データにかかわるデータベースの設計。実データは多次元的データ・多目的である
  ので複数DB相補的利用(ポリグロット永続化)が重要となるように思います。
  また、データベースに詳しい方が、他にいないので、データベースの型など少しだけ
  入門編もお願いします。
五十嵐さん; どのように人を集めて、差配しているのか。ミーティングはどうやってるのか。
   さらに、どんなリソース・仕組みがあったら、よりオープンな、よりイノベーティブな
   プロジェクトになりそうでしょうか。ということが鹿内の個人的な興味。
----
- 連絡
-- タイトル、それぞれの発表
-- 
-- 交通費にかかわること
--- 【済】%%起点%%
--- 【済】%%納税住所, 銀行口座%%

- 当日
- プロジェクタ
- 名前リスト
- Apple TV(Macをプロジェクタと無線でつなぐために) 
- お菓子, ドーナッツ

// 2月15日 フットサル
// 鹿内学、鹿内友美、五十嵐、河野、大羽、前田、
// 井本、植野、渕上、藤居、内橋、中村、

 

TOP