Big live-Data Meets Machine Learning on Database

Top > Big live-Data Meets Machine Learning on Database

Big Live-Data meets the Machine Learning on the Database beyond the Border

大規模多次元実データと機械学習の邂逅

  • 日時:2015年2月14日(土)10:00 - 18:00 ( -20:00 懇親会予定)
  • 場所:京都タワー2F TKPガーデンシティ京都 皐月 http://tkpkyoto.net/access.shtml
  • 形式:Closed meeting
  • 参加者:14人
    • 発表メンバー:
      坂東@Denso、本田@京大、塚田@名大、松谷@慶大、植野@阪大、五十嵐、鹿内学@ATR
    • ディスカッションパートナー:
      松原@NAIST、小山田@京大、西田@CiNet、鹿内友美@京大、石川@生理研、井本@京大、他1名

プログラム:

  • 10:00 - 10:15 Opening Remark:鹿内学@ATR(実データ・実験データのビッグデータをみすえて)

第1部 実データとモデルと機械学習

  • 10:15 - 10:45 Talk 1: 鹿内学@ATR (キーワード:ヒト、脳イメージング、ネットワーク、因果推論など)
  • 10:50 - 11:20 Talk 2: 塚田@名大 (キーワード:線虫、実験計測システム、イメージングなど)
  • 10:25 - 11:55 Talk 3: 本田@京大(キーワード:線虫、数理モデルなど)
  • 12:00 - 12:30 Talk 4: 坂東@Denso(キーワード:自動車、センサー、大規模データ収集など)
    (12:30-14:00 Lunch break: 麺どころ 晃庵 ToDo 朝10時に注文を決めて店に電話 )
  • 14:00 - 16:00 Talk 5: 植野剛@大阪大学(データとモデルをつなぐ機械学習)

(16:00-16:15 Coffee/Tea break)

第2部 ビッグデータ化とオープンサイエンス/イノベーション

  • 16:15 - 16:30 Talk 6: 鹿内学(データ収集とアカデミックにおけるデータ再利用の動き)
  • 16:30 - 17:00 Talk 7: 松谷@慶大(キーワード:データベース、NOSQL、ポリグロット永続化)
  • 17:05 - 17:35 Talk 8: 五十嵐(キーワード:オープンイノベーション)
    • 皆さんのPCを使ってデモをしますので、パソコンを持ってくる方は事前に下記の設定をお願いします!
  • 17:35 - 17:50 Free Talk Session

第3部 オープンディスカッション

  • 18:00-20:00 食事をしながら議論@楽座

目的・趣旨

目的

  • 新しいデータサイエンス(機械学習、データベース、データ共有/再利用、取り組み方)の論点を理解すること
    • 目的達成の評価基準:開催から半年の間に、研究会参加者の誰かが、研究会の中で発見した論点を解決するような新しいプロジェクト(共同研究・開発など)が始まること。

趣旨

 検索やSNS、POSが扱うテキストなどのビッグデータ化はすでに実現された。次にビッグデータ化するだろう実データ(センサー・実験計測データ、また、それら複数を統合して扱うデータなど)をみすえ、計測もしている研究者、機械学習の研究者で議論したい。これまで機械学習が担っていた役割の一部は、データの大量取得(ビッグデータ化)により解消されている部分もありそうだ。さらには、ビッグデータを利用するための新しい機械学習があるかもしれない。ビッグデータとモデルを円滑につなぐ新しい方法論を発見・共有したい。

 まだビッグデータ化していない実データにおいては、ビッグデータ化するためのスキームを確立することも重要な課題である。IoT(Internet of Things)に関連した技術により、自ら手を動かさなくてもデータが指数的に増えるようなデータ収集のエコシステム・ビジネスモデルを確立できた者・企業が次の10年の主役になるはず。今後も継続的な運営の視点をもつ企業がビッグデータをもつことになり、それにともない実データの研究開発の最前線も企業になるだろう。実データの延長には、ヒトの脳活動などを含む生体情報などの計測データも含まれていくことだろう。

 ところで、ビッグデータを運用する箱であるデータベースも重要である。昨年5月にNature Publishing GroupがScientific Dataを創刊したことに象徴されるように、科学においてデータ共有・再利用の機運が高まっている。Impact Factorで有名なThomson Reutersは、2012年にData Citation Indexを発表している。しかし、データは、データベース上ではなく、単にリポジトリにおかれることがほとんどである。データベースは、ただのリポジトリやストレージではなく、データ収集、解析の効率を上げるためにある。学術研究におけるデータベース界隈では、実データをもって研究している人はあまりいないようなので、共同研究の促進になればうれしい。
 今後、ビッグデータを扱う研究ではもちろんだが、研究室レベルの個々の小さな研究においても、データを蓄積するだけでなく、データベース化し、運用することは研究発展の鍵になるはずである。研究倫理上の問題においても、実験研究者の知財・財産権の保護になる。善意ある研究者が疑われた時、データベース化によるデータのトレーサビリティ確保は、自らの身を守る術になるだろう。

 実データのビッグデータに関わる分野は、大学や企業の境界を越えることはもちろんのことながら、さらには、組織の境界を越えて個人のつながりによって発展していくだろう。Open Science/Open innovation のあり方も視野にいれつつ、上記の研究・開発の展望を議論したい。場合によって、生体情報のデータ共有・再利用に関わる課題についても議論をする(生命倫理、法律、ITセキュリティなどの観点から)。ビッグデータ化において、技術的システムだけでなく社会的システムを構築し、社会的に受容されていくことも重要な課題である。

事前勉強のための参考資料(簡単なのから論文まで) in construction

用意・準備(鹿内用)

プログラム構成の意図

  • 第1部 実データとモデルと機械学習

鹿内、塚田さん、本田さん、坂東さん; 具体的な実データを扱い、数理モデルを用いて解析している人が発表。
・午後の議論のための材料提供が午前中の目的。
・・推定方法、学習アルゴリズムは 省略してもいい。午後の部で植野のパートで適宜 議論しましょう。
・次の3つを明かにして、参加者全員が午後の議論の材料を共有する。
  1.データ: 実データ群の取得・計測方法、
       性質(時空間の離散性・連続性、多次元性、データの組合わせ、etc)
  2. モデル: 仮説となるモデル・生成モデル、判別・予測モデル、etc
  3. 目的:データとモデルから明かになること、どの様なことがどれくらい分かると嬉しいのか。
       これは分野の価値観に依存する部分。分野外の方にもわかるようにお願いします。

Lunch:会場周辺で適当なところを用意しておきます。

植野さん; 機械学習の利用について議論する。適宜、午前中にでた材料を拾いつつ。

  • 第2部 ビッグデータ化におけるデータベースとオープンサイエンス/イノベーション

鹿内; 導入として、学術界隈におけるデータ共有/再利用の動きを簡単に紹介します。
松谷さん; 実データにかかわるデータベースの設計。実データは多次元的データ・多目的である
  ので複数DB相補的利用(ポリグロット永続化)が重要となるように思います。
  また、データベースに詳しい方が、他にいないので、データベースの型など少しだけ
  入門編もお願いします。
五十嵐さん; どのように人を集めて、差配しているのか。ミーティングはどうやってるのか。
   さらに、どんなリソース・仕組みがあったら、よりオープンな、よりイノベーティブな
   プロジェクトになりそうでしょうか。ということが鹿内の個人的な興味。


  • 連絡
    • タイトル、それぞれの発表
    • 交通費にかかわること
      • 【済】起点
      • 【済】納税住所, 銀行口座
  • 当日
  • プロジェクタ
  • 名前リスト
  • Apple TV(Macをプロジェクタと無線でつなぐために)
  • お菓子, ドーナッツ

最終更新日: 2015-02-17 (火) 09:13:55 (801d)

このページをブックマーク:

 

TOP