2012年10月22日月曜日

ビッグデータの初歩

HBR Blog NetworkのAlex “Sandy” Pentlandによる”Predicting Customers’ (Unedited) Behavior”と”Big Data’s Biggest Obstacles”から、ビッグデータについてまとめます。


まずビッグデータとは、人々の行動結果について、フェイスブックへの投稿、グーグルサーチの結果、携帯電話からのGPS情報、RFID (Radio Frequency Identification) の商品管理情報等、網羅性、客観性を兼ね備えた大量の一次情報を解釈して提供するものである。


人々の行動は社会的文脈によってかなり決定づけられ、またそれはかなり予測できるものであるということから、ビッグデータを活用して人々の行動と結果との間の関係性を発見するという分析がかなり進んできている。これまでは複雑性の科学やウェブサイエンス・エンジニアリングという領域で研究されてきたが、政府、企業をはじめとするあらゆる社会的文脈を組み込み、人間とアルゴリズムをまとめて扱うものとなっている。


ただ、それらを有効利用するためには、データのサイズやスピードではなく、データの関係性をどのように分析し、新たなシステムを生み出すかという点に取り組む必要があり、以下に掲げるような問題をクリアしていかなければならない。

相関性の問題
データが大量であるほど、統計的に有意な結果が得られやすいが、ビッグデータの場合、本当なのか、因果関係はあるのか、単なるエラーなのではないか等の疑問が発生するような、利用価値のない結果が出ることが多く、実世界で因果関係を検証するような仕組みが必要となってくる。

人間知性の問題
ビッグデータで得られた分析結果をどう解釈するかということである。最近、マシンラーニングの領域で発見された結果のうち70~80%は誤っている可能性が高いという推計が発表された。取得したデータに係る統計結果が、人間の直観や因果関係という観点から分析されておらず、使えないということだ。

情報の出所の問題
分析に必要なビッグデータを使用可能な状態で収集しきれないことがある。そうした場合は企業内の情報共有方法の見直し、顧客や他の企業との連携といった対応が必要である。

プライバシーの問題
経済産業省の委託研究として野村総研が行った「平成23年度我が国情報経済社会における基盤整備」の104ページ以降に記述があるので参照されたい。また、アメリカのホワイトハウスがまとめた”Consumer Data Privacy in a Networked World”も消費者データに係る考え方や取り扱い方についてまとめている。

0 件のコメント:

コメントを投稿