IMA LIFE JAPAN

~ビッグ・データ~

【定義】

「ビッグ・データ」とは何か、という共通定義はまだ定まってはいないようです。いろいろな定義の中で、ここでは次のように考えます。
「ビッグ・データとは、インターネットの普及とIT技術の進化によって生まれたものであり、これまで企業が扱ってきた以上に、より大容量かつ多様なデータを扱う新たな仕組みを表すもので、その特性は量、頻度(更新速度)、多様性(データの種類)によって規定される。」

「ビッグ・データ」は、従来の巨大なデータ・システムと比較すると、次に述べる3つの部分に違いがあります。先ず初めにデータ量が多いということ、次にデータの種類が多いということ、そして最後にデータの変化する頻度が多いということです。そして、これらの条件が重なることで、従来のシステムでは取り扱うことが困難であったデータと、それを扱うためのシステムのことを「ビッグ・データ」と呼びます。

従来と比較した場合、データ量については、「ビッグ・データ」では桁違いに多いものを取り扱います。情報量の単位であるバイトで言えば、数百テラ(テラは一兆)から、そのテラの千倍のペタとか、更にペタの千倍のエクサや、そのエクサの千倍のゼタといった、全く違った次元のデータ量が多いものを念頭に置いています。

「ビッグ・データ」の特徴は、量の多さだけでなく、扱うデータの種類が多いことにあります。扱うデータには、会計システムなどの基幹システムから発せられる数値や文字列といったデータ(構造化データ*と呼ばれる)だけでなく、文章、音声、動画といったマルチメディア・データなどのデータ(非構造化データ**と呼ばれる)が含まれます。更に、電子メールのデータやXML***データなどの半構造化データ****、また、各種センサーや機器から送られるデータや通信ログのように、非常に頻度が多いようなデータも含まれます。その上、これらのデータには社内だけでなく、インターネット上の社外にある場合も多くあります。

  • *【構造化データ:HTMLに書かれている情報を、検索ロボットでも理解できるように意味づけする“メタデータ”。なお、HTMLとは、Webページを記述するための表示用言語で、後述するXMLと同じく文章中の文字列をタグで挟むことで、Webページに装飾を施すのが目的。人間に情報を分かり易く表示するための言語。メタデータとは、あるデータそのものではなく、そのデータを表す属性や関連する情報を記述したデータ】
  • **【非構造化データ:構造定義されておらず、主に“リレーショナル・モデル”にうまく適合しないデータ・モデルに分類 されるデータ。なお、リレーショナル・モデルとは、リレーショナル・データベース(一件のデータを複数の属性 の値の組として表現し、組を列挙することでデータを格納していく方式)の基礎となっているデータ・モデル】
  • *** 【XML:文章の見た目や構造を記述するためのマークアップ言語の一種。HTMLと異なり、マシンに情報をわかりや すく、効率よく伝えるための言語。なお、マークアップ言語とは、コンピューターによって処理される人工言語の種 類の一つで、データ中に特定の記法を用いて何らかの情報を埋め込むためのもの】
  • ****【半構造化データ:厳密には定義されていない構造を持ち,その中にテキストなどの非構造化データを含んでいるデータ】

この取り扱うデータの種類の差が、従来のシステムと「ビッグ・データ」を区別する特徴になるのではないでしょうか。実際に「ビッグ・データ」の活用を先導している企業の多くは、Google やFacebookといったWebサービス事業者です。彼らの活用するデータは、従来の売り上げデータや顧客データのような社内に存在するデータではなく、Web上にある文章や画像といったデータ、つまり前述の非構造化データが中心となっています。

更に、これまで多くの企業が行って来たデータ活用は、例え顧客データであったとしても、活用目的は個々の顧客の属性ではなく、集計することによって得られる傾向情報が中心でした。しかし、これらのWebサービス事業者では、顧客の個々の属性を捉え、例えばAmazonのリコメンデーション(おすすめ)のように、細分化された情報を利用しています。そして、大きく異なるのは、データ処理に対する精度よりも、スピードを重視していることです。

【活用範囲】

Webサービス事業者での活用事例としては、Googleは検索と無料アプリケーションによって蓄積した膨大なデータを基に広告ビジネスを行っています。また、Facebookのようなソーシャル・メディアも、膨大な会員データを基盤として、広告やゲームなどのソフトウェア販売などで収益を上げています。更に、前述したように、AmazonなどのECショップでは、会員データ、購買履歴、クリック・ストリーム(サイト内での顧客の動き)などのデータを使って、過去の履歴やリコメンデーションを提示することで、会員個々に購買意欲を高める情報提供を行っています。

通信事業者の場合であれば、携帯電話などの通信ログの分析から、他の通信事業者へ乗り換える危険度を事前に察知して、個別に値引きキャンペーンを実施したり、逆に友達紹介キャンペーンをしたりするような施策が既に実施されています。

損害保険会社であれば、カーナビのGPSから契約者の運転状況を詳細に把握することで、年齢、走行距離、免許の種類といった情報だけでなく、契約者ごとに実際の走行や運転の状況を知り、契約者個々をリスク分析することで、マージンの確保と契約者の価格満足度を両立するようなことも可能になります。同様に、クレジット・カード会社であれば、カードの利用された場所と利用者のスマート・フォンのGPSデータを照合することで、不正利用を検知することも検討されています。

どの企業でも販売という行為と顧客は存在していますので、製品に対する顧客からのフィードバックや顧客ニーズが知りたいのではないでしょうか。既に小売業を中心に実施されている、ソーシャル・メディアのコメント情報から、自社や自社の商品に関しての発言を捉えて、マーケティング施策に利用する、更に商品企画や開発に活用するという利用方法は、どの業種でもあてはまる「ビッグ・データ」の活用方法の1つだと思います。

「ビッグ・データ」は、社会インフラや1次産業などでの利用も考えられています。 例えば、道路に設置してあるセンサー、車載されているETCやGPSのデータを利用して得られた交通量データと信号機の制御と連動することで、渋滞緩和や移動時間の短縮、そしてCO2排出量の低減が実現可能となることです。また、各病院で保管されているカルテや投薬情報、更に様々な検査データを統合化管理することで、医療コストの削減や医療ミスの防止を行うことや、遠隔診療の普及を図ることなども考えられます。

また、IT化が遅れていた1次産業の効率化にも有効と考えます。例えば、田畑に気象センサーを設置し、気象データと収穫量や品質などのデータとの関係を把握することで、農業プロセスを最適化することで生産性と収益性を向上させるといった活用が考えられます。

【問題点】

「ビッグ・データ」の取り扱いに関しては様々な課題があります。例えば、処理速度、データの品質、セキュリティ、プライバシー等々がありますが、ここでは、処理速度とデータの品質についてのみ取り上げます。

先ずは、処理速度についてですが、「ビッグ・データ」の分析をする際には、殆どのデータは鮮度が肝要です。言い換えれば、実時間で分析することが理想な訳です。しかしながら、収集や処理には多大な時間が掛かりますので、処理時間の短縮というのが大きな課題になります。従来は、統計学の知識を持ったデータ・アナリストと呼ばれる専門家が、データの分析を行ってきましたが、データ量の拡大と共にそれが困難になってきました。そこで、AI(人工知能)技術が取り入れられて、AIと「ビッグ・データ」はほぼ一体の情報技術としてみなされるようになりました。いずれにせよ、処理速度の問題に対処すべく取り組まれている技術的な方策の幾つかについて、簡単に触れておきます。

  • Hadoop:Java*で書かれたオープン・ソースのソフトウェア・フレームワークであり、大規模データの処理を分割し、 複数のコンピューターで並列に実行するものである。アプリケーションが数千ノード**およびペタバイト級のデータを処理することを可能としている。
  • *【JAVA:プログラミング言語の1つで、汎用的でOSに依存せず、処理速度が速い】
  • **【ノード:ネットワークやツリー構造など、複数の要素が結びついてできた構造体において、個々の要素のこと。なお、ツリー構造とは、データ構造の一つで、一つの要素(ノード)が複数の子要素を持ち、一つの子要素が複数の孫要素を持ち、という形で階層が深くなるほど枝分かれしていく構造のこと】
  • スパース・モデリング:圧縮センシング*の一技法で、膨大なビッグ・データを解析して大量のデータに埋もれて見え にくくなってしまう有為な情報を抽出したり、法則性を導き出したり、断片的なデータを補完して実状に忠実に再現 する、科学的モデリングである。最初からデータを間引いて収集して、時間の節約が可能になる。
  • *【観測対象データがある表現空間では「スパース(疎)」であると仮定して、必要とする未知数の数よりも少ない観測データから、ある条件の下で対象を復元する手法】
  • GPU*の使用:3Dグラフィックス用に開発が続けられてきた演算装置を、「ビッグ・データ」の分析にも使用するこ とにより、その非常に多数のコアによる並列処理が演算の高速化に有用である。そもそもGPUは画面を構成する膨大 な数のピクセル(画素)に対して、適切なデータを生成する処理に特化している。そこで、CPUが苦手とする大量の データに対して、同時並行で演算処理を適用する処理に適用できないかという考え方が生まれた。こうして、高い演 算処理能力をグラフィックス分野以外の用途に転用する、GPGPU(General Purpose Computing on Graphics Processing Units、GPUによる汎用計算)が登場した。
  • *【GPU:Graphics Processing Unitの略称で、コンピュータグラフィックスの演算などを行う画像処理装置のこと。1999年に半導体のメーカーであるNVIDAが開発した。汎用的な処理を行うCPU(Central Processing Unit、中央演算処理装置)に対して、GPUは比較的単純な処理に特化した装置であるが、高速なグラフィック処理を主な用途としている。最近ではGPGPU(General Purpose Computing on GPU)という新しい技術が登場し、画像処理などに限らず、CPUのように汎用的な処理を行うことができるものも登場している。】
  • 量子コンピューティング:従来のコンピューティングでは、0か1かというビット(バイナリー・ビット)で情報をコード 化する。それに対して、量子コンピューティングでは、量子ビットまたはキュービット(cubit)と呼ばれるデータの断片 が、同時に複数の状態で存在できるようにする。キュービットは、ビットとは異なって、0と1だけでなく「0と1を任意に 組み合わせた状態を同時にとる」ことが可能である。量子力学では、この状態を「重ね合わせ」と呼ぶ。もう1つの主要な 特性は、各キュービットの状態が、システム内のその他のキュービットすべての状態と関連付けられていることである。 量子力学では、これを「もつれ」と呼ぶ。そして、システムに対してキュービット1つ追加するごとに、全体の処理能力は およそ2倍になる。システムが同時に作り出すことのできる状態の数が、基本的に2倍になるからである。このことが実際 に意味するのは、キュービットで構成されたプロセッサーは、同じ数のバイナリー・ビットを持つ従来のコンピューター より、指数関数的に複雑な計算にも対処できるほど高い能力があるということである。このようにして、量子コンピュー ターは非常に高速な並列処理を行う事が可能になる。量子コンピューティングは、地球上の最も複雑な問題の多くに対す るアプローチを一変させる可能性があるが、現段階のテクノロジーそのものは依然として未熟なままである。
  • エッジ・コンピューティング:IoT(モノのインターネット)の進展で、装置や機械の稼働データを機器の近くで処理する「エッジ(末端)コンピューティング」が本格化する。遠く離れた「クラウド(雲)」にデータを集める従来と比べ、応 答速度を高めることができ、AI(人工知能)を活用した装置の故障予知など応用範囲が広がる。つまり、顧客の工場に 合わせて活用できるIoTプラットフォームを提供することなどで、生産性の向上を後押しする。IoTではこれまで、各機 器のデータをクラウドで分析し、その結果を現場に戻すシステムが多かった。しかし工場では産業用ロボットや工作機 械など、複数の機器から膨大なデータが発生する。これら全てのデータを、クラウドで処理するのはコストが掛かる上、時間的な”遅れ”も発生する。

次に、データの品質の問題について触れます。当然のことですが、そもそも入力(送信)されるデータ自体が、装置の故障、あるいは故意や過失により、誤ったものになったり欠落したりすることで、その信頼性が失われる可能性があります。このような場合には、その分析結果も自ずから信頼性には疑問が生じます。この問題を防止する技術として注目されているのが、「データ・クレンジング」と呼ばれるものです。本来は、データベース中の誤ったデータを抽出して、その修正や削除を行う技術でした。しかし、「ビッグ・データ」においては、データベースに入る前の段階、つまりデータの収集を行う時点でスクリーニングを行い、誤ったデータを送信しないようにすることを、「データ・クレンジング」と呼んでいます。前述のエッジ・コンピューティングでは、IoT機器の方で不適切なデータを選別・排除することにより、それらがクラウドに送られてしまうことを防ぐような仕組みです。

ところで、「ビッグ・データ」とは大量のデータが集まって成り立っているものなので、分析する上で全てのデータを分析することはできません。そこで時間の効率化などを考慮して、タッピング*と呼ばれるデータ抽出を行い、その一部のデータで分析を行います。つまり、100あるデータ群の内の、10や20といった少ない数のデータを抽出することで分析を行っています。しかしこうしたタッピングでは同じデータ群の中でも、抽出するグループによって分析結果が大きく異なるケースも少なくありません。しかし、異なる結果に基づく間違った決定による影響は、限りなく大きいのです。「ビッグ・データ」においては、間違った決定をするケースと、分析すべきデータが漏れているケースがあります。この間違った決定と漏れは、未知の情報を見つけるための探索的手法に起因します。大量・多量に集めたデータに対し、暫定的なルールを決めて試行錯誤するため、間違った決定になる可能性が高くなるのです。そこで、即座に結論を出すのではなく、「ビッグ・データ」の分析の結果は、あくまでも1つの可能性として検証を進める必要があります。そのためには、リスク管理の考え方に基づいて、適切な判断がなされなければなりません。

  • *【タッピング:「ビッグ・データ」で扱うのは、統計学が扱う「ひな形(全データの代表)」とは異なり、「母数そのもの(全データ)」である。母数を分析する過程で、重複や対象外といった不要なデータを捨てていき、ある基準から必要になるデータを選択し取得する。これを「タッピング(tapping:データを抜き出すイメージ)」という。】