いまさら聞けないキーワード
<いまさら聞けないキーワード>構造化データ
2011/10/20 15:26
週刊BCN 2011年10月17日vol.1403掲載
そもそも「データ」とは、文字や数字、音声など、情報を伝えるあらゆる要素をまとめて表現するものである。「構造化データ(Structured Data)」とは、データ様式の一つで、コンピュータシステム上のデータベース(DB)に格納することができるタイプのデータを指している。
構造化データとしては、企業の顧客情報をはじめとして、経理データや販売データ、在庫データなどが挙げられる。これらのデータは、汎用のデータベース(データを統合する仕組み)に簡単に収めることができ、データベースを利用することによって、データの整理や検索をすることができる。データベースとして管理することができることから、「構造化」と名づけられた。
構造化データに対する用語として、データベースに収まらない「非構造化データ(Unstructured Data)」がある。非構造化データには、例えば電子メールやテキストファイルなどの文書や、画像、動画といったデータがある。これらは、構造化データよりも複雑で、従来型のデータベースには簡単に格納できないので、「非構造化」と呼ぶようになった。文書の電子化などによって、非構造化データが大量に増え、現状は企業が抱えるデータの約80%を占めるといわれている。
最近、ソーシャルメディアの利用者が増大しつつある。その影響で、インターネット上で非構造化データが急増しており、データ総容量が爆発的に増えている。このようにボリュームが大きくて、複雑化したデータを「ビッグデータ」と呼ぶ。
調査会社のIDCは、データ総容量は2020年までに35ゼタバイト(35兆ギガバイト)に拡大するとみている。ITベンダーは、「ビッグデータ」を分析・活用するソリューションの開発を急いでいる。
- 1