今週のキーワード

「構造化データ」と「非構造化データ」の用語解説、違いは? 

2022/03/08 18:33

週刊BCN 2022年03月07日vol.1913掲載

 さまざまな場面で利用されるデータを大別すると、構造化データと非構造化データの2種類に分けられる。

 構造化データは定められた構造となるように整えられたデータを指す。ExcelファイルやCSVファイルなどのように「列」と「行」の概念を有するデータが代表的で、ソフトウェアに読み込ませやすく、解析や分析に適した形となる。

 非構造化データは明確に定義された構造を持たないデータとなる。メールやワープロソフト、プレゼンテーションソフトなどで制作した文書、画像、音声、動画などが挙げられる。

 ERP、CRMなどの業務システムで活用されるのは構造化データであり、近年はビジネスにおいて当たり前のように利用されている。

 一方で非構造化データは人間が見聞きするには適しているが、活用に難がある。ただ、企業内に眠るデータの大半は非構造化データであり、これらを活用することがデジタルトランスフォーメーションにおいて重要との指摘がある。

 現在ではAIによる画像・音声認識や自然言語処理の技術が発達したこともあり、非構造化データの活用に向けた取り組みが進んでいる。

 非構造化データは容量が大きく、ファイル形式も多様であり、データベースとして扱うことも困難なことから、有効に活用するには適切に分類・保管することが必須となる。そのため、データレイクをはじめとする大規模なストレージやCDP(カスタマーデータプラットドーム)などへのニーズが高まっている。
  • 1