いまさら聞けないキーワード

<いまさら聞けないキーワード>Hadoop(ハドゥープ)

2012/04/05 15:26

週刊BCN 2012年04月02日vol.1426掲載

〈一般的な解釈は…〉大量のデータを分散して処理することができるオープンソースのソフトウェア。

 「Hadoop」という英語の造語は、大量のデータを複数のマシンに分散して、処理することができるソフトウェア(ミドルウェア)を指している。Hadoopは、米国の非営利団体「Apacheソフトウェア財団(ASF)」が開発したもので、誰でも無償で手に入れることができるオープンソースソフトウェア(OSS)として提供・配布されている。「Apache Hadoop(アパッチ・ハドゥープ)」ともいう。

 Hadoopは、複数のマシンへの分散という手法をとることによって、情報処理の時間短縮を図り、大規模のデータを効率的に処理・管理することができる。IBMやヒューレット・パッカード、EMCなど、多くの大手IT企業は、オープンソースであるHadoopを採用し、自社が展開するデータ分析ソリューションの分散処理基盤(プラットフォーム)として活用している。

 このところ、ストレージシステムを中心として、Hadoopを利用したIT製品の普及が進んでいる。その背景には、「ビッグデータ」時代の到来がある。ビッグデータとは、ソーシャルネットワーク(SNS)情報や動画など、データベースに格納できない情報(非構造化データ)の増大にけん引され、データ量が爆発的に増えていることを意味する。従来型のリレーショナルデータベース(RDB)を利用する方式では、ビッグデータの処理が難しいので、ビッグデータに適している分散処理プラットフォームとしてHadoopが注目を浴びている。

 Hadoopは、ソフトウェアを作成するためのプログラミング言語「Java(ジャバ)」で実装される。分散処理システム「Hadoop MapReduce」、分散ファイルシステム「Hadoop Distributed File System(HDFS)」、データベース基盤「hBase」の三つのシステムで構成されている。
  • 1

関連記事

「ビッグデータ」の事業化進む 収益上げるまで“我慢の5年” 人材への投資が成功のポイント

日立製作所 大量データ処理ビジネスに本腰 「Hadoop」活用、東大との共同開発も

日本HP、「Hadoop」と親和性高いスケールアウト型サーバーの新モデル