題名 | Hadoopのノード削除時のレプリカ生成の高速化手法の提案 |
著者 | *日開 朝美 (お茶の水女子大学), 竹房 あつ子, 中田 秀基 (産業技術総合研究所), 小口 正人 (お茶の水女子大学) |
Page | pp. 1145 - 1151 |
Keyword | HDFS, レプリカ生成, ノード削除 |
Abstract | 大規模データに対応した処理システムとして,汎用なハードウェアを用いて高度な集約処理を行う分散ファイルシステムに注目が集まっている.本研究では,Apache Hadoopの基盤技術であるHadoop Distributed File System (HDFS)に着目した.Hadoopはスケールアウトするシステムであり,システム規模に応じた運用や故障の発生などにより,ノードを脱退および削除することが想定される.HDFSでは通常複数のDataNode上に複数のレプリカを保持し,ノード脱退時および削除時には他のノードにレプリカを自動的に生成する.この過程が長くなると一部のDataNodeに負荷が掛かりスループットが低下してしまうため,その高速化が重要である.本稿では,ノード削除時に注目して不足分を補うレプリカ生成処理を高速化する制御手法を提案する.予備調査から,レプリカ生成時のデータ移動には偏りが生じ,効率の良い処理が行われていないことが分かった.そこでレプリカ生成先および生成元を制御することでその偏りを解消し,処理を高速化する制御手法を提案する.制御手法により偏りが解消され,スループットが最大59\%向上することを示す. |
題名 | Cassandraによるデータアフィニティを考慮した並列分散処理の実装 |
著者 | *菱沼 直子 (お茶の水女子大学), 竹房 あつ子, 中田 秀基 (産業技術総合研究所), 小口 正人 (お茶の水女子大学) |
Page | pp. 1152 - 1156 |
Keyword | Apache Cassandra, 分散KVS, 並列分散処理, データアフィニティ |
Abstract | クラウドコンピューティングの発展に伴い,大量に生成されるデータを蓄積し,高速に処理することが求められている.このような処理は従来のRDBMSでは難しいことから,大量に生成されるデータの蓄積には分散KVSが,高速な処理にはHDFSなどの分散ファイルシステムが用いられている.しかし,蓄積した大容量データを処理するためには分散KVSから分散ファイルシステムにデータを転送しなければならず,そのコストが問題となる.この問題の解決に向けて,データを蓄積した分散KVS上で直接高速データ処理を行う手法を提案し,実装する.我々は既発表研究において大容量データを扱う分散KVSであるApache Cassandraを拡張し,データアフィニティを考慮した並列データ処理機構を組み込んでいる.本稿では,並列データ処理機構の特性を明らかにするため,データの蓄積を行いつつ,高速データ処理を行った場合の性能と,処理の偏りと性能の相関を調査した.評価より,本実装はWrite中の影響を受けることが確認でき,影響を少なくするためには処理の偏りを小さくし,処理を担当しないノードの発生を防ぐことがより重要であることが分かった. |
題名 | ハードウェアオフロードによるMapReduceの高速化 |
著者 | *本庄 利守, 及川 一樹 (日本電信電話(株) NTTソフトウェアイノベーションセンタ) |
Page | pp. 1157 - 1162 |
Keyword | MapReduce, ハードウェアオフロード, メニーコア, Hadoop |
Abstract | 大規模データを処理する基盤として、MapReduce と呼ばれる分散処理フレームワークが広く使われてきている. MapReduce は、多数のサーバから並列にデータを読み書きすることで、I/O ボトルネックを克服するアーキテクチャとなっていることが特徴である. しかし、ディスクやネットワークの高速化が進むことで、従来想定していたI/O ボトルネックからCPU ボトルネックに移行することが予想される. そこで、本論文では、将来スタンダードになるであろうSSD やInfinband などの高速なディスクやネットワークを用いたベンチマークを通じて、実際にI/O ボトルネックからCPU ボトルネックとなること示し、このCPU ボトルネックを克服する手法として、ハードウェアオフロードによるMapReduce の高速化を提案する. 今回は、Map 処理におけるデータのデシリアライゼーション、パースおよびキーによるソートを実行する箇所をTilera 社のメニーコアプロセッサボードにオフロードするプロトタイプの実装、評価を通じて、本方式のフィージビリティを示す. |
題名 | 高速ストレージ/ネットワークによるHadoop MapReduceのベンチマーク |
著者 | *及川 一樹, 本庄 利守 (日本電信電話(株) NTTソフトウェアイノベーションセンタ) |
Page | pp. 1163 - 1170 |
Keyword | Hadoop, MapReduce, SSD, Infiniband, 性能評価 |
Abstract | ビッグデータの処理基盤としてGoogleにより提案されたMapReduceと呼ばれる分散処理フレームワークが広く利用されている.特に,オープンソースソフトウェア実装であるHadoopはMapReduceのデファクトスタンダードとなりつつある.現行のコモディティサーバー上でのMapReduceの実行では、ディスクやネットワークなどのI/Oがボトルネックとなり、性能が律速されるケースが多かったが,ストレージやネットワークなどのハードウェアの進化が進むことで,I/Oが高速になると,今後はボトルネックはCPUに移行することが考えられる.そこで,本論文では高速なストレージ/ネットワークを利用したMapReduceのベンチマークを行い,ボトルネックがCPUに移行することを示す.さらに,MapReduce内部の各種基本的な処理に関して個別にベンチマークを実施し,現行のCPUが処理できるデータの処理速度を明らかにした. |
題名 | Zipf分布型の処理要求に適したスケールアウト手法における記憶域近似的最小化の拡張 |
著者 | *山下 高生, 栗田 弘之, 高田 直樹, 南 拓也, 太田 賢治 (日本電信電話株式会社/NTTネットワークサービスシステム研究所) |
Page | pp. 1171 - 1179 |
Keyword | スケールアウト, 負荷分散, コンシステントハッシング, ラウンドロビン |
Abstract | 我々は,これまで,WWWやネットワーク装置の制御に用いられるデータ処理において,少量のデータに大半の処理要求が集中する一方で,処理要求頻度が低いデータが大量に存在するようなZipf分布型の特性を持つ処理要求に対し,サーバ負荷の偏りを一定以下に保ちながら,サーバ全体で必要な記憶域の近似的最小化を実現する方法を提案してきた.これまでの提案方法は,要求頻度の違いに応じて,ラウンドロビン,ラウンドロビンとコンシステントハッシングのハイブリッド型処理,コンシステントハッシングの三通りの処理方法を使い分けるスケールアウト可能な負荷分散方法である.本論文では,最初に,これまで提案してきた方法が,処理要求に応答するために必要なデータのサイズが平均的に同一であるという既提案の条件から,処理要求の頻度に対して任意の変化をする条件に拡張可能であることを示す.次に,処理要求の頻度に比例したデータを管理する必要がある条件下において.シミュレーションによる評価を行い,負荷分散を実現しながら,記憶域近似的最小化により既存技術と比較して大幅に記憶域を削減可能であること,および,サーバ間の記憶域サイズの偏りについても実用上十分な範囲を実現できることを示す. |