IT Leaders トップ > テクノロジー一覧 > ビッグデータ > 河原潤のITストリーム > ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 ビッグデータ ビッグデータ記事一覧へ [河原潤のITストリーム] ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 2015年7月8日(水)河原 潤(IT Leaders編集部) リスト ビッグデータを扱うための基盤環境として真っ先に名前が挙がるのが、ご存じ「Apache Hadoop/MapReduce」。一方で、数年前から先進企業/エンジニアの間で“ポストHadoop”と呼ばれている技術があります。UCバークレー・AMPLab発の「Apache Spark」です。先月、IBMが「今後10年間で最も重要なオープンソースプロジェクト」と位置づけてSparkへの注力を宣言する
ビッグデータツールチェインのセキュリティはビッグリスク、あるいは、誰もHadoopをスクラッチからビルドする方法を知らない件について The sad state of sysadmin in the age of containers コンテナー時代のシステム管理者の惨状 システム管理は惨劇に見舞われている。現状は悲惨だ。 筆者は昔気質のシステム管理者に不満はない。システムの稼働を維持し、アップデートし、アップグレードする方法を知っている者達だ。 この憤りは、コンテナーと構築済みVMと、それらがもたらす、「信頼」や「アップグレード」の欠如による悲惨な惨劇に対するものだ。 例えば、Hadoopを見てみろ。誰もHadoopをスクラッチからビルドする方法を知っているようには見えないぞ。依存性とバージョンとビルドツールが悲惨なほどに絡まりあっている。 この手のイケてるツールの中で、古典的なmake
はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“明確に”わからない。 このような問題を解決するには、
米GoogleがC/C++コードを「Apache Hadoop」上で動かすためのフレームワーク「MapReduce for C(MR4C)」をオープンソースで公開した。HadoopはJavaベースで実装されているが、このフレームワークを利用することで、C/C++で書かれたアプリケーションを直接Hadoop上で動かすことができる。 Apache HadoopはJavaで作成されたビックデータ分散処理技術。今回公開されたMapReduce for C(MR4C)はHadoop実行フレームワーク内でC/C++コードをネイティブに動かすことができるフレームワーク技術で、ネイティブコードで実装されたアルゴリズムが持つ性能と柔軟性を利用できるとしている。 作成されたアプリケーションは、ローカルのファイルシステムや任意のURI(Uniform Resource Identifier)にアクセスするネイテ
This is a public build and test server for projects of the Apache Software Foundation. All times on this server are UTC. See the Jenkins wiki page for more information about this service. Information about each client controller, including node labels can be found Here NOTE: All Jenkins Controllers are scheduled for plugin upgrades and a safe restart every 1st Sunday of the month. REMINDER: Blueoc
富士通研究所は2012年11月19日、「蓄積されたデータも流れるデータも高速に処理するビッグデータ向けストリーム集計技術」を開発したと発表した。バッチ処理(Hadoopなど)の特徴である集計期間の長さと、ストリーム処理(既存のCEP)の特徴であるレスポンスの良さを両立する、としている。2013年に同社製ミドルウエアへの搭載を目指す。 新技術を使うと、「集計処理の対象となるデータの件数によらずに、一定の性能が出る」(主任研究員の稲越宏弥氏、写真1)。同社の評価結果では、オープンソースソフトウエア(OSS)のCEP(複合イベント処理)エンジンに比べて100倍以上高速化した。CEPエンジンはデータ件数に比例してレスポンス時間が増える(25万件で約10秒、50万件で約20秒など)が、新技術ではデータ件数が増えてもレスポンスが変わらなかった、という。 現状、データ集計のやり方は大きく、バッチ処理とス
2012年11月27日紙版発売 2012年11月27日電子版発売 田澤孝之,横井浩,松井一比良 著 A5判/608ページ 定価4,180円(本体3,800円+税10%) ISBN 978-4-7741-5389-6 ただいま弊社在庫はございません。 Amazon 楽天ブックス 丸善ジュンク堂書店 ヨドバシ.com 電子版 Gihyo Digital Publishing 本書のサポートページサンプルファイルのダウンロードや正誤表など この本の概要 「いままで数千時間かっていた処理が,100分の1以下の時間で終わるようになった」 など,大量/多種のデータを効率よく処理できる手段として注目されているHadoopの仕組みと利用法をやさしく解説。最も現場で利用されているディストリビューション・CDHのバージョン3と,最新のHadoop2.0をベースにしたCDH4に対応,ポイントや注意点を丁寧にフォ
マイクロソフトがHadoopベースのビッグデータソリューションを公開:使い慣れたインターフェイスでビッグデータにアクセス 米マイクロソフトは、Apache Hadoopベースのビッグデータソリューションの新しいプレビューを公開した。同社のWebサイトを通じ、Windows Azure向けの「Windows Azure HDInsight Service」と、Windows Server向けの「Microsoft HDInsight Server for Windows」(CTP版)を2012年10月24日から提供開始している(関連リンク)。チュートリアルも同社Webサイト上で公開されており、.NETアプリケーションからの接続用SDKも用意されている。 新しいプレビューは、エンタープライズレベルのApache Hadoop利用促進と、Hadoopベースソリューションの導入シンプル化を目指して
2. Meta Information • 2006.4 – 2012.3 – Keio University • Artificial Intelligence, Semantic Web, Ontology Engineering • 2011.2 – 2012.3 – CTO at Trippiece, Inc. • Software Engineering • 2012.4 – – Engineer at adingo, Inc. • Data Analysis, Operation Engineering twitter: @suzu_v http://blog.kentasuzuki.net
パブリッククラウドでApache Hadoopのインプリメンテーションを最も包括的な形で提供しているのはどのベンダーだろうか。前編「パブリッククラウドHadoop対応状況──Amazon、Google、Herokuの場合」では米Amazon.com、米Google、米Heroku(米Salesforce.com)のHadoop対応状況を紹介した。後編では米IBM、米MicrosoftのパブリックラウドのHadoop対応状況をまとめる。 IBMのSmartCloud用Apache Hadoop IBMは2011年10月、IBM SmartCloud Enterpriseに「InfoSphere BigInsights Basic」という形でHadoopベースのデータ分析機能の提供を開始した。10Tバイトのデータまで管理できるBigInsights Basicは、Linuxシステム用に無償でダ
2012年2月24日紙版発売 2014年12月23日電子版発売 B5判/216ページ 定価1,628円(本体1,480円+税10%) ISBN 978-4-7741-4994-3 ただいま弊社在庫はございません。 Amazon 楽天ブックス 丸善ジュンク堂書店 ヨドバシ.com Fujisan(定期購読のみ) 電子版 Gihyo Digital Publishing honto 本書のサポートページサンプルファイルのダウンロードや正誤表など 特集1 詳解Jenkins ~メイン開発者が明かす,徹底的な自動化と省力化の作法~ Jenkinsは,世界で最も使われている継続的インテグレーションツールです。継続的インテグレーションとは,ビルド,テスト,コードの品質検査など,定型的で反復可能な作業を自動化し,繰り返し実行することで,省力化を図る作法のことです。 本特集ではJenkinsの生みの親であ
大規模分散処理フレームワークのHadoopの最新安定版「Hadoop 1.0.0」が、昨年12月27日に公開されました。これは、これまで安定版として開発されていた「Hadoop 0.20」ブランチの最新バージョンを1.0.0としたものです。 Hadoopは、前身となるNutchが2002年にDoug Cutting氏によって開発され、(このビデオの10分頃のCutting氏の発言によると)2008年にNutchからHadoopプロジェクトが分離。約4年を経てバージョン1.0へと到達したことになります。 今回バージョン1.0.0となった旧0.20ブランチのほかに、Hadoopには0.22、0.23など複数のブランチで開発が進んでおり、Hadoopに対する新しい機能、例えば従来のMapReduceを完全に書き換えたMapReduce 2などはこれら新しいブランチに対して実装が行われています。
(報道発表資料) 2011年10月26日 日本電信電話株式会社 株式会社プリファードインフラストラクチャー ビッグデータのリアルタイム処理を可能にする大規模データ分析基盤技術を世界に先駆けて開発 ~10月27日よりオープンソースソフトウェアとして公開~ 日本電信電話株式会社(東京都千代田区、代表取締役社長:三浦 惺、以下「NTT」)と株式会社プリファードインフラストラクチャー(東京都文京区、代表取締役社長:西川 徹、以下「PFI社」)は、ビッグデータ*1と呼ばれる大規模データをリアルタイムに高速分析処理する基盤技術「Jubatus*2」(第1版)を開発しました。 直近の潮流変化を調べる等、対象データの新しさを意識したビッグデータ分析アプリケーションを作成するニーズに対して、従来のバッチ処理による定期的な一括処理は、新しいデータの分析が次の実行タイミングまで待たされる点で十分ではありませんで
米マイクロソフトは2011年10月12日(米国時間)、オープンソースソフトウエア(OSS)の分散バッチ処理ソフト「Hadoop」の中心的な開発企業の一つである米ホートンワークスと提携して、Windows ServerとWindows Azure向けのHadoopディストリビューションを提供すると発表した。2011年末までに、Windows Azure向けHadoopのCTP(コミュニティ向け技術評価版)をリリースする。 Hadoopは、米グーグルの「MapReduce」や「Google File System」を参考にした分散バッチ処理ソフトで、米ヤフーが中心となって開発してきた。ホートンワークスは、ヤフーのHadoop開発チームが今年6月に独立した企業である。またHadoopは現在、Apacheソフトウエア財団のトッププロジェクトである。 MSとホートンワークスは共同で、Windows向
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く