lynx   »   [go: up one dir, main page]

タグ

Hadoopに関するmikage014のブックマーク (20)

  • SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

    Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。 例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

  • MySQL Casual Talks in Fukuoka vol.2でLTしてきました

    第2回目のMySQL Casual Talks in Fukuokaが開催されたので、 前回に引き続きLTさせてもらいました。 主催者の@Spring_MTさん、会場をご提供いただいた日オラクルさん、 参加された皆さん、ありがとうございました! ATNDはこちら MySQL Casual Talks in Fukuoka vol.2 5.6では様々な改善・機能追加が行われていますが、個人的にはレプリケーション周りに 注目しています。 詳しくは@RKajiyamaさん、@nippondanjiさんのブログエントリ、スライドを参照してください。 MySQL Connect 2012での発表事項 開発スピードアクセル全開ぶっちぎり!日よ、これがMySQL 5.6だッ!! MySQL 5.6新機能解説 .ibdファイルのエクスポート・インポートが出来るようになるので、 Hadoopで処理した結

    MySQL Casual Talks in Fukuoka vol.2でLTしてきました
  • HadoopをWindows上の仮想マシンで手軽に試す方法

    Hadoopといえば大規模分散フレームワークであり、実行にはそれなりのサーバ群を揃えなければならない、と思われがち。 しかしHadoopでもっとも有名なディストリビューションを提供するClouderaは、PC上の仮想マシンで手軽にHadoopを実行できる仮想マシンイメージ「Cloudera's Hadoop Demo VM for CDH4」を無償公開しています。 VMware Player、KVM、VirtualBoxなど幅広い仮想マシンに対応。個人のPCを使って、例えばWindowsの上でも簡単にHadoopを試すことができます。 仮想マシンを使ったHadoopの実行手順を詳しく解説

    HadoopをWindows上の仮想マシンで手軽に試す方法
  • 日々進化するHadoop。これまでのおさらいと最近の動向(後編)

    Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行われたセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 (記事は「日々進化するHadoop。これまでのおさらいと最近の動向(前編)」の続きです) Hadoopの1.0系と2.0系 Hadoopの開発はかなり活発に進んでいます。 Hadoopでいちばん分からないといわれるのがバージョンで、これは以前からHadoopに接している私たちでもよく分からないくらいです。 Hadoopのバージョンには大きく二系統あって、少し前まで0.20系と呼ばれていたもので、これが現行は1.0系と呼ばれています。もうひとつが0.21、0.22、0.23系と呼ばれていたもの、これがいま2.0系と呼ばれています。 対外的には

    日々進化するHadoop。これまでのおさらいと最近の動向(後編)
  • 並列分散処理の常識をHadoopファミリから学ぶ

    Hadoopプロジェクトは3つの「サブプロジェクト」で構成されています。 Common:Hadoopの基機能FileSystem、RPC、Serializationのライブラリ HDFS:分散ストレージを仮想的に1つに扱うためのファイルシステム MapReduce:膨大なデータセットをクラスタ上で分散処理するためのソフトウェアフレームワーク これらが、「Hadoopファミリ」の核であり、並列分散処理機構を支えています。それ以外の「関連プロジェクト」は2011年12月時点では下記のようになっています。 Avro:Commonの持つ機能を拡張したデータシリアライズシステム Cassandra:単一障害点のないスケーラブルなマルチマスタデータベース Chukwa:大規模な分散システムでのデータ収集システム HBase:大規模な構造化データをサポートする、スケーラブルな分散データベース Hive

    並列分散処理の常識をHadoopファミリから学ぶ
  • 鹿駆動勉強会 青江発表資料

    2. 自己紹介  青江 崇  (株)ノーチラス・テクノロジーズ所属  Twitter ID: aoetk / Hatena ID: aoe-tk  奈良育ち!  今は東京で仕事してますが  最近はHadoopなどの分散ミドルウェアを用いた 業務バッチ開発について、その開発標準を考えた り運用周りの基盤開発をやったりとかしてます 3. 自己紹介(続き)  それまでは割と典型的なSI開発やってて主に JavaEE系の色んなシステム作ってました  B2CやB2BのWebサービスとか、社内基幹システムと か色々  近年はFlexやJavaScriptを使ったRIA開発とかも  なので個人的にはGUI開発にすごく興味有り  今JavaFX追っかけてます!

    鹿駆動勉強会 青江発表資料
  • Hadoop&Asakusaを基幹業務で使い倒す--ノーチラス 神林飛志氏

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 日立ソリューションズは12月2日、東京・品川にて「Hadoopが導く分散処理における次世代のバッチ処理開発とは〜Asakusa FrameworkによるHadoopエンタープライズ適用セミナー〜」を開催した。 稿ではその中から、ノーチラス・テクノロジーズ代表取締役副社長 神林飛志氏による講演「Hadoopによるバッチ処理の導入」を紹介する。 Hadoopを定義するのにビッグデータという言葉は必要ありません——神林氏は冒頭、こう切り出した。 いまやバズワードとして定着し始めている「ビッグデータ」だが、その言葉が語られるときはサブセットのごとく「並列分散処理システム」としてHadoopも引き合いに出されることが多い。だが神林氏は「ビッグデ

    Hadoop&Asakusaを基幹業務で使い倒す--ノーチラス 神林飛志氏
    mikage014
    mikage014 2012/04/05
    「ディスクIOのボトルネックを解消する——これがHadoopであり、これ以上でも以下でもない」
  • Microsoft, Hortonworks to Integrate Hadoop with Windows Server - ReadWriteCloud

  • 「次世代Hadoopの開発に着手する」Yahoo!が宣言、数万台以上のクラスタをサポートへ

    Yahoo!が大規模分散処理のフレームワーク「Hadoop」の次世代版を開発することを、ブログYahoo! Developers Networkにポストしたエントリ「The Next Generation of Apache Hadoop MapReduce」で明らかにしました。 Yahoo!によると、現在のHadoopの実装では1クラスタあたり4000台程度でスケーラビリティの限界にあたるため、アーキテクチャを見直して信頼性や可用性を高めると同時に、1万台から2万台を超えるクラスタのスケーラビリティを実現したうえで、従来のHadoopとアプリケーションの互換性を保つ予定とのこと。さらに、マルチテナント対応、多言語プログラミングのサポートなども実現する予定のようです。 Apache Hadoopコミュニティと協力して開発を進める Yahoo!はブログで次のように書いています。 The c

    「次世代Hadoopの開発に着手する」Yahoo!が宣言、数万台以上のクラスタをサポートへ
  • Eventbrite

    Your version of Internet Explorer is not longer supported. Please upgrade your browser.

    Eventbrite
  • Hadoop and NoSQL Downfall Parody

    Verify to continue To continue, please confirm that you're a human (and not a spambot).

    Hadoop and NoSQL Downfall Parody
  • 複数マシンへHadoopをインストールする

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    複数マシンへHadoopをインストールする
  • Hadoopのインストールとサンプルプログラムの実行

    前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました(図1 参照)。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS(Hadoop Distributed File System)、Hadoop MapReduce F

    Hadoopのインストールとサンプルプログラムの実行
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
    mikage014
    mikage014 2010/10/05
    貴重な資料。
  • その分析、Hadoopなら速く安くできます

    ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか? 現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。 従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など

    その分析、Hadoopなら速く安くできます
  • Legacy Communities - IBM Community

    If you’re looking for a developerWorks forum — Don't panic! You are in the right place. You are here because specific IBM developerWorks forums, blogs and other Connections content have been decommissioned. This page will help you find the content you are looking for, get answers to your questions, and find a new community to call home. Where am I? You are on the IBM Community area, a collection o

  • Hadoop、hBaseで構築する大規模分散データ処理システム

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    Hadoop、hBaseで構築する大規模分散データ処理システム
  • 優良企業はなぜHadoopに走るのか

    ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。 また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。 これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する

    優良企業はなぜHadoopに走るのか
  • クックパッドとHadoop - クックパッド開発者ブログ

    はじめまして。今年の5月に入社した勝間@さがすチームです。 入社してからは、なかなか大変なことも多いですが、最近はお酒好きが集まって月曜から飲み合う 「勝間会」なるものも発足して、仕事面でも仕事以外の面でも密度の高い毎日を過ごしています! さて、僕は「さがす」チーム所属ということで、普段はレシピを「さがす」ユーザの満足度を上げるために、 クックパッドの検索まわりについて、いろいろな開発を行っています。 一方で、ユーザの「さがす欲求」について深く知るために、大規模なデータ解析を行い、欲求の分析を行う機会も増えてきました。 ところが、クックパッドのログは膨大な数があるので、一口のデータ解析と言っても通常のバッチ処理だと間に合わないため、 分散処理環境の必要性が高まってきました。 そこで、まずは手軽に試せる分散処理の王道ということで、最近ではHadoopを使ったデータ解析環境を整備しています。

    クックパッドとHadoop - クックパッド開発者ブログ
    mikage014
    mikage014 2009/09/16
    「サーバシステムエンジニア募集中」 HOTなところのインフラは面白そう
  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • 1
Лучший частный хостинг