datalakeの人気記事 63件 - はてなブックマーク

1 - 40 件 / 63件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

datalakeの検索結果1 - 40 件 / 63件

datalakeに関するエントリは63件あります。データ、 aws、 data などが関連タグです。人気エントリには『新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics』などがあります。

新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
- 272 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2022/11/24
最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。以前に「AWS Lake Formationでデータレイク体験！」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。なぜデータレイクハウスが注目されているのか？データウェアハウスの特徴・課題データレイクの特徴・課題データレイクハウスの特徴データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを
- アーキテクチャ
- あとで読む
- データ
- datalake
- aws
- Azure
- architecture
- 機械学習
- tech
- Data
AWSで“データのサイロ化”を防げ　すべてのデータを1ヶ所に集めるデータレイクの作り方
- 238 users
- logmi.jp
- テクノロジー
- 2021/04/26
リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。野口真吾氏は、AWSを用いたデータレイクの基礎について紹介しました。企業規模に関係なく起こるデータのサイロ化野口真吾氏（以下、野口）：みなさんこんばんは。本日は「検索インフラ Tech Talk!」ということで、検索インフラから少し広げた話題にはなるんですが、「AWSを用いたデータレイクの基礎」というお話をします。よろしくお願いします。最初に簡単に自己紹介します。アマゾンウェブサービスジャパンでスタートアップ担当のソリューションアーキテクトをしている野口真吾と申します。Twitterでは＠nogというIDを使って活
- aws
- あとで読む
- データ
- データレイク
- インフラ
- DB
- data
Delta Lake とは何か - connecting the dots
- 134 users
- ktksq.hatenablog.com
- テクノロジー
- 2022/09/14
はじめに環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違いデータレイクのメリットデータレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保スケーラブルなメタデータ管理バッチとストリーミングワークロードの統合タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマエンフォースメント 2. スキーマエボリューションストレ
データ分析基盤における個人情報の扱いについて - NRIネットコムBlog
- 109 users
- tech.nri-net.com
- テクノロジー
- 2021/06/01
こんにちは佐々木です。誰に望まれた訳でもないですが、データ分析基盤の設計シリーズの第三弾です。今回のテーマは、データ分析基盤における個人情報＆パーソナルデータの扱いについてです。ここを最初に考えておかないと、データ分析基盤は毒入りとなって、扱いづらいものになります。データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog データレイクはRAWデータレイク・中間データレイク・構造化データレイクの３層構造にすると良い - NRIネットコムBlog 個人情報＆パーソナルデータと匿名加工についてまず最初に個人情報＆パーソナルデータの定義と匿名加工について、サラッと確認しておきましょう。個人情報＆パーソナルデータ個人情報とは、任意の一個人に関する情報であり、かつその情報をもとに個人を特定できるものを指します。代表的な個人情報としては、名前・住所・電話番号・E-ma

データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog
- 86 users
- tech.nri-net.com
- テクノロジー
- 2021/05/10
こんにちは佐々木です。いろいろなところで口を酸っぱくして言っているのは、データレイクとDWHを分離しろと。とりあえずDWHに放り込むという考えはあるけど、DWHに入れる時点でデータの整形が行われて、情報の欠損がでてくる。だから、その前にデータレイクに生のままに入れること— Takuro SASAKI (@dkfj) 2021年5月1日データレイクとDWHの分離について呟いたら、それなりの反響を頂きました。せっかくの機会なので、もう少ししっかりと解説してみます。何故、データレイクとDWHを分離する必要があるのか、格納するデータの構造と、データレイク・DWHの役割の観点から考えてみましょう。まずは、データの種類として、構造化データや非構造化データの説明をします。その次に、データレイクとDWHなどの用語・役割の説明をし、最後にアーキテクチャを考えてみます。構造化データと半構造化データ、非構
ぼくのかんがえる最高のレポーティング基盤 @AWSで実践！Analytics modernization
- 86 users
- speakerdeck.com/pei0804
- テクノロジー
- 2021/06/08
VOYAGE GROUP Zucks DSPレポーティング基盤をどのようにして作ったかの話。 https://pages.awscloud.com/JAPAN-event-OE-20210624-AnalyticsModernization-reg-event.html ディメンションモデリング…
- aws
- アーキテクチャ
- ログ
- あとで読む
- データ
- analytics
- レポート
- dev
民間企業におけるデータ整備の課題と工夫 / 20220305
- 63 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2022/03/07
第16回日本統計学会春季集会での発表資料です。 https://confit.atlas.jp/guide/event/tjss2022spring/top https://ies.keio.ac.jp/events/17173/ 講義や共同研究のご相談はブログのお問い合わせ欄にご連絡ください…
AWS データレイク事例祭り登壇資料
- 59 users
- speakerdeck.com/yuki_saito
- テクノロジー
- 2022/06/27
AWS データレイク事例祭り登壇資料です。
- datalake
- あとで読む
- aws
- データ
- 学習
- data
- 資料
S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO
- 54 users
- dev.classmethod.jp
- テクノロジー
- 2021/05/16
本記事は、AWS Summit Japan 2021のセッション動画、「AWS-06: 貯めるだけじゃもったいない！AWS 分析サービスを使ったデータレイクの有効活用」のレポート記事です。「データはとりあえずS3に溜めておけ！」とデータレイクっぽいものは作れたけど上手く使いこなせていない方、それなりにいらっしゃるのではないでしょうか？本セッションでぜひAWSの分析サービスの活用術をおさらいしてみてください。概要データの持つ力を活かす方法としてデータレイクがありますが、データレイク上にデータは貯まってきたものの、どう有効活用すればいいか悩んだ経験はないでしょうか？データレイクに存在するデータと分析ツールと組合せ、活用する方法として、“レイクハウスアプローチ”があります。本セッションでは"レイクハウスアプローチ"の考え方を紹介すると共に、どのようなAWSサービスを用いて"レイクハウスアプ
- aws
- s3
- datalake
- あとで読む
事業の進展とデータマネジメント体制の進歩（＋プレトタイプの話）
- 53 users
- www.slideshare.net/slideshow
- テクノロジー
- 2021/12/10
2021/12/10に開催された TechMarketing Conference 2021 # データマネジメント #techmar での講演資料です。 https://techxmarketing.connpass.com/event/229173/
データカタログにNotionを選択した理由
- 52 users
- zenn.dev/luup_developers
- テクノロジー
- 2022/12/09
実装方法冪等性を担保したGoogle Cloud Composerの設計と実装で紹介しているとおり、Luupのデータ基盤はGoogle Cloud Composerを軸に動いています。なので今回も、Google Cloud Composerの環境下に作りました。アウトプットイメージは以下です。以下のNotion APIのDocumentを参考に実装を進めていきます。サンプルコードも豊富で、説明も丁寧なので簡単に実装できました。以下、コード一例です。 # Notionのフォーマットに変換するメソッド def format_standard_property_value(self, property_name: str, value: str): if property_name == "title": return {"title": [{"text": {"content": v
- notion
- *data
- データ
- あとで読む
- DB
触ってわかるデータレイクハウス（Parquet, Iceberg, Trino）
- 50 users
- zenn.dev/loglass
- テクノロジー
- 2025/02/22
この記事は毎週必ず記事がでるテックブログ Loglass Tech Blog Sprint の79週目の記事です！ 2年間連続達成まで残り27週となりました！昨今、データエンジニアリングの重要性が高まるなか、データレイクハウスという言葉を聞く機会が増えてきました。一方で、BI、DWH、データレイクといった分野は、色のついた商用製品であったり大規模な技術スタックになったりと気軽に触りにくい印象があったりもして個人的に最近はあまり触れてこなかった分野でした(15年程前はだいぶBI製品にお世話になりましたが)。でも、実はかじってみると美味しい、単なる食わず嫌いだったかもしれません。この記事では前半にデータレイクハウスを概観しつつ後半に軽くハンズオンしてみたいと思います。チョイスは、最も使われるフォーマットである Apache Parquet 、S3 Tables の元となっている Apach
Gunosy のデータ活用を支える統合データ基盤 Baikal の話 - Gunosy Tech Blog
- 43 users
- tech.gunosy.io
- テクノロジー
- 2021/08/12
はじめに Baikal について Baikal を支える技術と工夫 AWS アカウント Terraform ワークフロー基盤 Athena Lake Formation アーキテクチャ Extract & Load データ生成元 AWS アカウントにある RDS からデータ抽出データ生成元 AWS アカウントにある DynamoDB からデータ抽出社外の API からデータ抽出 Transform workspace に配置されたデータの変換データ生成元 AWS アカウント内の生ログ変換ウェアハウス内での加工 Share 今後の課題開発の一部を他チームへの委譲データ異常検知 BI ツールの導入はじめに DRE チームの hyamamoto です。新卒の方々が入社されて 4 ヶ月ということで、時の流れの速さを感じています*1。なお、現在、新卒の方々でリレー方式でブログを書いて
分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ
- 41 users
- devblog.thebase.in
- テクノロジー
- 2024/03/27
はじめにこんにちは！Data Platformチームでデータエンジニアとして働いている @shota.imazeki です。分析基盤の構築・運用などの側面から社内のデータ活用の促進を行っています。 BASEではAurora MySQLにあるデータをEmbulkを用いてBigQueryに連携しています。BigQueryへ連携されたデータは分析基盤としてLookerなどを通して社内利用されています。このデータ連携処理にはいくつかの課題があり、それを解決するためにEmbulkからAurora S3 Export機能を用いた連携処理に切り替えることにしましたので、それについて紹介していきたいと思います。 ※この切り替えについては現状、試験的に一部のDBのみの切り替えとなっていますが、運用上の大きな課題が出てこなければ徐々に切り替えていく予定です。切替前のデータ連携処理先述した通り、BAS
データレイクの新しいカタチ：Open Table Formatの紹介 - 流沙河鎮
- 38 users
- bering.hatenadiary.com
- テクノロジー
- 2023/07/18
はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の使いどころと違いについてを特に参考にした。 Open Table Formatとは？ Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム
- DataLake
- bigdata
- 設計
- あとで読む
- data
Amazon DataZone でデータカタログを実現する - Taste of Tech Topics
- 38 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2024/08/26
はじめにこんにちは一史です。最近自動給水器を買い、ベランダで育てているバジルの水やりを自動化しました。テクノロジーは素晴らしいですね。さて、AWSにはAmazon DataZoneという組織が蓄積した膨大なデータに対して、データの発見、アクセス制御、管理を簡素化するデータ管理サービスがあります。データドリブンが重要視される昨今、今回はDataZone上にデータカタログの作成を行ってみます。はじめに概要データレイクとはデータカタログとはなぜAmazon DataZoneが必要か（AWS Guleとの違い） Amazon DataZoneとはサービス概要 DataZoneのデータカタログの完成像 Amazon DataZoneでデータカタログを作成してみる構成概要データ準備ドメインとデータポータルの作成プロジェクトの作成環境の作成データカタログの作成データアセッ
- データ
- あとで読む
- aws
- Amazon
- サービス
- DataZone
AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
- 35 users
- engineers.ntt.com
- テクノロジー
- 2022/08/09
はじめにこんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり
- aws
- データ
- CSV
- blog
分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)
- 26 users
- lab.mo-t.com
- テクノロジー
- 2022/07/05
タクシーアプリ「GO」、法人向けサービス「GO BUSINESS」、タクシーデリバリーアプリ「GO Dine」の分析基盤を開発運用している伊田です。本番DBから分析基盤への連携処理を改善した事例を紹介します。※ 本記事の対象読者はETLツールを利用している方を対象にしていますはじめに本記事では、タクシーアプリ「GO」の DB から分析基盤への同期処理を約7時間から約10分に改善した事例を紹介します。まず、既存の処理および改善前の状況を説明し、次に改善にあたり実施した分析、その分析をもとにチーム内で実施した議論を経て、最終的にどのような実装を行ったのか紹介させて頂きます。同期処理についてGO の DB は Cloud SQL 上で構築されており、分析基盤への同期処理は GKE 上で Embulk を起動し、リードレプリカに対してクエリを投げて一度 GCS に結果を格納します。その後、GC
アクティブメタデータの所感。日本での普及を想う｜松元亮太 / Quollio Technologies
- 26 users
- note.com/rytmq
- 暮らし
- 2022/07/18
冒頭2022年現在、データ界隈で良く聞く概念の一つに、Active Metadataがある。最も、日本では未だ広く浸透していない概念ではあるが、北米ではData MeshやData Fablic、Metrics Layer等のバズワード(?)と同じように界隈を賑わしているものであり、こと ”データが資源” である21世紀の企業経営においては（現時点で少なくとも北米においては）最重要トピックの一つであると言って過言でない。本日は、データの最前線を賑わしているアクティブメタデータについて、まだ日本語での記事も多くないので、思うところを書いてみることにした。背景ときっかけ既にご存知の方も多いと思うが；象徴となったのは、Gartner社が2021年8月にMagic Quadrant for Metadata Managementの廃止を宣言し、代わりに Market Guide for Act
dbtを活用したデータ基盤の論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt
- 25 users
- speakerdeck.com/tanakarian
- テクノロジー
- 2021/12/14
dbtを活用したデータ基盤の論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt
- dbt
- 設計
- data
- あとで読む
AWS Lake Formationでのデータレイク登録からデータアクセスまで - NTT Communications Engineers' Blog
- 24 users
- engineers.ntt.com
- テクノロジー
- 2021/12/16
AWS Lake Formationでのデータレイク登録からデータアクセスまでこの記事は NTTコミュニケーションズ Advent Calendar 2021 の16日目の記事です。はじめにはじめまして！BS本部SS部の荒井です。データマネジメントに関するプリセールスを担当しています。今回はアドベントカレンダー企画ということで、AWS Lake Formationに関する記事を投稿をさせていただきます。データレイクとAWS Lake Formation 近年データ分析の盛り上がりなどから、散逸している様々な形式のデータを一元管理できるレポジトリ、いわゆるデータレイクを導入するケースが増えてきています（参考：データレイクとは）。例えばシステムごとに保存されていた「会員データ」「購入履歴」「問合せ履歴」などのデータをデータレイクに集約することでシステム横断の顧客分析を手軽に行うこと
- aws
- iam
- data
- データ
- あとで読む
社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
- 20 users
- tech.plaid.co.jp
- テクノロジー
- 2024/01/26
こんにちは、プレイドでCore Platform開発の責任者をしているエンジニアのkusappeです。プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてブログ化しました。この記事では、Modern Data Stackとは何か、そのメリットや特徴について解説します。また、具体的な技術要素・主要サービスや重要だと思うトレンドについても紹介します。 Modern Data Stackとは？ Modern Data Stackとは、データの収集、処理、分析、可視化などデータ活用に関わる機能を、それぞれに特化したクラウドサービスやSaaSツールを組み合わせて構築するという考え方やその基盤のことを指します。クラウドサービスやその周辺の技術要素の進化によって、従来のデータ基盤と比べると以下のメリットがあると言われています。高い
- dbt
- データベース
今こそ注目！DWHにおけるデータモデリングとその歴史
- 19 users
- www.nttdata.com
- テクノロジー
- 2022/04/07
キーワードで探すカテゴリで探す業界トレンド／展望技術トレンド／展望事例サービスで探すコンサルティング戦略コンサルティング社会課題コンサルティング業務コンサルティングデザインコンサルティング変革支援コンサルティングアプリケーション・サービステクノロジーコンサルティング CRM（Salesforce） ERP（SAP/Biz∫）顧客接点・決済カーボンニュートラル SCM ロジスティクス電子申請データ＆インテリジェンス生成AI アプリケーション開発・管理データスペースブロックチェーン量子コンピュータ・イジングマシンデジタルツイン IoT ロボティクス・RPA クラウドネットワークデータセンターサイバーセキュリティビジネスプロセスサービス業種で探す金融官公庁・自治体医療・ヘルスケア防災・レジリエンス食品流通・小売モビリティ製薬・
- Pocket
- あとで読む
Data Meshとは何か？
- 15 users
- attsun1031.github.io
- テクノロジー
- 2021/06/09
Aboutこの記事は、「Data Mesh」について書かれたものです。参考文献に記載された内容をベースとして、個人的な感想や意見を加えたものです。事例ではありません。 TL;DRData Mesh はデータ基盤の新しいアーキテクチャ原則であり、現在主流である中央集中型のデータ基盤と、そこから起こる問題への解決策です。Data Mesh はマイクロサービスと DDD から着想を得ており、データの生成・管理・提供を中央ではなくドメインごとに管理します。管理が分散することでスケーラビリティ・自律性を確保しつつ、統一的なガバナンスを保持できるアイデアです。主な想定読者Data Mesh が気になる方データ基盤を開発・保守するデータエンジニアデータマネジメントをより洗練させたいと感じている方Data Mesh の登場した背景 (WHY)詳細に入る前に、Data Mesh が前提に置く現代のデータ基
- DataMesh
- データ基盤
DevelopersIO 2022 Snowflakeトーク＆ディスカッション～Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう！#devio2022 | DevelopersIO
- 14 users
- dev.classmethod.jp
- テクノロジー
- 2022/08/01
さがらです。 DevelopersIO 2022 〜技術で心を揺さぶる3日間〜の2日目、2022年7月27日にSnowflakeトーク＆ディスカッション～Snowflake Summit'22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう！というタイトルで、Snowflake社のKTさん、弊社クラスメソッドの甲木、さがら、の3人で登壇しました。本ブログではこの登壇内容について、紹介のあったSnowflakeの新機能を中心にまとめたいと思います。登壇概要概要 Snowflake社の最大のユーザーカンファレンスイベントである「Snowflake Summit」がラスベガスにて2022年6月13～16日の日程で開催されました。本セッションではSnowflake社のKT氏をお招きし、イベントに現地参戦できなかったData Supeheroesであるクラスメソ
Dataplex: data governance
- 13 users
- cloud.google.com
- テクノロジー
- 2021/06/20
Centrally discover, manage, monitor, and govern data and AI artifacts across your data platform, providing access to trusted data and powering analytics and AI at scale.
- dataplex
- dataLake
- GCP
- analytics
- あとで読む
更新できるデータレイクを作る〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
- 12 users
- tech.gunosy.io
- テクノロジー
- 2021/12/04
広告技術部のUT@mocyutoです。こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。昨日は内田さんのその設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログでした今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。背景仕組み課題対応策データの持ち方を変える Apache Hudiとは構成 Glue + PySpark Athenaによる抽出移行し終えて背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。仕組みこの仕組みを実現するためには以下のようなアーキテクチャになっていました
データマネジメントにおけるメタデータ管理についてまとめてみた | DevelopersIO
- 11 users
- dev.classmethod.jp
- テクノロジー
- 2023/02/03
どーも、データアナリティクス事業本部コンサルティングチームのsutoです。データマネジメントに関する知識を体系立ててまとめた「DMBOK」（ここでは第２版であるDMBOK2）には、広範なデータマネジメントの概念として11個の知識領域が定義されています。その中に「メタデータ」の管理に関する記述があります。増え続けるデータの種類と量の全体像を把握しやすくする目的として、業務用語とその利用法に関する組織の理解を提供する様々なソースのメタデータを収集し統合するメタデータにアクセスするための標準的な方法を提供するメタデータの品質とセキュリティを確保することをゴールとしてメタデータの管理を考えることの必要性を謳っています。じゃあ具体的に、『自分たちの組織の組織と照らし合わせてどんな方針で考えて整備していけばよいのだろう』という疑問に対して、「とりあえずメタデータ管理できるツールを入れれ
- data
- あとで読む
新感覚なELTツール「Meltano」を使ってSlackのデータをDWHに連携してみた | DevelopersIO
- 10 users
- dev.classmethod.jp
- テクノロジー
- 2021/09/22
大阪オフィスの玉井です。今回はMeltanoというツールをご紹介します。 Meltanoとは？公式から引用すると「DataOps時代におけるEL(T)ツール」だそうです。 … …私の個人的な感覚で説明しますが、絶妙な位置づけのEL(T)ツールです。やることはELT（メインはEL）なのですが、とにかく位置づけが絶妙なのです。 Meltanoの絶妙なポジションデータをE（抽出）してL（ロード）する…という仕組みを行いたいとき、ざっくり分けると、下記のどちらかを選ぶと思います。手動で開発する（Pythonなど）そういうサービスを導入する（Fivetranなど）前者は何でもできますが、人と時間のコストが半端じゃないです。後者はめちゃくちゃ楽ですが、ちょっとカスタマイズしたいみたいな時に、あまり身動きがとれません（融通が効きづらい）。 Meltanoは上記の中間に位置する感じです。コード
データレイクはRAWデータレイク・中間データレイク・構造化データレイクの３層構造にすると良い - NRIネットコムBlog
- 10 users
- tech.nri-net.com
- 暮らし
- 2021/05/20
こんにちは佐々木です。前回、データレイクとDWHを分離せよという趣旨の記事を書いていました。今回は、その続きとして、データレイクをRAWデータレイク・中間データレイク・構造化データレイクの３層構造がお勧めですよというお話をします。何の事でしょう？ RAWデータレイク・中間データレイク・構造化データレイクの役割データレイクに、RAWデータレイク・中間データレイク・構造化データレイクと３つの名前をつけました。まずこのネーミングはオリジナルで、ググっても出てきません。ここ数年、データ分析基盤を作ってきた中の経験で、こんな感じでデータレイクを３層に分けると良いなぁってなっています。層ごとに便宜的に名前をつけたのが、RAWデータレイク・中間データレイク・構造化データレイクです。それぞれの層の役割をみていきましょう。 RAWデータレイク RAWデータレイクは、名前のとおりに各データソースから送られ
- Pocket
Amazon Athena Apache IcebergテーブルフォーマットによるACID Transactionを試してみました！ #reinvent | DevelopersIO
- 8 users
- dev.classmethod.jp
- テクノロジー
- 2021/12/07
Icebergの強みを活かす INSERT INTOで300万レコードのデータコピー普通のAthenaのテーブルと比較して、オーバヘッドが生じることが確認できました。上記では、1レコードINSERTでも7秒かかったりしたので、300万レコードをINSERT INTOしたときの時間がどうなるのかを確認したいと思います。上記のテーブルからパーティションを取り除いて、INSERT INTOでデータのコピー先のテーブルを作成します。 CREATE TABLE iceberg_table ( id int, data string, category string) LOCATION 's3://<mybucket>/iceberg_table/' TBLPROPERTIES ( 'table_type'='ICEBERG', 'format'='parquet', 'compaction_bi
- AWS
- あとで読む
Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 - every Tech Blog
- 8 users
- tech.every.tv
- テクノロジー
- 2021/04/13
Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計こんにちは。ビッグデータ処理基盤の物理レイヤーから論理レイヤーの設計実装、データエンジニアやデータサイエンティストのタスク管理全般を担当している、Data/AI部門の何でも屋マネージャの @smdmts です。この記事は、弊社のデータ基盤の大部分を支えるDelta LakeとLakehouseプラットフォームによるデータウェアハウス設計の紹介です。 Databricks社が主体となり開発しているDelta Lakeをご存じでしょうか？ Delta Lakeは、Apache Sparkを利用したLakehouseプラットフォームを実装可能とするオープンソースです。 Lakehouseプラットフォームの詳細は、こちらの論文に記載されています。 Lakehouseプラットフォームとは、一つのデータレイクのプラ
BigQuery のデータ品質やデータ活用を高める Dataplex 等の活用
- 8 users
- speakerdeck.com/mot_techtalk
- テクノロジー
- 2023/11/26
Google Cloud Next Tokyo '23で発表した資料です。
AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
- 6 users
- zenn.dev/simpleform_blog
- テクノロジー
- 2024/04/16
こんにちは。シンプルフォーム株式会社にてインフラエンジニアをしています、山岸です。社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。概要当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま
- aws
PyCPA: 会計データ基盤の話
- 6 users
- lyohe.github.io
- テクノロジー
- 2022/08/15
6 月 4 日に PyCPA という勉強会で大規模サービスにおける会計データ基盤について話した。 https://pycpa.connpass.com/event/246420/ MAU 1,000 万人超の消費者向け大規模サービスにおいて、会計データの収集・集計を目的とした社内向けシステムの開発運用に携わった経験をもとに、会計データを処理するシステムに特有の課題、およびその解決方法の選択肢とトレードオフについてお話しします。人数の制限や当日の都合で参加できなかった方のために、話した内容とその背景、補足をここに書き残しておく。随分と時間が経ってしまってすみません。より詳しく聞きたいという方がいたらご連絡ください。概要複雑な「お金の動き」を伴うサービスを開発・運用するとき、それをどのような方法で正確・迅速に捕捉し財務会計や管理会計に必要なデータとして収集・保存・集計するべきかという課
- development
- あとで読む
カラリアのデータ基盤と機械学習基盤 - 小さく始めるMLOps - High Link テックブログ
- 5 users
- tech.high-link.co.jp
- テクノロジー
- 2022/11/15
はじめにこんにちは。High Linkのデータエンジニアの芦川 (@hirorororo772) です。私たちが運営する香水サブスクサービス「カラリア」では、「香水診断」、「レコメンド機能」、「フレグランスプロフィール」など、データを活用したさまざまな機能を提供しています。こういった機能を提供するためには、ロジックの開発だけでなく、安定的に提供するための基盤や開発を加速させるためのCI/CD基盤やデータパイプラインの構築（MLOps）が重要になってきます。今回は、カラリアにおけるデータを活用した機能の裏側についてご紹介したいと思います。スタートアップである私たちは、小さくはじめてスピードは保ちつつ、中長期的に開発スピードや運用コストにレバレッジを効かせられるよう意識してきました。設計面で考慮したポイントや、実際に運用してみた所感なども併せてご紹介いたしますので、これからミニマム
AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2021/03/24
id price total price_profit total_profit discount visible name created updated 1 20000 300000000 4.56 67.89 789012.34 True QuietComfort 35 2019-06-14 2019-06-14 23:59:59 PyArrow3.0.0用のLambda Layerを作成する Lambda動作環境の選定今回は、TSVファイルに軽量・高速に変換するためAWS Lambdaを用います。Lambdaは、パッケージフォーマットとして、従来どおりLambda関数を用いる方法に加えて、コンテナイメージがサポートされました。複数のLambdaアプリケーションや関数から再利用されることを考慮して、デプロイパッケージは、Layerを用います。 Lambdaの制約事項デプロイパッケ
- python
Great ExpectationsでBigQueryのデータ品質を監視する | フューチャー技術ブログ
- 5 users
- future-architect.github.io
- テクノロジー
- 2023/06/11
1. はじめにこんにちは、フューチャーでアルバイトをしている板野です。 Great Expectationsというツールを使って、表形式データの品質をバリデーションする流れをご紹介します。 MLOpsを推進するにあたりMLモデルの監視が必要となってきています。その中でも、MLモデルに入出力されるデータ品質をバリデーションすることは重要な監視事項の1つです。 ML監視についての概要や意義については、こちらの記事で詳しく述べられているのでぜひご覧ください。 2. Great Expectationsの概要 ※公式サイトロゴ Great Expectations（GX）はデータ品質監視ツールの1つで、表形式データの品質監視ができます。GXはOSSであり、Pythonライブラリとして提供されています。予めデータに対し、Expectationと呼ばれる「データのあるべき姿」を定義しておき、監視対象
TrinoとIcebergでログ基盤の構築 | さくらのナレッジ
- 5 users
- knowledge.sakura.ad.jp
- テクノロジー
- 2023/12/19
はじめに 2023年10月5日(木)にTrino / Presto Conference Tokyo 2023 (Online)が開催されました。本記事はイベントにて発表した内容をご紹介します。社内の監視サーバについてさくらインターネットでは現在社内の各チームでPrometheus, Elastic Stack, Lokiなどの監視基盤を個別に運用しています。この状態では運用負荷が大きいためSRE室でログ基盤を提供することにより、運用の手間を減らすことや運用レベルを底上げしてコスト削減ができるのではないかと検討しています。既存のOSSでの運用も行ってみたものの、マルチテナント提供・ライセンス体系の問題など課題があったことからTrinoとIcebergでの開発を始めました。 Icebergとは Icebergはビッグデータ・データレイクを構築するためのストレージフォーマットです。データの
- あとで読む
【新機能】BigQuery data canvasを早速触ってみた #GoogleCloudNext | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2024/04/11
Google Cloudデータエンジニアのはんざわです。現在開催中のGoogle Cloud Next'24でBigQuery data canvasという新機能が追加されました。本記事では早速この新機能を触ってみたいと思います！ BigQuery data canvas とは？ BigQuery data canvasは、データソースの選択、クエリの実行、可視化をDAGで操作できる分析用のインターフェイスです。また、Geminiのサポートにより、自然言語を使用したデータの検索やSQLの作成、グラフの生成も行うことが可能です。 BigQuery data canvasの公式ドキュメントそれでは早速触ってみたいと思います！注意 2024年4月10日時点でBigQuery data canvasはprivate プレビューで、使用するためにはRequest BigQuery data