What are the features of a data lakehouse?

While the specifics of data lakehouses differ based on business objectives and use cases, the following five features are fundamental: Data ingestion; Data management; Query language; Massively parallel processing; Support diverse analytics workloads

What are the advantages of a data lakehouse?

The most common advantages of data lakehouses include the following: Reduced redundancy; Cost control; Improved governance

What are the disadvantages of a data lakehouse?

The most common disadvantages of data lakehouses include the following: Emerging technology frameworks; Potential management complexity; Lack of visibility

Data warehouse vs. data lake vs. data lakehouse: What’s the difference?

While data lakehouses combine the flexibility and cost-efficiency of data lakes with the querying capabilities of data warehouses, it’s important to understand how these storage environments differ. Data warehouses were the original big data storage option. Designed to provide a single source of truth for structured data, they offer a way for organizations to simplify data management by centralizing inputs. While they are extremely adept at this function, they lack the flexibility of their data lake descendants. Data lakes evolved as a way to better manage structured and unstructured data simultaneously. These lakes are highly flexible and allow companies to store data in native form. In turn, this empowers more in-depth data science and reduces the total cost of data management. Data lakehouses combine the key aspects of lakes and warehouses. This enables enterprises to use the single-repository model of data warehouses for unified storage without sacrificing the analytical flexibility of data lakes, allowing data lakehouses to excel at both analytical and machine learning workloads.

データレイクハウスとは？データレイクとデータウェアハウスの両方の長所を組み合わせたソリューションです

公開日 2022年10月4日更新日 2024年10月22日読了時間：6分

ビピン・シン

インフラストラクチャ AIOps

現代の組織では、膨大な量の構造化データと非構造化データを保存する場所が必要とされています。データレイクハウスを活用することで、組織はデータレイクとデータウェアハウスの両方の利点を最大限に活用できます。

データレイクやデータウェアハウジングのアーキテクチャは、データを保存・分析するための一般的な手法ですが、データレイクハウスはこれら2つのアーキテクチャを統合しつつ、それぞれの利点を維持する効率的な第三の選択肢となります。

したがって、データレイクハウスは組織が両方の長所を享受することを可能にします。

しかし、データをデータレイクハウスに移行する前に、このアーキテクチャが実際にどのように機能するかを理解することが重要です。データレイクハウスを構成する要素、その仕組み、長所と短所、そしてデータレイクやデータウェアハウスとの違いについて探ってみましょう。

データレイクハウスとは？

データレイクハウスは、データレイクの柔軟性とコスト効率に、データウェアハウスの文脈理解能力と高速クエリ機能を兼ね備えています。

データウェアハウスは構造化データ向けの単一ストレージリポジトリを提供し、組織にとっての信頼できる情報源となります。ただし、抽出・変換・ロード（ETL）プロセスを可能にし、データを効率的にクエリするためには、組織はデータ入力を特定の形式で構造化・保存する必要があります。

一方、データレイクは柔軟な環境であり、構造化データと非構造化データの両方を、生のネイティブ形式で保存できます。このアプローチにより、組織は大量の異種データセットから人工知能（AI）や機械学習モデルを構築するためにこのデータを利用できます。ただし、データウェアハウスとは異なり、データはストレージに保存される前に変換されません。そのため、組織が慎重に管理しない場合、その使用は圧倒的になる可能性があります。

A data lakehouse isn't a data lake or a data warehouse. It combines the best of both worlds into one solution.

データレイクハウスはどのように機能するのでしょうか？

データレイクハウスは通常、アプリケーションプログラミングインターフェース（API）やストリーミングなど、多様な方法によるデータ取り込みをサポートします。これらのデータはスキーマ定義を必要とせず、元の生の状態で格納されます。データレイクハウスは構造化データと非構造化データの両方に対してコスト効率の高いストレージ層を提供します。したがって、組織の全データを包含します。

一般的に、ストレージ技術はデータの消費準備度に応じて、ランディングゾーン、生データゾーン、キュレーションゾーンに分類します。その結果、単一の信頼できる情報源を提供するフレームワークが実現され、企業は高度な分析機能を最大限に活用することが可能となります。

データレイクハウスモデルでは、組織はまずソースからデータをデータレイクへ移行します。その後、このデータの一部がシームレスにフィルタリングされ、よりキュレーションされた信頼性の高いデータセットへと変換されます。組織はこのデータセットに対して、必要なガバナンス、利用、アクセスルールを設定します。

データレイクハウスの特徴は何ですか？

データレイクハウスの詳細はビジネス目標やユースケースによって異なりますが、以下の5つの特徴が基本となります：

データ取り込み。データレイクハウスは、構造化データと非構造化データの両方を、生のネイティブ形式のまま非常に高速で大量に取り込みます。エージェントやオープンテクノロジーを活用することで、監視データ、セキュリティデータ、ビジネスデータといった大量のデータを容易に取り込むことが可能です。
データ管理。データレイクハウスは、AWS S3やMicrosoft Azure Blob Storageなどの低コストなオブジェクトストレージを活用し、コスト効率の良いデータ保存・管理を実現します。
クエリ言語。データレイクハウスは、データを照会し、クエリの形で処理指示を送信する手段を提供します。これらのクエリのパフォーマンスは、アドホックな分析ユースケースをサポートできるレベルである必要があります。
大規模並列処理。データレイクハウスは最小限の遅延でクエリ応答を実現します。これは従来のアーキテクチャでは不可能です。大規模並列処理により、複数のプロセッサによる分散クエリ実行が可能となり、応答速度が向上します。
多様な分析ワークロードのサポート。データレイクハウスは、アドホックな質問に答える探索的分析など、分析や機械学習に関する複数のユースケースをサポートします。

データレイクハウスの利点は何ですか？

データレイクハウスの主な利点は以下の通りです：

冗長性の削減。データレイクハウスはレイクとウェアハウスの機能を統合しているため、あらゆる種類のデータを扱える汎用ストレージプラットフォームを提供します。その結果、アクセス性を確保するためにデータを複製するハイブリッドなレイク・ウェアハウスモデルから脱却することが可能となります。
コスト管理。標準化されたオブジェクトストレージソリューションを活用するデータレイクハウスは、データレイクと同等のコスト効率性と管理性を提供します。データウェアハウスの単一ソースリポジトリモデルを加えることで、企業はデータを統合し、コストを管理下に置くことが可能となります。
ガバナンスの強化。レイクハウスモデルはデータセキュリティを優先し、必要なデータを活用しながらグローバル規模での規制コンプライアンス基準を遵守するためのガバナンスメカニズムを容易に適用できます。

データウェアハウス、データレイク、データレイクハウスの違いは何ですか？

データレイクハウスは、データレイクの柔軟性とコスト効率、データウェアハウスのクエリ機能を組み合わせたものですが、これらのストレージ環境の違いを理解することが重要です。

データウェアハウス

データウェアハウスは、ビッグデータストレージの最初の選択肢でした。構造化データに対する単一の信頼できる情報源を提供するように設計されており、入力データを一元化することで組織のデータ管理を簡素化する手段を提供します。この機能には非常に優れていますが、後継となるデータレイクのような柔軟性には欠けています。

データレイク

データレイクは、構造化データと非構造化データを同時に管理する手段として進化しました。これらのレイクは非常に柔軟性が高く、企業がデータをネイティブ形式で保存することを可能にします。これにより、より深いデータサイエンスが可能となり、データ管理の総コストを削減します。

データレイクハウス

データレイクハウスは、レイクとウェアハウスの主要な側面を組み合わせています。これにより、企業はデータウェアハウスの単一リポジトリモデルを活用した統合ストレージを実現しつつ、データレイクの分析の柔軟性を損なうことなく、分析と機械学習の両方のワークロードに優れた性能を発揮することが可能となります。

因果関係データレイクハウスが、可観測性、セキュリティ、ビジネスデータにおける分析、AI、自動化を可能にする仕組み

データレイクハウスアーキテクチャにより、組織は監視、セキュリティ、ビジネスデータから価値を引き出すことが可能となります。コスト効率に優れ耐久性のあるオブジェクトストレージを活用し、従来のコストとパフォーマンスのトレードオフなしに膨大なデータ量を保存します。

OneAgentやOpenTelemetryなどの技術を活用することで、監視、セキュリティ、ビジネスデータをネイティブ形式のまま高速にデータレイクハウスに取り込むことが可能です。データ取り込み時には、SmartScapeのような動的トポロジーマッピング技術によりエンティティ間の関係性を維持します。この文脈の保持により、単純な機械学習ベースのアプローチとは異なり、因果関係に基づくアプローチで正確な解答を導き出すことが可能となります。アプリケーションと基盤インフラ間の相互作用や関係性を可視化する動的マップは、分析の異なる段階で問題の拡大縮小を可能にします。分散トレースとコードレベル分析技術であるPurePathは、高精度の分散トレースをユーザーエクスペリエンスデータと自動的に統合し、コードレベルの分析を提供します。

大規模並列処理と高性能キャッシュを適用することで、こうした文脈化されたデータすべてを高速で照会し、アドホックな分析やAIによる精密な回答を得ることが可能です。これらの回答と知見は、自動修復であれ、プロアクティブな問題特定であれ、自動化を実現する基盤となります。その結果、組織はクラウドネイティブ環境において、文脈に富んだ可観測性とセキュリティデータ分析を入手できます。構造化データと非構造化データの両方におけるオンデマンドの洞察が、クエリ一つで実現します。これにより、企業はビッグデータの深さに関わらず、自信を持ってその海を航海することが可能となります。

Dynatraceの差別化要因、Grailによる新たな進化

Dynatraceは、クラウド変革の加速、非効率なサイロの解消、プロセスの合理化というお客様のミッションを支援する統合ソフトウェアインテリジェンスプラットフォームを提供します。大規模並列処理を備えたDynatraceのデータレイクハウス「Grail」で可観測性データを管理することにより、すべてのデータは因果関係のコンテキストとともに自動的に保存され、再構築やインデックス、スキーマの維持が不要となります。

Grailにより、Dynatraceはノイズを排除し、最も重要な課題に集中するための正確な回答と洞察を提供する比類のない精度を実現します。プラットフォームの自動化とAIにより、Dynatraceは組織がクラウドの複雑性を制御し、運用効率を向上させ、より優れたビジネス成果を達成することを支援します。

データを活用してさらなる成果を上げたいとお考えですか？最新のCIOレポートをダウンロードいただき、従来のインフラ監視では対応しきれていない領域と、その解決策についてご確認ください。

レポートを今すぐダウンロード！