Professional-Data-Engineer 試験問題 16
ケーススタディ1 - フローロジスティック
会社概要
Flowlogisticは、物流およびサプライチェーンのリーディングプロバイダーです。世界中の企業のリソース管理と最終目的地への輸送を支援しています。同社は急成長を遂げ、鉄道、トラック、航空機、海上輸送など、サービスを拡大しています。
会社概要
当社は地域のトラック輸送会社としてスタートし、その後他の物流市場へ拡大しました。
インフラの更新が遅れているため、注文と出荷の管理・追跡がボトルネックとなっています。Flowlogisticは業務改善のため、荷物レベルでの出荷をリアルタイムに追跡する独自の技術を開発しました。しかし、Apache Kafkaをベースとした既存の技術スタックでは処理量に対応できないため、導入に至っていません。さらに、Flowlogisticは注文と出荷をさらに分析し、最適なリソース配分方法を検討したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
* 荷物の位置を示すリアルタイム在庫追跡システムに独自の技術を使用する
* 構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析し、最適なリソース配分方法や、どの市場への情報展開を行うべきかを決定します。また、予測分析を活用して、出荷の遅延を早期に把握したいと考えています。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータ センターに存在します。
* データベース
2つのクラスターに8台の物理サーバー
- SQL Server - ユーザーデータ、インベントリ、静的データ
物理サーバー3台
- Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
* アプリケーションサーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア
20台の物理サーバーにまたがる60台の仮想マシン
- Tomcat - Javaサービス
- Nginx - 静的コンテンツ
- バッチサーバー
* ストレージ機器
- 仮想マシン (VM) ホスト用の iSCSI
- ファイバーチャネルストレージエリアネットワーク(FC SAN) - SQLサーバーストレージ
- ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
* 10台のApache Hadoop / Sparkサーバー
- コアデータレイク
- データ分析ワークロード
* その他サーバー20台
- Jenkins、監視、要塞ホスト、
ビジネス要件
* スケールされた生産パンティを備えた信頼性が高く再現可能な環境を構築します。
* 分析のために集中化されたデータレイクにデータを集約する
* 過去のデータを使用して将来の出荷に関する予測分析を実行する
* 独自の技術を使用して、世界中のすべての出荷を正確に追跡します
* 新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上
* クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する
* 他のすべての要件が満たされている場合は、クラウドに完全に移行します
技術要件
* ストリーミングとバッチデータの両方を処理
* 既存のHadoopワークロードを移行する
* 会社の変化する需要を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。
* 可能な限りマネージドサービスを利用する
* 飛行中および保存中のデータを暗号化
* 本番データセンターとクラウド環境をVPNで接続する SEOステートメント 急速な成長を遂げたため、インフラのアップグレードが進まないことが、さらなる成長と効率性の妨げとなっています。世界中への貨物輸送は効率的ですが、データの移動は非効率的です。
顧客がどこにいるのか、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO声明
ITは当社にとってこれまで優先事項ではありませんでした。そのため、データの増加に伴い、テクノロジーへの投資が不十分になっていました。IT管理を担当する優秀なスタッフはいますが、彼らはインフラ管理に忙殺されており、データの整理、分析機能の構築、CFOのトラッキングテクノロジーの導入方法の検討といった、本当に重要な業務に時間を割くことができません。
CFO声明
当社の競争優位性の一つは、出荷や納品の遅延に対して自らペナルティを課すことです。出荷品の現在位置を常に把握することは、当社の収益と利益率に直接的に影響します。加えて、サーバー環境の構築に資本を投入したくありません。
Flowlogistic 社の経営陣は、現在の Apache Kafka サーバーではリアルタイム在庫追跡システムのデータ量を処理できないと判断しました。そのため、Google Cloud Platform (GCP) 上に、自社の追跡ソフトウェアにデータを提供する新しいシステムを構築する必要があります。このシステムは、世界中の様々なソースからデータを取り込み、リアルタイムで処理・クエリを実行し、データを確実に保存できる必要があります。GCP プロダクトのどの組み合わせを選択すべきでしょうか?
会社概要
Flowlogisticは、物流およびサプライチェーンのリーディングプロバイダーです。世界中の企業のリソース管理と最終目的地への輸送を支援しています。同社は急成長を遂げ、鉄道、トラック、航空機、海上輸送など、サービスを拡大しています。
会社概要
当社は地域のトラック輸送会社としてスタートし、その後他の物流市場へ拡大しました。
インフラの更新が遅れているため、注文と出荷の管理・追跡がボトルネックとなっています。Flowlogisticは業務改善のため、荷物レベルでの出荷をリアルタイムに追跡する独自の技術を開発しました。しかし、Apache Kafkaをベースとした既存の技術スタックでは処理量に対応できないため、導入に至っていません。さらに、Flowlogisticは注文と出荷をさらに分析し、最適なリソース配分方法を検討したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
* 荷物の位置を示すリアルタイム在庫追跡システムに独自の技術を使用する
* 構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析し、最適なリソース配分方法や、どの市場への情報展開を行うべきかを決定します。また、予測分析を活用して、出荷の遅延を早期に把握したいと考えています。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータ センターに存在します。
* データベース
2つのクラスターに8台の物理サーバー
- SQL Server - ユーザーデータ、インベントリ、静的データ
物理サーバー3台
- Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
* アプリケーションサーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア
20台の物理サーバーにまたがる60台の仮想マシン
- Tomcat - Javaサービス
- Nginx - 静的コンテンツ
- バッチサーバー
* ストレージ機器
- 仮想マシン (VM) ホスト用の iSCSI
- ファイバーチャネルストレージエリアネットワーク(FC SAN) - SQLサーバーストレージ
- ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
* 10台のApache Hadoop / Sparkサーバー
- コアデータレイク
- データ分析ワークロード
* その他サーバー20台
- Jenkins、監視、要塞ホスト、
ビジネス要件
* スケールされた生産パンティを備えた信頼性が高く再現可能な環境を構築します。
* 分析のために集中化されたデータレイクにデータを集約する
* 過去のデータを使用して将来の出荷に関する予測分析を実行する
* 独自の技術を使用して、世界中のすべての出荷を正確に追跡します
* 新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上
* クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する
* 他のすべての要件が満たされている場合は、クラウドに完全に移行します
技術要件
* ストリーミングとバッチデータの両方を処理
* 既存のHadoopワークロードを移行する
* 会社の変化する需要を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。
* 可能な限りマネージドサービスを利用する
* 飛行中および保存中のデータを暗号化
* 本番データセンターとクラウド環境をVPNで接続する SEOステートメント 急速な成長を遂げたため、インフラのアップグレードが進まないことが、さらなる成長と効率性の妨げとなっています。世界中への貨物輸送は効率的ですが、データの移動は非効率的です。
顧客がどこにいるのか、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO声明
ITは当社にとってこれまで優先事項ではありませんでした。そのため、データの増加に伴い、テクノロジーへの投資が不十分になっていました。IT管理を担当する優秀なスタッフはいますが、彼らはインフラ管理に忙殺されており、データの整理、分析機能の構築、CFOのトラッキングテクノロジーの導入方法の検討といった、本当に重要な業務に時間を割くことができません。
CFO声明
当社の競争優位性の一つは、出荷や納品の遅延に対して自らペナルティを課すことです。出荷品の現在位置を常に把握することは、当社の収益と利益率に直接的に影響します。加えて、サーバー環境の構築に資本を投入したくありません。
Flowlogistic 社の経営陣は、現在の Apache Kafka サーバーではリアルタイム在庫追跡システムのデータ量を処理できないと判断しました。そのため、Google Cloud Platform (GCP) 上に、自社の追跡ソフトウェアにデータを提供する新しいシステムを構築する必要があります。このシステムは、世界中の様々なソースからデータを取り込み、リアルタイムで処理・クエリを実行し、データを確実に保存できる必要があります。GCP プロダクトのどの組み合わせを選択すべきでしょうか?
Professional-Data-Engineer 試験問題 17
Cloud Storage には、データサイエンスチームがモデルで使用したい様々なファイルがあります。しかし現在、ユーザーには Cloud Storage 内のデータを探索、クレンジング、検証する手段がありません。データサイエンスチームが Cloud Storage 内のデータを迅速にクレンジングおよび探索できる、ローコードソリューションをお探しです。どうすればよいでしょうか?
Professional-Data-Engineer 試験問題 18
BigQueryのデータセットを分析に使用しています。サードパーティ企業にも同じデータセットへのアクセスを提供したいと考えています。データ共有コストを抑え、データの最新性を確保する必要があります。どうすればよいでしょうか?
Professional-Data-Engineer 試験問題 19
BigQuery で非正規化データ構造を使用する 2 つの利点は何ですか?
Professional-Data-Engineer 試験問題 20
Google BigQueryをデータウェアハウスとして使用しています。ユーザーから、次の単純なクエリが、いつ実行しても非常に遅いという報告がありました。
SELECT country, state, city FROM [myproject:mydataset.mytable] GROUP BY country クエリのクエリ プランを確認すると、Stage:1 の Read セクションに次の出力が表示されます。

このクエリの遅延の最も可能性の高い原因は何ですか?
SELECT country, state, city FROM [myproject:mydataset.mytable] GROUP BY country クエリのクエリ プランを確認すると、Stage:1 の Read セクションに次の出力が表示されます。

このクエリの遅延の最も可能性の高い原因は何ですか?
