Professional-Data-Engineer 試験問題 236
ケーススタディ1 - フローロジスティック
会社概要
Flowlogisticは、物流およびサプライチェーンのリーディングプロバイダーです。世界中の企業のリソース管理と最終目的地への輸送を支援しています。同社は急成長を遂げ、鉄道、トラック、航空機、海上輸送など、サービスを拡大しています。
会社概要
当社は地域のトラック輸送会社としてスタートし、その後他の物流市場へ拡大しました。
インフラの更新が遅れているため、注文と出荷の管理・追跡がボトルネックとなっています。Flowlogisticは業務改善のため、荷物レベルでの出荷をリアルタイムに追跡する独自の技術を開発しました。しかし、Apache Kafkaをベースとした既存の技術スタックでは処理量に対応できないため、導入に至っていません。さらに、Flowlogisticは注文と出荷をさらに分析し、最適なリソース配分方法を検討したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
* 荷物の位置を示すリアルタイム在庫追跡システムに独自の技術を使用する
* 構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析し、最適なリソース配分方法や、どの市場への情報展開を行うべきかを決定します。また、予測分析を活用して、出荷の遅延を早期に把握したいと考えています。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータ センターに存在します。
* データベース
2つのクラスターに8台の物理サーバー
- SQL Server - ユーザーデータ、インベントリ、静的データ
物理サーバー3台
- Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
* アプリケーションサーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア
20台の物理サーバーにまたがる60台の仮想マシン
- Tomcat - Javaサービス
- Nginx - 静的コンテンツ
- バッチサーバー
* ストレージ機器
- 仮想マシン (VM) ホスト用の iSCSI
- ファイバーチャネルストレージエリアネットワーク(FC SAN) - SQLサーバーストレージ
- ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
* 10台のApache Hadoop / Sparkサーバー
- コアデータレイク
- データ分析ワークロード
* その他サーバー20台
- Jenkins、監視、要塞ホスト、
ビジネス要件
* スケールされた生産パンティを備えた信頼性が高く再現可能な環境を構築します。
* 分析のために集中化されたデータレイクにデータを集約する
* 過去のデータを使用して将来の出荷に関する予測分析を実行する
* 独自の技術を使用して、世界中のすべての出荷を正確に追跡します
* 新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上
* クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する
* 他のすべての要件が満たされている場合は、クラウドに完全に移行します
技術要件
* ストリーミングとバッチデータの両方を処理
* 既存のHadoopワークロードを移行する
* 会社の変化する需要を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。
* 可能な限りマネージドサービスを利用する
* 飛行中および保存中のデータを暗号化
* 本番データセンターとクラウド環境をVPNで接続する SEOステートメント 急速な成長を遂げたため、インフラのアップグレードが進まないことが、さらなる成長と効率性の妨げとなっています。世界中への貨物輸送は効率的ですが、データの移動は非効率的です。
顧客がどこにいるのか、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO声明
ITは当社にとってこれまで優先事項ではありませんでした。そのため、データの増加に伴い、テクノロジーへの投資が不十分になっていました。IT管理を担当する優秀なスタッフはいますが、彼らはインフラ管理に忙殺されており、データの整理、分析機能の構築、CFOのトラッキングテクノロジーの導入方法の検討といった、本当に重要な業務に時間を割くことができません。
CFO声明
当社の競争優位性の一つは、出荷や納品の遅延に対して自らペナルティを課すことです。出荷品の現在位置を常に把握することは、当社の収益と利益率に直接的に影響します。加えて、サーバー環境の構築に資本を投入したくありません。
Flowlogistic はリアルタイム在庫追跡システムを展開しています。追跡デバイスはすべて荷物追跡メッセージを送信しますが、これらのメッセージは Apache Kafka クラスタではなく、単一の Google Cloud Pub/Sub トピックに送信されます。その後、サブスクライバーアプリケーションがメッセージを処理し、リアルタイムレポートを作成し、Google BigQuery に保存して履歴分析を行います。荷物データを時系列で分析できるようにしたいと考えています。
どのようなアプローチを取るべきでしょうか?
会社概要
Flowlogisticは、物流およびサプライチェーンのリーディングプロバイダーです。世界中の企業のリソース管理と最終目的地への輸送を支援しています。同社は急成長を遂げ、鉄道、トラック、航空機、海上輸送など、サービスを拡大しています。
会社概要
当社は地域のトラック輸送会社としてスタートし、その後他の物流市場へ拡大しました。
インフラの更新が遅れているため、注文と出荷の管理・追跡がボトルネックとなっています。Flowlogisticは業務改善のため、荷物レベルでの出荷をリアルタイムに追跡する独自の技術を開発しました。しかし、Apache Kafkaをベースとした既存の技術スタックでは処理量に対応できないため、導入に至っていません。さらに、Flowlogisticは注文と出荷をさらに分析し、最適なリソース配分方法を検討したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
* 荷物の位置を示すリアルタイム在庫追跡システムに独自の技術を使用する
* 構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析し、最適なリソース配分方法や、どの市場への情報展開を行うべきかを決定します。また、予測分析を活用して、出荷の遅延を早期に把握したいと考えています。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータ センターに存在します。
* データベース
2つのクラスターに8台の物理サーバー
- SQL Server - ユーザーデータ、インベントリ、静的データ
物理サーバー3台
- Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
* アプリケーションサーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア
20台の物理サーバーにまたがる60台の仮想マシン
- Tomcat - Javaサービス
- Nginx - 静的コンテンツ
- バッチサーバー
* ストレージ機器
- 仮想マシン (VM) ホスト用の iSCSI
- ファイバーチャネルストレージエリアネットワーク(FC SAN) - SQLサーバーストレージ
- ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
* 10台のApache Hadoop / Sparkサーバー
- コアデータレイク
- データ分析ワークロード
* その他サーバー20台
- Jenkins、監視、要塞ホスト、
ビジネス要件
* スケールされた生産パンティを備えた信頼性が高く再現可能な環境を構築します。
* 分析のために集中化されたデータレイクにデータを集約する
* 過去のデータを使用して将来の出荷に関する予測分析を実行する
* 独自の技術を使用して、世界中のすべての出荷を正確に追跡します
* 新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上
* クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する
* 他のすべての要件が満たされている場合は、クラウドに完全に移行します
技術要件
* ストリーミングとバッチデータの両方を処理
* 既存のHadoopワークロードを移行する
* 会社の変化する需要を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。
* 可能な限りマネージドサービスを利用する
* 飛行中および保存中のデータを暗号化
* 本番データセンターとクラウド環境をVPNで接続する SEOステートメント 急速な成長を遂げたため、インフラのアップグレードが進まないことが、さらなる成長と効率性の妨げとなっています。世界中への貨物輸送は効率的ですが、データの移動は非効率的です。
顧客がどこにいるのか、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO声明
ITは当社にとってこれまで優先事項ではありませんでした。そのため、データの増加に伴い、テクノロジーへの投資が不十分になっていました。IT管理を担当する優秀なスタッフはいますが、彼らはインフラ管理に忙殺されており、データの整理、分析機能の構築、CFOのトラッキングテクノロジーの導入方法の検討といった、本当に重要な業務に時間を割くことができません。
CFO声明
当社の競争優位性の一つは、出荷や納品の遅延に対して自らペナルティを課すことです。出荷品の現在位置を常に把握することは、当社の収益と利益率に直接的に影響します。加えて、サーバー環境の構築に資本を投入したくありません。
Flowlogistic はリアルタイム在庫追跡システムを展開しています。追跡デバイスはすべて荷物追跡メッセージを送信しますが、これらのメッセージは Apache Kafka クラスタではなく、単一の Google Cloud Pub/Sub トピックに送信されます。その後、サブスクライバーアプリケーションがメッセージを処理し、リアルタイムレポートを作成し、Google BigQuery に保存して履歴分析を行います。荷物データを時系列で分析できるようにしたいと考えています。
どのようなアプローチを取るべきでしょうか?
Professional-Data-Engineer 試験問題 237
ACID準拠のデータベースを必要とするシステムを設計しています。障害発生時にシステムへの人的介入を最小限に抑える必要があります。どうすればよいでしょうか?
Professional-Data-Engineer 試験問題 238
既存の初期化アクションを使用して、起動時にすべての Cloud Dataproc クラスタに追加の依存関係をデプロイする必要があります。会社のセキュリティポリシーでは、Cloud Dataproc ノードがインターネットにアクセスできないようにする必要があるため、パブリック初期化アクションはリソースを取得できません。どうすればよいでしょうか?
Professional-Data-Engineer 試験問題 239
ビジネスユーザーは、分析に使用する前にデータをクレンジングし、準備する方法を必要としています。ビジネスユーザーは技術にあまり精通しておらず、グラフィカルユーザーインターフェースを使って変換を定義することを好みます。データ変換後、ビジネスユーザーはスプレッドシートで直接分析を実行したいと考えています。あなたは、彼らが使用できるソリューションを推奨する必要があります。どうすればよいでしょうか?
Professional-Data-Engineer 試験問題 240
社内のデータアナリストには、担当プロジェクトで複数の GCP プロダクトを操作できるよう、Cloud IAM オーナーロールが割り当てられています。組織では、すべての BigQuery データアクセスログを 6 か月間保持することを義務付けています。社内の監査担当者のみがすべてのプロジェクトのデータアクセスログにアクセスできるようにする必要があります。どうすればよいでしょうか?
