Professional-Data-Engineer 試験問題 176
フローロジスティックのケーススタディ
会社概要
Flowlogisticは、物流とサプライチェーンの大手プロバイダーです。世界中の企業を支援しています。
資源を管理し、最終目的地まで輸送する。同社は急速に成長し、
鉄道、トラック、航空機、海洋輸送を含むサービスの提供を拡大しています。
会社概要
当社は地域のトラック運送会社としてスタートし、その後他の物流市場へ事業を拡大しました。
インフラを更新していないため、注文や出荷の管理と追跡が
ボトルネックとなる。業務を改善するために、Flowlogisticは追跡のための独自の技術を開発しました。
荷物レベルでリアルタイムに配送を監視できる。しかし、技術が不十分なため、導入できない。
Apache Kafkaをベースにしたスタックでは、処理量をサポートできません。さらに、Flowlogisticは
注文と出荷をさらに分析して、リソースを最適に配備する方法を決定します。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
リアルタイム在庫追跡システムで独自の技術を使用し、在庫の位置を表示します。

彼らの荷物
構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析する

データを分析して、リソースを最も効果的に配置する方法、どの市場に情報を拡大するかを決定します。また、
出荷が遅れる時期を早期に把握するための予測分析。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータ センターに存在します。
データベース

2 つのクラスターに 8 台の物理サーバー
- SQL Server - ユーザーデータ、インベントリ、静的データ
物理サーバー 3 台
- Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
アプリケーション サーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア

20台の物理サーバーにまたがる60台の仮想マシン
- Tomcat - Java サービス
- Nginx - 静的コンテンツ
- バッチサーバー
ストレージ機器

- 仮想マシン (VM) ホスト用の iSCSI
- ファイバーチャネルストレージエリアネットワーク (FC SAN) - SQL サーバーストレージ
- ネットワーク接続ストレージ (NAS) イメージストレージ、ログ、バックアップ
10 台の Apache Hadoop /Spark サーバー

- コアデータレイク
- データ分析ワークロード
その他サーバー 20 台

- Jenkins、監視、要塞ホスト、
ビジネス要件
スケールされた生産範囲で信頼性が高く再現可能な環境を構築します。

分析のために集中化されたデータレイクにデータを集約する

過去のデータを使用して将来の出荷に関する予測分析を実行する

独自の技術を使用して世界中のすべての出荷を正確に追跡します

新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上

クラウドでのパフォーマンスのためにアーキテクチャを分析して最適化する

他のすべての要件が満たされている場合は、クラウドに完全に移行します。

技術要件
ストリーミングとバッチデータの両方を処理

既存のHadoopワークロードを移行する

企業の変化する要求を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。

可能な限りマネージドサービスを利用する

飛行中および保存中のデータを暗号化

実稼働データセンターとクラウド環境の間にVPNを接続する

SEOステートメント
当社は急速に成長したため、インフラをアップグレードできないことがさらなる成長の妨げになっています。
効率性。私たちは世界中に貨物を輸送するのには効率的ですが、
周りのデータ。
顧客がどこにいるのかをより簡単に理解できるように情報を整理する必要があります。
彼らが出荷しているもの。
CTO 声明
ITは私たちにとって優先事項ではありませんでした。そのため、データが増えても、ITに十分な投資ができませんでした。
テクノロジーです。ITを管理する優秀なスタッフがいますが、彼らはインフラの管理に忙しく、
データの整理、分析の構築、そして
CFO の追跡テクノロジーをどのように実装するかを検討します。
CFOの声明
当社の競争上の優位性の一部は、出荷や配送の遅れに対して自ら罰則を課すことです。
出荷物が常にどこにあるかは、当社の最終利益と収益性に直接関係しています。
さらに、サーバー環境の構築に資本を投入したくありません。
FlowlogisticのCEOは、顧客ベースを迅速に把握して営業チームの生産性を向上させたいと考えている。
このチームは技術に詳しくないので、視覚化ツールを購入して簡素化しました。
BigQueryレポートの作成。しかし、テーブル内のデータ量が多すぎて、
必要なデータを見つけるために多くの費用を費やしています。
最も費用対効果の高い方法。どうすればいいでしょうか?
会社概要
Flowlogisticは、物流とサプライチェーンの大手プロバイダーです。世界中の企業を支援しています。
資源を管理し、最終目的地まで輸送する。同社は急速に成長し、
鉄道、トラック、航空機、海洋輸送を含むサービスの提供を拡大しています。
会社概要
当社は地域のトラック運送会社としてスタートし、その後他の物流市場へ事業を拡大しました。
インフラを更新していないため、注文や出荷の管理と追跡が
ボトルネックとなる。業務を改善するために、Flowlogisticは追跡のための独自の技術を開発しました。
荷物レベルでリアルタイムに配送を監視できる。しかし、技術が不十分なため、導入できない。
Apache Kafkaをベースにしたスタックでは、処理量をサポートできません。さらに、Flowlogisticは
注文と出荷をさらに分析して、リソースを最適に配備する方法を決定します。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
リアルタイム在庫追跡システムで独自の技術を使用し、在庫の位置を表示します。

彼らの荷物
構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析する

データを分析して、リソースを最も効果的に配置する方法、どの市場に情報を拡大するかを決定します。また、
出荷が遅れる時期を早期に把握するための予測分析。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータ センターに存在します。
データベース

2 つのクラスターに 8 台の物理サーバー
- SQL Server - ユーザーデータ、インベントリ、静的データ
物理サーバー 3 台
- Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
アプリケーション サーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア

20台の物理サーバーにまたがる60台の仮想マシン
- Tomcat - Java サービス
- Nginx - 静的コンテンツ
- バッチサーバー
ストレージ機器

- 仮想マシン (VM) ホスト用の iSCSI
- ファイバーチャネルストレージエリアネットワーク (FC SAN) - SQL サーバーストレージ
- ネットワーク接続ストレージ (NAS) イメージストレージ、ログ、バックアップ
10 台の Apache Hadoop /Spark サーバー

- コアデータレイク
- データ分析ワークロード
その他サーバー 20 台

- Jenkins、監視、要塞ホスト、
ビジネス要件
スケールされた生産範囲で信頼性が高く再現可能な環境を構築します。

分析のために集中化されたデータレイクにデータを集約する

過去のデータを使用して将来の出荷に関する予測分析を実行する

独自の技術を使用して世界中のすべての出荷を正確に追跡します

新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上

クラウドでのパフォーマンスのためにアーキテクチャを分析して最適化する

他のすべての要件が満たされている場合は、クラウドに完全に移行します。

技術要件
ストリーミングとバッチデータの両方を処理

既存のHadoopワークロードを移行する

企業の変化する要求を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。

可能な限りマネージドサービスを利用する

飛行中および保存中のデータを暗号化

実稼働データセンターとクラウド環境の間にVPNを接続する

SEOステートメント
当社は急速に成長したため、インフラをアップグレードできないことがさらなる成長の妨げになっています。
効率性。私たちは世界中に貨物を輸送するのには効率的ですが、
周りのデータ。
顧客がどこにいるのかをより簡単に理解できるように情報を整理する必要があります。
彼らが出荷しているもの。
CTO 声明
ITは私たちにとって優先事項ではありませんでした。そのため、データが増えても、ITに十分な投資ができませんでした。
テクノロジーです。ITを管理する優秀なスタッフがいますが、彼らはインフラの管理に忙しく、
データの整理、分析の構築、そして
CFO の追跡テクノロジーをどのように実装するかを検討します。
CFOの声明
当社の競争上の優位性の一部は、出荷や配送の遅れに対して自ら罰則を課すことです。
出荷物が常にどこにあるかは、当社の最終利益と収益性に直接関係しています。
さらに、サーバー環境の構築に資本を投入したくありません。
FlowlogisticのCEOは、顧客ベースを迅速に把握して営業チームの生産性を向上させたいと考えている。
このチームは技術に詳しくないので、視覚化ツールを購入して簡素化しました。
BigQueryレポートの作成。しかし、テーブル内のデータ量が多すぎて、
必要なデータを見つけるために多くの費用を費やしています。
最も費用対効果の高い方法。どうすればいいでしょうか?
Professional-Data-Engineer 試験問題 177
You work for an economic consulting firm that helps companies identify economic trends as they happen. As part of your analysis, you use Google BigQuery to correlate customer data with the average prices of the 100 most common goods sold, including bread, gasoline, milk, and others. The average prices of these goods are updated every 30 minutes. You want to make sure this data stays up to date so you can combine it with other data in BigQuery as cheaply as possible. What should you do?
Professional-Data-Engineer 試験問題 178
あなたの会社では、Google Cloud Storage と Google Compute Engine 上の Cassandra クラスタに保存されている非常に大規模なデータセットに対して複雑な分析を実行したいと考えている新しいデータ サイエンティストを採用しました。
科学者は主に、機械学習プロジェクト用のラベル付きデータセットと、いくつかの視覚化タスクを作成したいと考えています。彼女によると、自分のラップトップはタスクを実行するのに十分な性能がなく、処理が遅くなっているとのことです。あなたは彼女のタスク実行を手伝いたいと思っています。どうすればよいですか?
科学者は主に、機械学習プロジェクト用のラベル付きデータセットと、いくつかの視覚化タスクを作成したいと考えています。彼女によると、自分のラップトップはタスクを実行するのに十分な性能がなく、処理が遅くなっているとのことです。あなたは彼女のタスク実行を手伝いたいと思っています。どうすればよいですか?
Professional-Data-Engineer 試験問題 179
パイプライン ジョブを実行するには、Compute Engine アカウントで次の IAM ロールのうちどれが必要ですか。
Professional-Data-Engineer 試験問題 180
Dataproc クラスタにプリエンプティブ ワーカーを追加するときに適用されるルールはどれですか (回答を 2 つ選択してください)。
