Professional-Data-Engineer 試験問題 56
Apache Kafka を中心に構築された IoT パイプラインを運用しており、通常は 1 秒あたり約 5,000 件のメッセージを受信します。1 時間の移動平均が 1 秒あたり 4,000 件のメッセージを下回るとすぐに、Google Cloud Platform を使用してアラートを作成したいと考えています。どうすればよいでしょうか。
Professional-Data-Engineer 試験問題 57
どの Google Cloud Platform サービスが Hadoop with Hive の代替になりますか?
Professional-Data-Engineer 試験問題 58
BigQuery テーブル内の特定のパーティションをクエリするにはどうすればよいでしょうか?
Professional-Data-Engineer 試験問題 59
フローロジスティックのケーススタディ
会社概要
Flowlogistic は、大手の物流およびサプライ チェーン プロバイダーです。同社は、世界中の企業がリソースを管理し、最終目的地まで輸送するのを支援しています。同社は急速に成長し、鉄道、トラック、航空機、海上輸送を含むサービスを拡大しています。
会社概要
当社は地域のトラック運送会社としてスタートし、その後他の物流市場へ事業を拡大しました。
インフラストラクチャを更新していないため、注文と出荷の管理と追跡がボトルネックになっています。業務を改善するために、Flowlogistic は荷物レベルで出荷をリアルタイムで追跡する独自のテクノロジーを開発しました。しかし、Apache Kafka に基づくテクノロジー スタックでは処理量に対応できないため、これを導入できません。さらに、Flowlogistic は注文と出荷をさらに分析して、リソースを最適に導入する方法を決定したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
リアルタイム在庫追跡システムで独自の技術を使用し、在庫の位置を表示します。

彼らの荷物
構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析する

データを収集し、リソースを最も効果的に配備する方法や、どの市場に情報を拡大するかを決定します。また、予測分析を使用して、出荷が遅れる時期を早めに把握したいと考えています。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータ センターに存在します。
データベース

2 つのクラスターに 8 台の物理サーバー
- SQL Server - ユーザーデータ、インベントリ、静的データ
物理サーバー 3 台
- Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
アプリケーション サーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア

20台の物理サーバーにまたがる60台の仮想マシン
- Tomcat - Java サービス
- Nginx - 静的コンテンツ
- バッチサーバー
ストレージ機器

- 仮想マシン (VM) ホスト用の iSCSI
- ファイバーチャネルストレージエリアネットワーク (FC SAN) - SQL サーバーストレージ
- ネットワーク接続ストレージ (NAS) イメージストレージ、ログ、バックアップ
10 台の Apache Hadoop /Spark サーバー

- コアデータレイク
- データ分析ワークロード
その他サーバー 20 台

- Jenkins、監視、要塞ホスト、
ビジネス要件
スケールされた生産範囲で信頼性が高く再現可能な環境を構築します。

分析のために集中化されたデータレイクにデータを集約する

過去のデータを使用して将来の出荷に関する予測分析を実行する

独自の技術を使用して世界中のすべての出荷を正確に追跡します

新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上

クラウドでのパフォーマンスのためにアーキテクチャを分析して最適化する

他のすべての要件が満たされている場合は、クラウドに完全に移行します。

技術要件
ストリーミングとバッチデータの両方を処理

既存のHadoopワークロードを移行する

企業の変化する要求を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。

可能な限りマネージドサービスを利用する

飛行中および保存中のデータを暗号化

実稼働データセンターとクラウド環境の間にVPNを接続する

SEOステートメント
当社は急速に成長したため、インフラストラクチャをアップグレードできないことが、さらなる成長と効率の妨げになっています。当社は、世界中への貨物の移動は効率的ですが、データの移動は非効率的です。
顧客がどこにいて、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO 声明
IT は当社にとって優先事項ではありませんでした。そのため、データが増えてもテクノロジーに十分な投資ができませんでした。IT を管理する優秀なスタッフがいますが、彼らはインフラストラクチャの管理に忙しく、データの整理、分析の構築、CFO の追跡テクノロジーの実装方法の検討など、本当に重要な作業を行うことができません。
CFOの声明
当社の競争上の優位性の一部は、出荷や配達の遅れに対して自らにペナルティを課すことです。出荷品がどこにあるかを常に把握することは、当社の最終利益と収益性に直接関係しています。
さらに、サーバー環境の構築に資本を投入したくありません。
Flowlogistic は、リアルタイムの在庫追跡システムを展開しています。追跡デバイスはすべて荷物追跡メッセージを送信しますが、そのメッセージは Apache Kafka クラスタではなく、単一の Google Cloud Pub/Sub トピックに送信されます。その後、サブスクライバー アプリケーションがメッセージを処理してリアルタイム レポートを作成し、履歴分析のために Google BigQuery に保存します。荷物データを時間の経過とともに分析できるようにする必要があります。
どのようなアプローチを取るべきでしょうか?
会社概要
Flowlogistic は、大手の物流およびサプライ チェーン プロバイダーです。同社は、世界中の企業がリソースを管理し、最終目的地まで輸送するのを支援しています。同社は急速に成長し、鉄道、トラック、航空機、海上輸送を含むサービスを拡大しています。
会社概要
当社は地域のトラック運送会社としてスタートし、その後他の物流市場へ事業を拡大しました。
インフラストラクチャを更新していないため、注文と出荷の管理と追跡がボトルネックになっています。業務を改善するために、Flowlogistic は荷物レベルで出荷をリアルタイムで追跡する独自のテクノロジーを開発しました。しかし、Apache Kafka に基づくテクノロジー スタックでは処理量に対応できないため、これを導入できません。さらに、Flowlogistic は注文と出荷をさらに分析して、リソースを最適に導入する方法を決定したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
リアルタイム在庫追跡システムで独自の技術を使用し、在庫の位置を表示します。

彼らの荷物
構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析する

データを収集し、リソースを最も効果的に配備する方法や、どの市場に情報を拡大するかを決定します。また、予測分析を使用して、出荷が遅れる時期を早めに把握したいと考えています。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータ センターに存在します。
データベース

2 つのクラスターに 8 台の物理サーバー
- SQL Server - ユーザーデータ、インベントリ、静的データ
物理サーバー 3 台
- Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
アプリケーション サーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア

20台の物理サーバーにまたがる60台の仮想マシン
- Tomcat - Java サービス
- Nginx - 静的コンテンツ
- バッチサーバー
ストレージ機器

- 仮想マシン (VM) ホスト用の iSCSI
- ファイバーチャネルストレージエリアネットワーク (FC SAN) - SQL サーバーストレージ
- ネットワーク接続ストレージ (NAS) イメージストレージ、ログ、バックアップ
10 台の Apache Hadoop /Spark サーバー

- コアデータレイク
- データ分析ワークロード
その他サーバー 20 台

- Jenkins、監視、要塞ホスト、
ビジネス要件
スケールされた生産範囲で信頼性が高く再現可能な環境を構築します。

分析のために集中化されたデータレイクにデータを集約する

過去のデータを使用して将来の出荷に関する予測分析を実行する

独自の技術を使用して世界中のすべての出荷を正確に追跡します

新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上

クラウドでのパフォーマンスのためにアーキテクチャを分析して最適化する

他のすべての要件が満たされている場合は、クラウドに完全に移行します。

技術要件
ストリーミングとバッチデータの両方を処理

既存のHadoopワークロードを移行する

企業の変化する要求を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。

可能な限りマネージドサービスを利用する

飛行中および保存中のデータを暗号化

実稼働データセンターとクラウド環境の間にVPNを接続する

SEOステートメント
当社は急速に成長したため、インフラストラクチャをアップグレードできないことが、さらなる成長と効率の妨げになっています。当社は、世界中への貨物の移動は効率的ですが、データの移動は非効率的です。
顧客がどこにいて、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO 声明
IT は当社にとって優先事項ではありませんでした。そのため、データが増えてもテクノロジーに十分な投資ができませんでした。IT を管理する優秀なスタッフがいますが、彼らはインフラストラクチャの管理に忙しく、データの整理、分析の構築、CFO の追跡テクノロジーの実装方法の検討など、本当に重要な作業を行うことができません。
CFOの声明
当社の競争上の優位性の一部は、出荷や配達の遅れに対して自らにペナルティを課すことです。出荷品がどこにあるかを常に把握することは、当社の最終利益と収益性に直接関係しています。
さらに、サーバー環境の構築に資本を投入したくありません。
Flowlogistic は、リアルタイムの在庫追跡システムを展開しています。追跡デバイスはすべて荷物追跡メッセージを送信しますが、そのメッセージは Apache Kafka クラスタではなく、単一の Google Cloud Pub/Sub トピックに送信されます。その後、サブスクライバー アプリケーションがメッセージを処理してリアルタイム レポートを作成し、履歴分析のために Google BigQuery に保存します。荷物データを時間の経過とともに分析できるようにする必要があります。
どのようなアプローチを取るべきでしょうか?
Professional-Data-Engineer 試験問題 60
あるオンライン小売業者は、現在のアプリケーションを Google App Engine 上に構築しました。同社の新しい取り組みでは、顧客がアプリケーションを介して直接取引できるようにアプリケーションを拡張することが義務付けられています。
ショッピング取引を管理し、ビジネス インテリジェンス (BI) ツールを使用して複数のデータセットから結合されたデータを分析する必要があります。この目的のために、単一のデータベースのみを使用したいと考えています。どの Google Cloud データベースを選択すればよいでしょうか。
ショッピング取引を管理し、ビジネス インテリジェンス (BI) ツールを使用して複数のデータセットから結合されたデータを分析する必要があります。この目的のために、単一のデータベースのみを使用したいと考えています。どの Google Cloud データベースを選択すればよいでしょうか。
