Professional-Data-Engineer 試験問題 56
フローロジスティックのケーススタディ
会社概要
Flowlogistic は、物流およびサプライ チェーンの大手プロバイダーです。これらは、世界中の企業がリソースを管理し、最終目的地に輸送するのに役立ちます。同社は急速に成長し、そのサービスを鉄道、トラック、航空機、海洋輸送にまで拡大しました。
会社背景
同社は地域のトラック運送会社としてスタートし、その後他の物流市場にも拡大しました。インフラストラクチャを更新していないため、注文と出荷の管理と追跡がボトルネックになっています。業務を改善するために、Flowlogistic は荷物レベルでリアルタイムに出荷を追跡する独自のテクノロジーを開発しました。ただし、Apache Kafka に基づくテクノロジー スタックが処理量をサポートできないため、これをデプロイすることはできません。さらに、Flowlogistic は注文と出荷をさらに分析して、リソースを最適に配置する方法を決定したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して 2 つのコンセプトを実装したいと考えています。
* 独自のテクノロジーをリアルタイム在庫追跡システムに使用し、荷物の位置を示します
* 構造化データと非構造化データの両方を含むすべての注文と出荷ログの分析を実行し、リソースを展開する最適な方法と情報を拡大する市場を決定します。また、予測分析を使用して、出荷がいつ遅れるかを早期に把握したいと考えています。
既存の技術環境
フローロジスティック アーキテクチャは単一のデータ センターに存在します。
* データベース
* 2 つのクラスターに 8 台の物理サーバー
* SQL Server - ユーザー データ、インベントリ、静的データ
* 物理サーバー 3 台
* Cassandra - メタデータ、メッセージの追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
* アプリケーションサーバー - 顧客フロントエンド、注文/カスタム用ミドルウェア
* 20 台の物理サーバーにわたる 60 台の仮想マシン
* Tomcat - Java サービス
* Nginx - 静的コンテンツ
* バッチサーバー
ストレージ アプライアンス
* 仮想マシン (VM) ホスト用の iSCSI
* ファイバー チャネル ストレージ エリア ネットワーク (FC SAN) - SQL サーバー ストレージ
* ネットワーク接続ストレージ (NAS) イメージストレージ、ログ、バックアップ
* 10 台の Apache Hadoop /Spark サーバー
* コアデータレイク
* データ分析ワークロード
* 20 のさまざまなサーバー
* Jenkins、モニタリング、要塞ホスト、
ビジネス要件
* スケールされた生産環境を使用して、信頼性が高く再現可能な環境を構築します。
* 分析のために一元化されたデータレイクにデータを集約します
* 履歴データを使用して、将来の出荷に関する予測分析を実行します
* 独自のテクノロジーを使用して世界中のすべての出荷を正確に追跡します
* 新しいリソースの迅速なプロビジョニングにより、ビジネスの機敏性とイノベーションの速度が向上します。
* クラウドでのパフォーマンスのためにアーキテクチャを分析して最適化する
* 他のすべての要件が満たされている場合は、クラウドに完全に移行します
技術的要件
* ストリーミング データとバッチ データの両方を処理します
* 既存の Hadoop ワークロードを移行する
* 企業の変化する要求に対応できるように、アーキテクチャが拡張性と弾力性を備えていることを確認します。
* 可能な限りマネージド サービスを使用する
* データ フライトと保存時の暗号化
* 本番データセンターとクラウド環境の間に VPN を接続する SEO ステートメント 当社は急速に成長してきたため、インフラストラクチャをアップグレードできないことが、さらなる成長と効率性を実際に妨げています。当社は世界中で荷物を効率的に移動させますが、データを移動させるのは非効率的です。
顧客がどこにいるのか、何を出荷しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO ステートメント
当社にとって IT はこれまで決して優先事項ではなかったので、データが増大する一方でテクノロジーへの投資が十分ではありませんでした。IT を管理する優秀なスタッフがいますが、彼らはインフラストラクチャの管理で忙しいため、データの整理、分析の構築、CFO の実装方法の検討など、本当に重要なことを彼らにやってもらうことができません。追跡技術。
CFO ステートメント
当社の競争上の優位性の 1 つは、出荷と配達の遅延に対してペナルティを課していることです。出荷品がどこにあるかを常に把握することは、当社の収益と収益性と直接的な相関関係があります。さらに、サーバー環境の構築に資金を投入したくありません。
Flowlogistic は、リアルタイム在庫追跡システムを展開しています。すべての追跡デバイスはパッケージ追跡メッセージを送信し、Apache Kafka クラスターではなく単一の Google Cloud Pub/Sub トピックに送信されるようになります。その後、サブスクライバー アプリケーションがリアルタイム レポート用にメッセージを処理し、履歴分析のために Google BigQuery に保存します。パッケージ データを長期にわたって確実に分析できるようにしたいと考えています。
どのアプローチを取るべきですか?
会社概要
Flowlogistic は、物流およびサプライ チェーンの大手プロバイダーです。これらは、世界中の企業がリソースを管理し、最終目的地に輸送するのに役立ちます。同社は急速に成長し、そのサービスを鉄道、トラック、航空機、海洋輸送にまで拡大しました。
会社背景
同社は地域のトラック運送会社としてスタートし、その後他の物流市場にも拡大しました。インフラストラクチャを更新していないため、注文と出荷の管理と追跡がボトルネックになっています。業務を改善するために、Flowlogistic は荷物レベルでリアルタイムに出荷を追跡する独自のテクノロジーを開発しました。ただし、Apache Kafka に基づくテクノロジー スタックが処理量をサポートできないため、これをデプロイすることはできません。さらに、Flowlogistic は注文と出荷をさらに分析して、リソースを最適に配置する方法を決定したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して 2 つのコンセプトを実装したいと考えています。
* 独自のテクノロジーをリアルタイム在庫追跡システムに使用し、荷物の位置を示します
* 構造化データと非構造化データの両方を含むすべての注文と出荷ログの分析を実行し、リソースを展開する最適な方法と情報を拡大する市場を決定します。また、予測分析を使用して、出荷がいつ遅れるかを早期に把握したいと考えています。
既存の技術環境
フローロジスティック アーキテクチャは単一のデータ センターに存在します。
* データベース
* 2 つのクラスターに 8 台の物理サーバー
* SQL Server - ユーザー データ、インベントリ、静的データ
* 物理サーバー 3 台
* Cassandra - メタデータ、メッセージの追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
* アプリケーションサーバー - 顧客フロントエンド、注文/カスタム用ミドルウェア
* 20 台の物理サーバーにわたる 60 台の仮想マシン
* Tomcat - Java サービス
* Nginx - 静的コンテンツ
* バッチサーバー
ストレージ アプライアンス
* 仮想マシン (VM) ホスト用の iSCSI
* ファイバー チャネル ストレージ エリア ネットワーク (FC SAN) - SQL サーバー ストレージ
* ネットワーク接続ストレージ (NAS) イメージストレージ、ログ、バックアップ
* 10 台の Apache Hadoop /Spark サーバー
* コアデータレイク
* データ分析ワークロード
* 20 のさまざまなサーバー
* Jenkins、モニタリング、要塞ホスト、
ビジネス要件
* スケールされた生産環境を使用して、信頼性が高く再現可能な環境を構築します。
* 分析のために一元化されたデータレイクにデータを集約します
* 履歴データを使用して、将来の出荷に関する予測分析を実行します
* 独自のテクノロジーを使用して世界中のすべての出荷を正確に追跡します
* 新しいリソースの迅速なプロビジョニングにより、ビジネスの機敏性とイノベーションの速度が向上します。
* クラウドでのパフォーマンスのためにアーキテクチャを分析して最適化する
* 他のすべての要件が満たされている場合は、クラウドに完全に移行します
技術的要件
* ストリーミング データとバッチ データの両方を処理します
* 既存の Hadoop ワークロードを移行する
* 企業の変化する要求に対応できるように、アーキテクチャが拡張性と弾力性を備えていることを確認します。
* 可能な限りマネージド サービスを使用する
* データ フライトと保存時の暗号化
* 本番データセンターとクラウド環境の間に VPN を接続する SEO ステートメント 当社は急速に成長してきたため、インフラストラクチャをアップグレードできないことが、さらなる成長と効率性を実際に妨げています。当社は世界中で荷物を効率的に移動させますが、データを移動させるのは非効率的です。
顧客がどこにいるのか、何を出荷しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO ステートメント
当社にとって IT はこれまで決して優先事項ではなかったので、データが増大する一方でテクノロジーへの投資が十分ではありませんでした。IT を管理する優秀なスタッフがいますが、彼らはインフラストラクチャの管理で忙しいため、データの整理、分析の構築、CFO の実装方法の検討など、本当に重要なことを彼らにやってもらうことができません。追跡技術。
CFO ステートメント
当社の競争上の優位性の 1 つは、出荷と配達の遅延に対してペナルティを課していることです。出荷品がどこにあるかを常に把握することは、当社の収益と収益性と直接的な相関関係があります。さらに、サーバー環境の構築に資金を投入したくありません。
Flowlogistic は、リアルタイム在庫追跡システムを展開しています。すべての追跡デバイスはパッケージ追跡メッセージを送信し、Apache Kafka クラスターではなく単一の Google Cloud Pub/Sub トピックに送信されるようになります。その後、サブスクライバー アプリケーションがリアルタイム レポート用にメッセージを処理し、履歴分析のために Google BigQuery に保存します。パッケージ データを長期にわたって確実に分析できるようにしたいと考えています。
どのアプローチを取るべきですか?
Professional-Data-Engineer 試験問題 57
組織が GCP の使用を拡大するにつれて、多くのチームが独自のプロジェクトを作成し始めています。
導入のさまざまな段階や対象ユーザーに対応するために、プロジェクトはさらに複数化されます。各プロジェクトには固有のアクセス制御構成が必要です。中央の IT チームはすべてのプロジェクトにアクセスできる必要があります。
さらに、Cloud Storage バケットと BigQuery データセットのデータは、他のプロジェクトで使用するためにアドホックな方法で共有する必要があります。ポリシーの数を最小限に抑えて、アクセス制御管理を簡素化したいと考えています。
どの 2 つのステップを実行する必要がありますか? 答えを 2 つ選択してください。
導入のさまざまな段階や対象ユーザーに対応するために、プロジェクトはさらに複数化されます。各プロジェクトには固有のアクセス制御構成が必要です。中央の IT チームはすべてのプロジェクトにアクセスできる必要があります。
さらに、Cloud Storage バケットと BigQuery データセットのデータは、他のプロジェクトで使用するためにアドホックな方法で共有する必要があります。ポリシーの数を最小限に抑えて、アクセス制御管理を簡素化したいと考えています。
どの 2 つのステップを実行する必要がありますか? 答えを 2 つ選択してください。
Professional-Data-Engineer 試験問題 58
Wide & Deep Learning モデルに関する次の記述のうち、正しいものはどれですか? (選択する
答えは2つです。)
答えは2つです。)
Professional-Data-Engineer 試験問題 59
MJTelco の導入事例
会社概要
MJTelco は、急速に成長している世界中の十分なサービスが提供されていない市場にネットワークを構築することを計画している新興企業です。同社は革新的な光通信ハードウェアに関する特許を取得しています。これらの特許に基づいて、安価なハードウェアを使用して信頼性の高い高速バックボーン リンクを多数作成できます。
会社背景
経験豊富な通信会社幹部によって設立された MJTelco は、もともと宇宙での通信の課題を克服するために開発されたテクノロジーを使用しています。運用の基礎として、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データ インフラストラクチャを作成する必要があります。同社のハードウェアは安価であるため、場所の可用性とコストに対する動的な地域政治の影響を考慮して、ネットワークを過剰に展開することを計画しています。
同社の管理および運用チームは世界中に配置されており、システム内のデータ利用者と提供の間に多対多の関係を構築しています。慎重に検討した結果、パブリック クラウドがニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelco は、自社の研究所で概念実証 (PoC) プロジェクトを成功させています。彼らには 2 つの主要なニーズがあります。
PoC を拡張して強化し、より多くのデータ フローが生成されたときに生成される大幅に多くのデータ フローをサポートします。

インストール数は 50,000 を超えています。
機械学習サイクルを改良して、制御に使用する動的モデルを検証および改善する

トポロジ定義。
MJTelco は、開発/テスト、ステージング、実稼働という 3 つの異なるオペレーティング環境も使用します。
- 実験の実行、新機能の導入、運用顧客へのサービスのニーズを満たすため。
ビジネス要件
最小限のコストで運用環境をスケールアップし、いつでもどこでもリソースをインスタンス化します

予測不可能な分散型通信ユーザー コミュニティでは必要とされます。
独自のデータのセキュリティを確保して、最先端の機械学習と分析を保護します。

分散した研究員が分析用データに確実かつタイムリーにアクセスできるようにする

機械学習モデルの迅速な反復をサポートする隔離された環境を維持します。

顧客に影響を与えます。
技術的要件
テレメトリ データの安全かつ効率的な転送と保存を確保します。

インスタンスを迅速に拡張して、複数のフローで 10,000 ~ 100,000 のデータ プロバイダーをサポートします

各。
約 2 年間保存されているデータを追跡するデータ テーブルに対する分析とプレゼンテーションが可能

100m記録/日
データ パイプラインの問題の認識に重点を置いたモニタリング インフラストラクチャの迅速な反復をサポートします。

テレメトリ フローと本番環境の学習サイクルの両方で。
CEOの声明
当社のビジネス モデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されているため、コスト面でのメリットが得られます。信頼性と容量の約束を満たすために、大規模な分散データ パイプラインを迅速に安定させる必要があります。
CTO ステートメント
当社のパブリック クラウド サービスは、宣伝どおりに動作する必要があります。データを拡張し、安全に保つためのリソースが必要です。データサイエンティストがモデルを注意深く研究し、迅速に適応できる環境も必要です。私たちは自動化に依存してデータを処理しているため、反復中に機能する開発環境とテスト環境も必要です。
CFO ステートメント
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持できません。
また、非常に多くのデータ フィードを監視するための運用チームに人員を配置する余裕はないため、自動化とインフラストラクチャに依存することになります。Google Cloud の機械学習により、定量的研究者はデータ パイプラインの問題ではなく、価値の高い問題に取り組むことができるようになります。
MJTelco では、過去 2 年間のレコードの履歴分析を可能にするスキーマを Google Bigtable に作成するよう求めています。受信する各レコードは 15 分ごとに送信され、デバイスの一意の識別子とデータ レコードが含まれます。最も一般的なクエリは、特定の日の特定のデバイスのすべてのデータに対するものです。どのスキーマを使用する必要がありますか?
会社概要
MJTelco は、急速に成長している世界中の十分なサービスが提供されていない市場にネットワークを構築することを計画している新興企業です。同社は革新的な光通信ハードウェアに関する特許を取得しています。これらの特許に基づいて、安価なハードウェアを使用して信頼性の高い高速バックボーン リンクを多数作成できます。
会社背景
経験豊富な通信会社幹部によって設立された MJTelco は、もともと宇宙での通信の課題を克服するために開発されたテクノロジーを使用しています。運用の基礎として、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データ インフラストラクチャを作成する必要があります。同社のハードウェアは安価であるため、場所の可用性とコストに対する動的な地域政治の影響を考慮して、ネットワークを過剰に展開することを計画しています。
同社の管理および運用チームは世界中に配置されており、システム内のデータ利用者と提供の間に多対多の関係を構築しています。慎重に検討した結果、パブリック クラウドがニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelco は、自社の研究所で概念実証 (PoC) プロジェクトを成功させています。彼らには 2 つの主要なニーズがあります。
PoC を拡張して強化し、より多くのデータ フローが生成されたときに生成される大幅に多くのデータ フローをサポートします。

インストール数は 50,000 を超えています。
機械学習サイクルを改良して、制御に使用する動的モデルを検証および改善する

トポロジ定義。
MJTelco は、開発/テスト、ステージング、実稼働という 3 つの異なるオペレーティング環境も使用します。
- 実験の実行、新機能の導入、運用顧客へのサービスのニーズを満たすため。
ビジネス要件
最小限のコストで運用環境をスケールアップし、いつでもどこでもリソースをインスタンス化します

予測不可能な分散型通信ユーザー コミュニティでは必要とされます。
独自のデータのセキュリティを確保して、最先端の機械学習と分析を保護します。

分散した研究員が分析用データに確実かつタイムリーにアクセスできるようにする

機械学習モデルの迅速な反復をサポートする隔離された環境を維持します。

顧客に影響を与えます。
技術的要件
テレメトリ データの安全かつ効率的な転送と保存を確保します。

インスタンスを迅速に拡張して、複数のフローで 10,000 ~ 100,000 のデータ プロバイダーをサポートします

各。
約 2 年間保存されているデータを追跡するデータ テーブルに対する分析とプレゼンテーションが可能

100m記録/日
データ パイプラインの問題の認識に重点を置いたモニタリング インフラストラクチャの迅速な反復をサポートします。

テレメトリ フローと本番環境の学習サイクルの両方で。
CEOの声明
当社のビジネス モデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されているため、コスト面でのメリットが得られます。信頼性と容量の約束を満たすために、大規模な分散データ パイプラインを迅速に安定させる必要があります。
CTO ステートメント
当社のパブリック クラウド サービスは、宣伝どおりに動作する必要があります。データを拡張し、安全に保つためのリソースが必要です。データサイエンティストがモデルを注意深く研究し、迅速に適応できる環境も必要です。私たちは自動化に依存してデータを処理しているため、反復中に機能する開発環境とテスト環境も必要です。
CFO ステートメント
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持できません。
また、非常に多くのデータ フィードを監視するための運用チームに人員を配置する余裕はないため、自動化とインフラストラクチャに依存することになります。Google Cloud の機械学習により、定量的研究者はデータ パイプラインの問題ではなく、価値の高い問題に取り組むことができるようになります。
MJTelco では、過去 2 年間のレコードの履歴分析を可能にするスキーマを Google Bigtable に作成するよう求めています。受信する各レコードは 15 分ごとに送信され、デバイスの一意の識別子とデータ レコードが含まれます。最も一般的なクエリは、特定の日の特定のデバイスのすべてのデータに対するものです。どのスキーマを使用する必要がありますか?
Professional-Data-Engineer 試験問題 60
あなたは、Google データスタジオ 360 で大規模なチームのための重要なレポートを作成します。このレポートは、データ ソースとして Google BigQuery を使用します。ビジュアライゼーションには 1 時間未満のデータが表示されていないことがわかります。
あなたは何をするべきか?
あなたは何をするべきか?
