Professional-Data-Engineer 試験問題 291
アプリケーション イベントを Pub/Sub トピックに公開するパイプラインを設計しています。結果を BigQuery にロードして分析する前に、1 時間間隔でイベントを集計する必要があります。ソリューションは、大量のイベントを処理して BigQuery にロードできるようにスケーラブルである必要があります。どうすればよいでしょうか。
Professional-Data-Engineer 試験問題 292
ケーススタディ 2 - MJTelco
会社概要
MJTelco は、世界中で急速に成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。
同社は革新的な光通信ハードウェアの特許を保有しており、これらの特許に基づいて、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築できます。
会社概要
経験豊富な通信会社の幹部によって設立された MJTelco は、宇宙での通信の課題を克服するために開発されたテクノロジーを使用しています。同社の業務の基盤となるのは、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データ インフラストラクチャを作成することです。ハードウェアは安価であるため、同社はネットワークを過剰に展開して、地域政治の変動が場所の可用性とコストに与える影響を考慮に入れることを計画しています。
同社の管理および運用チームは世界中に配置されており、システム内のデータ コンシューマーとデータ提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリック クラウドがニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelco は、自社のラボで概念実証 (PoC) プロジェクトを成功させています。同社には主に 2 つのニーズがあります。
* インストール数が 50,000 を超える場合に生成されるデータ フローを大幅に増やせるように、PoC を拡張および強化します。
* 機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
MJTelco は、実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすために、開発/テスト、ステージング、実稼働の 3 つの個別の運用環境も使用します。
ビジネス要件
* 予測不可能な分散型通信ユーザー コミュニティで必要なときに必要な場所でリソースをインスタンス化し、最小限のコストで実稼働環境を拡張します。
* 最先端の機械学習と分析を保護するために、独自のデータのセキュリティを確保します。
* 分散した研究員が分析するためのデータに信頼性とタイムリーなアクセスを提供する
* 顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
* テレメトリデータの安全かつ効率的な転送と保存を確保する
* インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。
* 約2年分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。
1日あたり1億件のレコード
* テレメトリ フローと実稼働学習サイクルの両方でのデータ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEOの声明
当社のビジネス モデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されており、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データ パイプラインを迅速に安定化する必要があります。
CTO 声明
当社のパブリック クラウド サービスは、宣伝どおりに機能する必要があります。拡張可能で、データを安全に保つリソースが必要です。また、データ サイエンティストがモデルを慎重に研究し、迅速に適応できる環境も必要です。当社はデータの処理を自動化に依存しているため、反復しながら機能する開発環境とテスト環境も必要です。
CFOの声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。
また、膨大なデータ フィードを監視するために運用チームを配置する余裕はないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、当社の定量研究者はデータ パイプラインの問題ではなく、価値の高い問題に取り組むことができます。
次の要件を満たす運用チーム向けの視覚化を作成する必要があります。
* テレメトリには、過去 6 週間の 50,000 のインストールすべてからのデータが含まれている必要があります (1 分ごとにサンプリング)
* レポートはライブデータから 3 時間以上遅延してはなりません。
* 実用的なレポートには、最適ではないリンクのみが表示されます。
* 最適ではないリンクのほとんどは、一番上に並べる必要があります。
* 最適ではないリンクは、地域別にグループ化してフィルタリングできます。
* レポートを読み込むためのユーザー応答時間は 5 秒未満である必要があります。
過去 6 週間のデータを保存するデータ ソースを作成し、複数の日付範囲、異なる地理的地域、固有のインストール タイプを閲覧者が確認できる視覚化を作成します。視覚化に変更を加えることなく、常に最新のデータを表示します。毎月新しい視覚化を作成して更新することは避けたいと考えています。どうすればよいでしょうか。
会社概要
MJTelco は、世界中で急速に成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。
同社は革新的な光通信ハードウェアの特許を保有しており、これらの特許に基づいて、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築できます。
会社概要
経験豊富な通信会社の幹部によって設立された MJTelco は、宇宙での通信の課題を克服するために開発されたテクノロジーを使用しています。同社の業務の基盤となるのは、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データ インフラストラクチャを作成することです。ハードウェアは安価であるため、同社はネットワークを過剰に展開して、地域政治の変動が場所の可用性とコストに与える影響を考慮に入れることを計画しています。
同社の管理および運用チームは世界中に配置されており、システム内のデータ コンシューマーとデータ提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリック クラウドがニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelco は、自社のラボで概念実証 (PoC) プロジェクトを成功させています。同社には主に 2 つのニーズがあります。
* インストール数が 50,000 を超える場合に生成されるデータ フローを大幅に増やせるように、PoC を拡張および強化します。
* 機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
MJTelco は、実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすために、開発/テスト、ステージング、実稼働の 3 つの個別の運用環境も使用します。
ビジネス要件
* 予測不可能な分散型通信ユーザー コミュニティで必要なときに必要な場所でリソースをインスタンス化し、最小限のコストで実稼働環境を拡張します。
* 最先端の機械学習と分析を保護するために、独自のデータのセキュリティを確保します。
* 分散した研究員が分析するためのデータに信頼性とタイムリーなアクセスを提供する
* 顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
* テレメトリデータの安全かつ効率的な転送と保存を確保する
* インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。
* 約2年分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。
1日あたり1億件のレコード
* テレメトリ フローと実稼働学習サイクルの両方でのデータ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEOの声明
当社のビジネス モデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されており、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データ パイプラインを迅速に安定化する必要があります。
CTO 声明
当社のパブリック クラウド サービスは、宣伝どおりに機能する必要があります。拡張可能で、データを安全に保つリソースが必要です。また、データ サイエンティストがモデルを慎重に研究し、迅速に適応できる環境も必要です。当社はデータの処理を自動化に依存しているため、反復しながら機能する開発環境とテスト環境も必要です。
CFOの声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。
また、膨大なデータ フィードを監視するために運用チームを配置する余裕はないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、当社の定量研究者はデータ パイプラインの問題ではなく、価値の高い問題に取り組むことができます。
次の要件を満たす運用チーム向けの視覚化を作成する必要があります。
* テレメトリには、過去 6 週間の 50,000 のインストールすべてからのデータが含まれている必要があります (1 分ごとにサンプリング)
* レポートはライブデータから 3 時間以上遅延してはなりません。
* 実用的なレポートには、最適ではないリンクのみが表示されます。
* 最適ではないリンクのほとんどは、一番上に並べる必要があります。
* 最適ではないリンクは、地域別にグループ化してフィルタリングできます。
* レポートを読み込むためのユーザー応答時間は 5 秒未満である必要があります。
過去 6 週間のデータを保存するデータ ソースを作成し、複数の日付範囲、異なる地理的地域、固有のインストール タイプを閲覧者が確認できる視覚化を作成します。視覚化に変更を加えることなく、常に最新のデータを表示します。毎月新しい視覚化を作成して更新することは避けたいと考えています。どうすればよいでしょうか。
Professional-Data-Engineer 試験問題 293
You are working on a sensitive project involving private user data. You have set up a project on Google
Cloud Platform to house your work internally. An external consultant is going to assist with coding a
complex transformation in a Google Cloud Dataflow pipeline for your project. How should you maintain
users' privacy?
Cloud Platform to house your work internally. An external consultant is going to assist with coding a
complex transformation in a Google Cloud Dataflow pipeline for your project. How should you maintain
users' privacy?
Professional-Data-Engineer 試験問題 294
あなたの会社は最近急速に成長し、以前よりも大幅に速いペースでデータを取り込んでいます。
以前は、Apache Hadoopで毎日のバッチMapReduce分析ジョブを管理していました。しかし、
最近のデータの増加により、バッチジョブが遅れています。
開発チームはコストを増やすことなく分析の応答性を高めることができます。
そうすることをお勧めしますか?
以前は、Apache Hadoopで毎日のバッチMapReduce分析ジョブを管理していました。しかし、
最近のデータの増加により、バッチジョブが遅れています。
開発チームはコストを増やすことなく分析の応答性を高めることができます。
そうすることをお勧めしますか?
Professional-Data-Engineer 試験問題 295
MJTelco Case Study
Company Overview
MJTelco is a startup that plans to build networks in rapidly growing, underserved markets around the world.
The company has patents for innovative optical communications hardware. Based on these patents, they can create many reliable, high-speed backbone links with inexpensive hardware.
Company Background
Founded by experienced telecom executives, MJTelco uses technologies originally developed to overcome communications challenges in space. Fundamental to their operation, they need to create a distributed data infrastructure that drives real-time analysis and incorporates machine learning to continuously optimize their topologies. Because their hardware is inexpensive, they plan to overdeploy the network allowing them to account for the impact of dynamic regional politics on location availability and cost.
Their management and operations teams are situated all around the globe creating many-to-many relationship between data consumers and provides in their system. After careful consideration, they decided public cloud is the perfect environment to support their needs.
Solution Concept
MJTelco is running a successful proof-of-concept (PoC) project in its labs. They have two primary needs:
* Scale and harden their PoC to support significantly more data flows generated when they ramp to more than 50,000 installations.
* Refine their machine-learning cycles to verify and improve the dynamic models they use to control topology definition.
MJTelco will also use three separate operating environments - development/test, staging, and production - to meet the needs of running experiments, deploying new features, and serving production customers.
Business Requirements
* Scale up their production environment with minimal cost, instantiating resources when and where needed in an unpredictable, distributed telecom user community.
* Ensure security of their proprietary data to protect their leading-edge machine learning and analysis.
* Provide reliable and timely access to data for analysis from distributed research workers
* Maintain isolated environments that support rapid iteration of their machine-learning models without affecting their customers.
技術要件
テレメトリデータの安全かつ効率的な転送と保存を確保する
インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。
1 日あたり約 1 億件のレコードを保存し、最大 2 年間のデータを追跡するデータ テーブルに対する分析とプレゼンテーションを可能にします。テレメトリ フローと実稼働学習サイクルの両方でのデータ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEOの声明
当社のビジネス モデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されており、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データ パイプラインを迅速に安定化する必要があります。
CTO 声明
パブリック クラウド サービスは宣伝どおりに動作する必要があります。拡張可能で、データを安全に保つリソースが必要です。
また、データ サイエンティストがモデルを慎重に研究し、迅速に適応できる環境も必要です。
データ処理には自動化が不可欠であるため、反復作業中に開発環境とテスト環境も機能させる必要があります。
CFOの声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。また、多数のデータ フィードを監視する運用チームを配置する余裕もないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、定量的研究者はデータ パイプラインの問題ではなく、価値の高い問題に取り組むことができます。
Google Data Studio 360 で、大規模なチーム向けの新しいレポートを作成します。レポートでは、データ ソースとして Google BigQuery を使用します。会社のポリシーでは、従業員が自分の地域に関連付けられたデータのみを表示できるようにする必要があるため、地域ごとにテーブルを作成して入力します。データに対する地域アクセス ポリシーを適用する必要があります。
取るべき行動はどれですか? (2 つ選択してください。)
Company Overview
MJTelco is a startup that plans to build networks in rapidly growing, underserved markets around the world.
The company has patents for innovative optical communications hardware. Based on these patents, they can create many reliable, high-speed backbone links with inexpensive hardware.
Company Background
Founded by experienced telecom executives, MJTelco uses technologies originally developed to overcome communications challenges in space. Fundamental to their operation, they need to create a distributed data infrastructure that drives real-time analysis and incorporates machine learning to continuously optimize their topologies. Because their hardware is inexpensive, they plan to overdeploy the network allowing them to account for the impact of dynamic regional politics on location availability and cost.
Their management and operations teams are situated all around the globe creating many-to-many relationship between data consumers and provides in their system. After careful consideration, they decided public cloud is the perfect environment to support their needs.
Solution Concept
MJTelco is running a successful proof-of-concept (PoC) project in its labs. They have two primary needs:
* Scale and harden their PoC to support significantly more data flows generated when they ramp to more than 50,000 installations.
* Refine their machine-learning cycles to verify and improve the dynamic models they use to control topology definition.
MJTelco will also use three separate operating environments - development/test, staging, and production - to meet the needs of running experiments, deploying new features, and serving production customers.
Business Requirements
* Scale up their production environment with minimal cost, instantiating resources when and where needed in an unpredictable, distributed telecom user community.
* Ensure security of their proprietary data to protect their leading-edge machine learning and analysis.
* Provide reliable and timely access to data for analysis from distributed research workers
* Maintain isolated environments that support rapid iteration of their machine-learning models without affecting their customers.
技術要件
テレメトリデータの安全かつ効率的な転送と保存を確保する
インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。
1 日あたり約 1 億件のレコードを保存し、最大 2 年間のデータを追跡するデータ テーブルに対する分析とプレゼンテーションを可能にします。テレメトリ フローと実稼働学習サイクルの両方でのデータ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEOの声明
当社のビジネス モデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されており、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データ パイプラインを迅速に安定化する必要があります。
CTO 声明
パブリック クラウド サービスは宣伝どおりに動作する必要があります。拡張可能で、データを安全に保つリソースが必要です。
また、データ サイエンティストがモデルを慎重に研究し、迅速に適応できる環境も必要です。
データ処理には自動化が不可欠であるため、反復作業中に開発環境とテスト環境も機能させる必要があります。
CFOの声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。また、多数のデータ フィードを監視する運用チームを配置する余裕もないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、定量的研究者はデータ パイプラインの問題ではなく、価値の高い問題に取り組むことができます。
Google Data Studio 360 で、大規模なチーム向けの新しいレポートを作成します。レポートでは、データ ソースとして Google BigQuery を使用します。会社のポリシーでは、従業員が自分の地域に関連付けられたデータのみを表示できるようにする必要があるため、地域ごとにテーブルを作成して入力します。データに対する地域アクセス ポリシーを適用する必要があります。
取るべき行動はどれですか? (2 つ選択してください。)

