Professional-Data-Engineer 試験問題 171
あなたの会社では、Google Cloud Dataflow の学習アルゴリズムのデータ前処理を実行しています。
このステップでは多数のデータ ログが生成されるため、チームはそれを分析したいと考えています。キャンペーンの動的な性質により、データは 1 時間ごとに指数関数的に増加しています。
データ サイエンティストは、ログ内の新しい主要な特徴のデータを読み取るために次のコードを作成しました。
BigQueryIO.読み取り
.named("ログデータの読み取り")
.from("clouddataflow-readonly:samples.log_data")
このデータ読み取りのパフォーマンスを改善したいのですが、どうすればよいでしょうか?
このステップでは多数のデータ ログが生成されるため、チームはそれを分析したいと考えています。キャンペーンの動的な性質により、データは 1 時間ごとに指数関数的に増加しています。
データ サイエンティストは、ログ内の新しい主要な特徴のデータを読み取るために次のコードを作成しました。
BigQueryIO.読み取り
.named("ログデータの読み取り")
.from("clouddataflow-readonly:samples.log_data")
このデータ読み取りのパフォーマンスを改善したいのですが、どうすればよいでしょうか?
Professional-Data-Engineer 試験問題 172
ケーススタディ 2 - MJTelco
会社概要
MJTelco は、世界中で急速に成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。
同社は革新的な光通信ハードウェアの特許を保有しており、これらの特許に基づいて、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築できます。
会社概要
経験豊富な通信会社の幹部によって設立された MJTelco は、宇宙での通信の課題を克服するために開発されたテクノロジーを使用しています。同社の業務の基盤となるのは、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データ インフラストラクチャを作成することです。ハードウェアは安価であるため、同社はネットワークを過剰に展開して、地域政治の変動が場所の可用性とコストに与える影響を考慮に入れることを計画しています。
同社の管理および運用チームは世界中に配置されており、システム内のデータ コンシューマーとデータ提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリック クラウドがニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelco は、自社のラボで概念実証 (PoC) プロジェクトを成功させています。同社には主に 2 つのニーズがあります。
* インストール数が 50,000 を超える場合に生成されるデータ フローを大幅に増やせるように、PoC を拡張および強化します。
* 機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
MJTelco は、実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすために、開発/テスト、ステージング、実稼働の 3 つの個別の運用環境も使用します。
ビジネス要件
* 予測不可能な分散型通信ユーザー コミュニティで必要なときに必要な場所でリソースをインスタンス化し、最小限のコストで実稼働環境を拡張します。
* 最先端の機械学習と分析を保護するために、独自のデータのセキュリティを確保します。
* 分散した研究員が分析するためのデータに信頼性とタイムリーなアクセスを提供する
* 顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
* テレメトリデータの安全かつ効率的な転送と保存を確保する
* インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。
* 約2年分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。
1日あたり1億件のレコード
* テレメトリ フローと実稼働学習サイクルの両方でのデータ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEOの声明
当社のビジネス モデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されており、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データ パイプラインを迅速に安定化する必要があります。
CTO 声明
当社のパブリック クラウド サービスは、宣伝どおりに機能する必要があります。拡張可能で、データを安全に保つリソースが必要です。また、データ サイエンティストがモデルを慎重に研究し、迅速に適応できる環境も必要です。当社はデータの処理を自動化に依存しているため、反復しながら機能する開発環境とテスト環境も必要です。
CFOの声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。
また、膨大なデータ フィードを監視するために運用チームを配置する余裕はないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、当社の定量研究者はデータ パイプラインの問題ではなく、価値の高い問題に取り組むことができます。
MJTelco が 1 日に取り込むことに関心のあるレコード ストリームを考えると、Google BigQuery のコストが増大することを懸念しています。MJTelco は、設計ソリューションの提供を求めています。必要なのは、tracking_table と呼ばれる 1 つの大きなデータ テーブルです。さらに、毎日のイベントのきめ細かな分析を実行しながら、毎日のクエリのコストを最小限に抑えたいと考えています。また、ストリーミング取り込みも使用したいと考えています。どうすればよいですか?
会社概要
MJTelco は、世界中で急速に成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。
同社は革新的な光通信ハードウェアの特許を保有しており、これらの特許に基づいて、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築できます。
会社概要
経験豊富な通信会社の幹部によって設立された MJTelco は、宇宙での通信の課題を克服するために開発されたテクノロジーを使用しています。同社の業務の基盤となるのは、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データ インフラストラクチャを作成することです。ハードウェアは安価であるため、同社はネットワークを過剰に展開して、地域政治の変動が場所の可用性とコストに与える影響を考慮に入れることを計画しています。
同社の管理および運用チームは世界中に配置されており、システム内のデータ コンシューマーとデータ提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリック クラウドがニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelco は、自社のラボで概念実証 (PoC) プロジェクトを成功させています。同社には主に 2 つのニーズがあります。
* インストール数が 50,000 を超える場合に生成されるデータ フローを大幅に増やせるように、PoC を拡張および強化します。
* 機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
MJTelco は、実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすために、開発/テスト、ステージング、実稼働の 3 つの個別の運用環境も使用します。
ビジネス要件
* 予測不可能な分散型通信ユーザー コミュニティで必要なときに必要な場所でリソースをインスタンス化し、最小限のコストで実稼働環境を拡張します。
* 最先端の機械学習と分析を保護するために、独自のデータのセキュリティを確保します。
* 分散した研究員が分析するためのデータに信頼性とタイムリーなアクセスを提供する
* 顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
* テレメトリデータの安全かつ効率的な転送と保存を確保する
* インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。
* 約2年分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。
1日あたり1億件のレコード
* テレメトリ フローと実稼働学習サイクルの両方でのデータ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEOの声明
当社のビジネス モデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されており、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データ パイプラインを迅速に安定化する必要があります。
CTO 声明
当社のパブリック クラウド サービスは、宣伝どおりに機能する必要があります。拡張可能で、データを安全に保つリソースが必要です。また、データ サイエンティストがモデルを慎重に研究し、迅速に適応できる環境も必要です。当社はデータの処理を自動化に依存しているため、反復しながら機能する開発環境とテスト環境も必要です。
CFOの声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。
また、膨大なデータ フィードを監視するために運用チームを配置する余裕はないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、当社の定量研究者はデータ パイプラインの問題ではなく、価値の高い問題に取り組むことができます。
MJTelco が 1 日に取り込むことに関心のあるレコード ストリームを考えると、Google BigQuery のコストが増大することを懸念しています。MJTelco は、設計ソリューションの提供を求めています。必要なのは、tracking_table と呼ばれる 1 つの大きなデータ テーブルです。さらに、毎日のイベントのきめ細かな分析を実行しながら、毎日のクエリのコストを最小限に抑えたいと考えています。また、ストリーミング取り込みも使用したいと考えています。どうすればよいですか?
Professional-Data-Engineer 試験問題 173
時系列トランザクション データをコピーするデータ パイプラインを作成し、データ サイエンス チームが BigQuery 内からクエリを実行して分析できるようにする必要があります。1 時間ごとに、数千のトランザクションが新しいステータスで更新されます。初期データセットのサイズは 1.5 PB で、1 日あたり 3 TB ずつ増加します。データは高度に構造化されており、データ サイエンス チームはこのデータに基づいて機械学習モデルを構築します。データ サイエンス チームのパフォーマンスと使いやすさを最大化したいと考えています。採用すべき 2 つの戦略はどれですか。
(2つ選択してください。)
(2つ選択してください。)
Professional-Data-Engineer 試験問題 174
1000 個のセンサーのネットワークがあります。センサーは時系列データ (1 秒あたり 1 つのセンサーあたり 1 つのメトリックとタイムスタンプ) を生成します。すでに 1 TB のデータがあり、毎日 1 GB ずつデータが増えると予想されます。このデータには 2 つの方法でアクセスする必要があります。最初のアクセス パターンでは、特定のタイムスタンプで保存された特定のセンサーからメトリックを取得する必要があります。平均 1 桁のミリ秒のレイテンシが必要です。2 番目のアクセス パターンでは、結合を含む複雑な分析クエリを 1 日に 1 回データに対して実行する必要があります。このデータをどのように保存すればよいでしょうか。
Professional-Data-Engineer 試験問題 175
ACID 準拠のデータベースを必要とするシステムを設計しています。障害が発生した場合にシステムに必要な人的介入を最小限に抑える必要があります。どうすればよいでしょうか。

