Professional-Data-Engineer 試験問題 186
ストリーミング Cloud Dataflow パイプラインを運用しています。エンジニアは、異なるウィンドウ アルゴリズムとトリガー戦略を備えた新しいバージョンのパイプラインを持っています。実行中のパイプラインを新しいバージョンに更新したいと考えています。更新中にデータが失われないようにする必要があります。どうすればよいでしょうか。
Professional-Data-Engineer 試験問題 187
会社では、カンマ区切り値 (CSV) ファイルを Google BigQuery にロードしています。データは完全に正常にインポートされましたが、インポートされたデータはソース ファイルとバイト単位で一致していません。
この問題の最も可能性の高い原因は何でしょうか?
この問題の最も可能性の高い原因は何でしょうか?
Professional-Data-Engineer 試験問題 188
オンプレミスに、ウェブ アプリケーション ログを含むトピックを含む Apache Kafka クラスタがあります。BigQuery と Cloud Storage で分析するために、データを Google Cloud に複製する必要があります。Kafka Connect プラグインのデプロイを回避するには、ミラーリングによる複製が推奨されます。
何をすべきでしょうか?
何をすべきでしょうか?
Professional-Data-Engineer 試験問題 189
MJTelco のケーススタディ
会社概要
MJTelco は、世界中で急速に成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。
同社は革新的な光通信ハードウェアの特許を保有しており、これらの特許に基づいて、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築できます。
会社概要
経験豊富な通信会社の幹部によって設立された MJTelco は、宇宙での通信の課題を克服するために開発されたテクノロジーを使用しています。同社の業務の基盤となるのは、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データ インフラストラクチャを作成することです。ハードウェアは安価であるため、同社はネットワークを過剰に展開して、地域政治の変動が場所の可用性とコストに与える影響を考慮に入れることを計画しています。
同社の管理および運用チームは世界中に配置されており、システム内のデータ コンシューマーとデータ提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリック クラウドがニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelco は、自社のラボで概念実証 (PoC) プロジェクトを成功させています。同社には主に 2 つのニーズがあります。
* インストール数が 50,000 を超える場合に生成されるデータ フローを大幅に増やせるように、PoC を拡張および強化します。
* 機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
MJTelco は、実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすために、開発/テスト、ステージング、実稼働の 3 つの個別の運用環境も使用します。
ビジネス要件
* 予測不可能な分散型通信ユーザー コミュニティで必要なときに必要な場所でリソースをインスタンス化し、最小限のコストで実稼働環境を拡張します。
* 最先端の機械学習と分析を保護するために、独自のデータのセキュリティを確保します。
* 分散した研究員が分析するためのデータに信頼性とタイムリーなアクセスを提供する
* 顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
テレメトリデータの安全かつ効率的な転送と保存を確保する
インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。
1 日あたり約 1 億件のレコードを保存し、最大 2 年間のデータを追跡するデータ テーブルに対する分析とプレゼンテーションを可能にします。テレメトリ フローと実稼働学習サイクルの両方でのデータ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEOの声明
当社のビジネス モデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されており、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データ パイプラインを迅速に安定化する必要があります。
CTO 声明
パブリック クラウド サービスは宣伝どおりに動作する必要があります。拡張可能で、データを安全に保つリソースが必要です。
また、データ サイエンティストがモデルを慎重に研究し、迅速に適応できる環境も必要です。
データ処理には自動化が不可欠であるため、反復作業中に開発環境とテスト環境も機能させる必要があります。
CFOの声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。また、多数のデータ フィードを監視する運用チームを配置する余裕もないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、定量的研究者はデータ パイプラインの問題ではなく、価値の高い問題に取り組むことができます。
次の要件を満たす運用チーム向けの視覚化を作成する必要があります。
* レポートには、過去 6 週間の 50,000 のインストールすべてからのテレメトリ データが含まれている必要があります (1 分ごとにサンプリング)。
* レポートはライブデータから 3 時間以上遅延してはなりません。
* 実用的なレポートには、最適ではないリンクのみが表示されます。
* 最適ではないリンクのほとんどは、一番上に並べる必要があります。
* 最適ではないリンクは、地域別にグループ化してフィルタリングできます。
* レポートを読み込むためのユーザー応答時間は 5 秒未満である必要があります。
どのアプローチが要件を満たしていますか?
会社概要
MJTelco は、世界中で急速に成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。
同社は革新的な光通信ハードウェアの特許を保有しており、これらの特許に基づいて、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築できます。
会社概要
経験豊富な通信会社の幹部によって設立された MJTelco は、宇宙での通信の課題を克服するために開発されたテクノロジーを使用しています。同社の業務の基盤となるのは、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データ インフラストラクチャを作成することです。ハードウェアは安価であるため、同社はネットワークを過剰に展開して、地域政治の変動が場所の可用性とコストに与える影響を考慮に入れることを計画しています。
同社の管理および運用チームは世界中に配置されており、システム内のデータ コンシューマーとデータ提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリック クラウドがニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelco は、自社のラボで概念実証 (PoC) プロジェクトを成功させています。同社には主に 2 つのニーズがあります。
* インストール数が 50,000 を超える場合に生成されるデータ フローを大幅に増やせるように、PoC を拡張および強化します。
* 機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
MJTelco は、実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすために、開発/テスト、ステージング、実稼働の 3 つの個別の運用環境も使用します。
ビジネス要件
* 予測不可能な分散型通信ユーザー コミュニティで必要なときに必要な場所でリソースをインスタンス化し、最小限のコストで実稼働環境を拡張します。
* 最先端の機械学習と分析を保護するために、独自のデータのセキュリティを確保します。
* 分散した研究員が分析するためのデータに信頼性とタイムリーなアクセスを提供する
* 顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
テレメトリデータの安全かつ効率的な転送と保存を確保する
インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。
1 日あたり約 1 億件のレコードを保存し、最大 2 年間のデータを追跡するデータ テーブルに対する分析とプレゼンテーションを可能にします。テレメトリ フローと実稼働学習サイクルの両方でのデータ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEOの声明
当社のビジネス モデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されており、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データ パイプラインを迅速に安定化する必要があります。
CTO 声明
パブリック クラウド サービスは宣伝どおりに動作する必要があります。拡張可能で、データを安全に保つリソースが必要です。
また、データ サイエンティストがモデルを慎重に研究し、迅速に適応できる環境も必要です。
データ処理には自動化が不可欠であるため、反復作業中に開発環境とテスト環境も機能させる必要があります。
CFOの声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。また、多数のデータ フィードを監視する運用チームを配置する余裕もないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、定量的研究者はデータ パイプラインの問題ではなく、価値の高い問題に取り組むことができます。
次の要件を満たす運用チーム向けの視覚化を作成する必要があります。
* レポートには、過去 6 週間の 50,000 のインストールすべてからのテレメトリ データが含まれている必要があります (1 分ごとにサンプリング)。
* レポートはライブデータから 3 時間以上遅延してはなりません。
* 実用的なレポートには、最適ではないリンクのみが表示されます。
* 最適ではないリンクのほとんどは、一番上に並べる必要があります。
* 最適ではないリンクは、地域別にグループ化してフィルタリングできます。
* レポートを読み込むためのユーザー応答時間は 5 秒未満である必要があります。
どのアプローチが要件を満たしていますか?
Professional-Data-Engineer 試験問題 190
Cloud Dataproc クラスタでスケジュールに従って実行される Spark ジョブがいくつかあります。ジョブの中には順番に実行されるものもあれば、同時に実行されるものもあります。このプロセスを自動化する必要があります。どうすればよいでしょうか。
