Professional-Data-Engineer 試験問題 266
分析チームは、どの顧客が最も興味を持つかを判断するためのシンプルな統計モデルを構築したいと考えています。
いくつかの異なる指標に基づいて、再度貴社と協力したいと考えています。モデルをApacheで実行したいと考えています。
SparkはGoogle Cloud Storageに保存されているデータを使用しており、Google Cloudの使用を推奨しています。
このジョブを実行するにはDataprocが必要です。テストの結果、このワークロードは約30分で実行できることが分かりました。
15ノードのクラスタで実行し、結果をGoogle BigQueryに出力します。このワークロードは毎週実行する予定です。
コストの観点からクラスターを最適化するにはどうすればよいでしょうか?
いくつかの異なる指標に基づいて、再度貴社と協力したいと考えています。モデルをApacheで実行したいと考えています。
SparkはGoogle Cloud Storageに保存されているデータを使用しており、Google Cloudの使用を推奨しています。
このジョブを実行するにはDataprocが必要です。テストの結果、このワークロードは約30分で実行できることが分かりました。
15ノードのクラスタで実行し、結果をGoogle BigQueryに出力します。このワークロードは毎週実行する予定です。
コストの観点からクラスターを最適化するにはどうすればよいでしょうか?
Professional-Data-Engineer 試験問題 267
Google Data Studio 360 で、大規模なチーム向けの重要なレポートを作成しています。レポートのデータソースには Google BigQuery を使用していますが、ビジュアライゼーションに 1 時間以内のデータが表示されないことに気づきました。どうすればよいでしょうか?
Professional-Data-Engineer 試験問題 268
ケーススタディ:2 - MJTelco
会社概要
MJTelcoは、世界中で急成長を遂げているものの、サービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。同社は革新的な光通信ハードウェアに関する特許を保有しており、これらの特許に基づき、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築することが可能です。
会社概要
経験豊富な通信業界の幹部によって設立されたMJTelcoは、宇宙における通信の課題を克服するために開発された技術を活用しています。事業運営の基盤として、リアルタイム分析を促進し、機械学習を組み込んでトポロジーを継続的に最適化する分散データインフラストラクチャの構築が求められています。ハードウェアが安価であることから、ネットワークをオーバーデプロイすることで、地域情勢の変化が拠点の可用性とコストに及ぼす影響を考慮に入れる計画です。管理チームと運用チームは世界中に拠点を置いており、システム内のデータ利用者とデータ提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリッククラウドが自社のニーズに最適な環境であると判断しました。
ソリューションコンセプト
MJTelcoは、自社のラボで概念実証(PoC)プロジェクトを成功裏に実行しています。彼らには主に2つのニーズがあります。
インストール数が 50,000 を超えると、生成されるデータ フローが大幅に増加するため、PoC を拡張して強化します。
機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
MJTelco は、開発/テスト、ステージング、実稼働という 3 つの個別の運用環境も使用します。
実験の実行、新機能の導入、本番環境の顧客へのサービス提供のニーズを満たすためです。
ビジネス要件
予測不可能な分散型通信ユーザーコミュニティにおいて、最小限のコストで本番環境をスケールアップし、必要な時に必要な場所でリソースをインスタンス化します。最先端の機械学習と分析を保護するために、独自データのセキュリティを確保します。
分散した研究員からの分析用データへの信頼性が高くタイムリーなアクセスを提供し、顧客に影響を与えることなく機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
テレメトリ データの安全で効率的な転送と保存を確保し、インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。
約2年間分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。
1日あたり1億件のレコード
テレメトリ フローと本番学習サイクルの両方でのデータ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEO声明
当社のビジネスモデルは、特許、分析、そして動的機械学習に依存しています。低価格のハードウェアは高い信頼性を実現するよう設計されており、コスト面での優位性をもたらしています。信頼性と容量に関するコミットメントを満たすためには、大規模な分散データパイプラインを迅速に安定化させる必要があります。
CTO声明
当社のパブリッククラウドサービスは、宣伝どおりに機能する必要があります。拡張性とデータの安全性を確保できるリソースが必要です。また、データサイエンティストがモデルを綿密に研究し、迅速に適応できる環境も必要です。データ処理は自動化に依存しているため、開発環境とテスト環境も、反復作業に合わせて適切に機能する必要があります。
CFO声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。
また、膨大なデータフィードを監視する運用チームを編成する余裕はないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、定量分析の研究者はデータパイプラインの問題ではなく、より価値の高い問題に取り組むことができます。
Google Data Studio 360 で、大規模なチーム向けの新しいレポートを作成します。レポートのデータソースには Google BigQuery を使用します。会社のポリシーでは、従業員が自分の地域に関連付けられたデータのみを表示できるようにする必要があるため、地域ごとにテーブルを作成し、データを入力します。データには、地域アクセスポリシーを適用する必要があります。
取るべき行動は 2 つありますか? (2 つ選択してください。)
会社概要
MJTelcoは、世界中で急成長を遂げているものの、サービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。同社は革新的な光通信ハードウェアに関する特許を保有しており、これらの特許に基づき、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築することが可能です。
会社概要
経験豊富な通信業界の幹部によって設立されたMJTelcoは、宇宙における通信の課題を克服するために開発された技術を活用しています。事業運営の基盤として、リアルタイム分析を促進し、機械学習を組み込んでトポロジーを継続的に最適化する分散データインフラストラクチャの構築が求められています。ハードウェアが安価であることから、ネットワークをオーバーデプロイすることで、地域情勢の変化が拠点の可用性とコストに及ぼす影響を考慮に入れる計画です。管理チームと運用チームは世界中に拠点を置いており、システム内のデータ利用者とデータ提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリッククラウドが自社のニーズに最適な環境であると判断しました。
ソリューションコンセプト
MJTelcoは、自社のラボで概念実証(PoC)プロジェクトを成功裏に実行しています。彼らには主に2つのニーズがあります。
インストール数が 50,000 を超えると、生成されるデータ フローが大幅に増加するため、PoC を拡張して強化します。
機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
MJTelco は、開発/テスト、ステージング、実稼働という 3 つの個別の運用環境も使用します。
実験の実行、新機能の導入、本番環境の顧客へのサービス提供のニーズを満たすためです。
ビジネス要件
予測不可能な分散型通信ユーザーコミュニティにおいて、最小限のコストで本番環境をスケールアップし、必要な時に必要な場所でリソースをインスタンス化します。最先端の機械学習と分析を保護するために、独自データのセキュリティを確保します。
分散した研究員からの分析用データへの信頼性が高くタイムリーなアクセスを提供し、顧客に影響を与えることなく機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
テレメトリ データの安全で効率的な転送と保存を確保し、インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。
約2年間分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。
1日あたり1億件のレコード
テレメトリ フローと本番学習サイクルの両方でのデータ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEO声明
当社のビジネスモデルは、特許、分析、そして動的機械学習に依存しています。低価格のハードウェアは高い信頼性を実現するよう設計されており、コスト面での優位性をもたらしています。信頼性と容量に関するコミットメントを満たすためには、大規模な分散データパイプラインを迅速に安定化させる必要があります。
CTO声明
当社のパブリッククラウドサービスは、宣伝どおりに機能する必要があります。拡張性とデータの安全性を確保できるリソースが必要です。また、データサイエンティストがモデルを綿密に研究し、迅速に適応できる環境も必要です。データ処理は自動化に依存しているため、開発環境とテスト環境も、反復作業に合わせて適切に機能する必要があります。
CFO声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。
また、膨大なデータフィードを監視する運用チームを編成する余裕はないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、定量分析の研究者はデータパイプラインの問題ではなく、より価値の高い問題に取り組むことができます。
Google Data Studio 360 で、大規模なチーム向けの新しいレポートを作成します。レポートのデータソースには Google BigQuery を使用します。会社のポリシーでは、従業員が自分の地域に関連付けられたデータのみを表示できるようにする必要があるため、地域ごとにテーブルを作成し、データを入力します。データには、地域アクセスポリシーを適用する必要があります。
取るべき行動は 2 つありますか? (2 つ選択してください。)
Professional-Data-Engineer 試験問題 269
組織では6か月間、Google BigQueryでデータを収集・分析してきました。分析対象データの大部分は、events_partitionedという時間分割テーブルに格納されています。クエリコストを削減するため、過去14日間のデータのみをクエリするeventsというビューを作成しました。このビューはレガシーSQLで記述されています。来月、既存のアプリケーションがODBC接続経由でBigQueryに接続し、イベントデータを読み取る予定です。これらのアプリケーションが接続できることを確認する必要があります。必要なアクションは2つありますか?(2つ選択してください。)
Professional-Data-Engineer 試験問題 270
Google Cloud 上のデータパイプライン用に、Cloud Pub/Sub から BigQuery への JSON メッセージの書き込みと変換を行うサービスを選択しています。サービスコストを最小限に抑えたいと考えています。また、サイズが変動する入力データ量をモニタリングし、最小限の手動介入で対応したいと考えています。どうすればよいでしょうか?
