[2025-12-29更新,327問] 無料Google Professional-Data-Engineer試験問題集、Professional-Data-Engineer技術内容(ページ 47)

Professional-Data-Engineer 試験問題 226

Cloud Storage にデータを書き込む上流プロセスがあります。このデータは、Dataproc 上で実行される Apache Spark ジョブによって読み取られます。これらのジョブは us-central1 リージョンで実行されますが、データは米国内の任意の場所に保存される可能性があります。単一のリージョンで壊滅的な障害が発生した場合に備えて、復旧プロセスを用意する必要があります。データ損失を最大 15 分（RPO = 15 分）に抑えるアプローチが必要です。データ読み取り時のレイテンシを最小限に抑える必要があります。どうすればよいでしょうか？

A. 1. us-central1 リージョンと us-south1 リージョンにデュアルリージョンの Cloud Storage バケットを作成します。2. ターボレプリケーションを有効にします。3. us-central1 リージョンのゾーンで Dataproc クラスタを実行し、us-south1 リージョンのバケットから読み取ります。4. リージョン障害が発生した場合は、Dataproc クラスタを us-south1 リージョンに再デプロイし、同じバケットからの読み取りを継続します。

B. 1. us-central1 リージョンと us-south1 リージョンにデュアルリージョンの Cloud Storage バケットを作成します。2. ターボレプリケーションを有効にします。3. us-central1 リージョンのゾーンで Dataproc クラスタを実行し、同じリージョンのバケットから読み取ります。4. リージョン障害が発生した場合は、Dataproc クラスタを us-south1 リージョンに再デプロイし、同じバケットから読み取ります。

C. 1. 米国マルチリージョンに Cloud Storage バケットを作成します。2. ua-central1 リージョンのゾーンで Dataproc クラスタを実行し、米国マルチリージョンバケットからデータを読み取ります。3. リージョン障害が発生した場合は、Dataproc クラスタを us-central2 リージョンに再デプロイし、同じバケットからの読み取りを継続します。

D. 1. リージョン Cloud Storage バケットを 2 つ作成します。1 つは us-central1 リージョンに、もう 1 つは us-south1 リージョンに作成します。2. アップストリームプロセスで us-central1 バケットにデータを書き込むようにします。Storage Transfer Service を使用して、us-central1 バケットから us-south1 バケットにデータを 1 時間ごとにコピーします。3. us-central1 リージョンのゾーンで Dataproc クラスタを実行し、そのリージョンのバケットから読み取ります。4. リージョン障害が発生した場合は、Dataproc クラスタを us-south1 リージョンに再デプロイし、代わりにそのリージョンのバケットから読み取ります。

正解: B

単一リージョンの障害発生時に、データ損失を最小限に抑え、低レイテンシでデータ復旧を実現するには、ターボレプリケーション機能を備えたデュアルリージョンバケットを使用するのが最適です。オプションBが最適な選択肢である理由は次のとおりです。
デュアルリージョンバケット:
デュアルリージョンバケットは、2 つのリージョン間でデータを複製することで地理的な冗長性を提供し、リージョン障害に対する高可用性と復元力を保証します。
選択されたリージョン (us-central1 および us-south1) は、米国内の地理的多様性を提供します。
ターボレプリケーション:
ターボレプリケーションにより、2 つのリージョン間でデータが 15 分以内にレプリケートされ、15 分の復旧ポイント目標 (RPO) が満たされます。
これにより、地域的な障害が発生した場合のデータ損失が最小限に抑えられます。
Dataproc クラスタの実行:
プライマリデータストレージ (us-central1) と同じリージョンで Dataproc クラスタを実行すると、通常の操作のレイテンシが最小限に抑えられます。
リージョン障害が発生した場合、Dataproc クラスタをセカンダリリージョン (us-south1) に再デプロイすると、データ損失を最小限に抑えながら継続性が確保されます。
実装手順:
デュアルリージョンバケットを作成します。
Google Cloud Console で、us-central1 リージョンと us-south1 リージョンを選択して、デュアルリージョンバケットを設定します。
ターボレプリケーションを有効にして、リージョン間の高速なデータレプリケーションを実現します。
Dataproc クラスタをデプロイします。
最適なパフォーマンスを得るために、同じリージョンにあるバケットからデータを読み取り、us-central1 リージョンに Dataproc クラスタをデプロイします。
フェイルオーバープランの設定:
us-central1 リージョンで障害が発生した場合に備えて、Dataproc クラスタを us-south1 リージョンに再デプロイする計画を立てます。
ダウンタイムとデータ損失を最小限に抑えるために、フェールオーバープロセスが適切に文書化され、テストされていることを確認します。
参考リンク:
Google Cloud Storage デュアルリージョン
Google Cloud Storage のターボレプリケーション
Dataproc ドキュメント

Professional-Data-Engineer 試験問題 227

次の条件を満たすクラウドネイティブの履歴データ処理システムを設計しています。
* 分析対象のデータは CSV、Avro、PDF 形式で、Cloud Dataproc、BigQuery、Compute Engine などの複数の分析ツールからアクセスされます。
* ストリーミングデータパイプラインは毎日新しいデータを保存します。
* パフォーマンスはソリューションの要素ではありません。
* ソリューション設計では可用性を最大化する必要があります。
このソリューションのデータストレージをどのように設計すればよいでしょうか?

A. 高可用性を備えた Cloud Dataproc クラスタを作成します。データを HDFS に保存し、必要に応じて分析を実行します。

B. データをBigQueryに保存します。Cloud DataprocとCompute Engine上のBigQueryコネクタを使用してデータにアクセスします。

C. データをリージョンの Cloud Storage バケットに保存します。Cloud Dataproc、BigQuery、Compute Engine を使用してバケットに直接アクセスします。

D. データをマルチリージョンの Cloud Storage バケットに保存します。Cloud Dataproc、BigQuery、Compute Engine を使用してデータに直接アクセスします。

Professional-Data-Engineer 試験問題 228

世界中の倉庫の温度データを収集するために、1万台の新しいIoTデバイスを導入しています。これらの膨大なデータセットをリアルタイムで処理、保存、分析する必要があります。
何をすべきでしょうか?

A. データを Cloud Storage に送信し、分析が必要なときはいつでも Google Cloud Dataproc で Apache Hadoop クラスタを起動します。

B. ログを一括して Google Cloud Storage にエクスポートし、Google Cloud SQL インスタンスを起動して、Cloud Storage からデータをインポートし、必要に応じて分析を実行します。

C. データを Google Cloud Datastore に送信し、BigQuery にエクスポートします。

D. データを Google Cloud Pub/Sub に送信し、Cloud Pub/Sub を Google Cloud Dataflow にストリーミングし、データを Google BigQuery に保存します。

Professional-Data-Engineer 試験問題 229

ケーススタディ：2 - MJTelco
会社概要
MJTelcoは、世界中で急成長を遂げているものの、サービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。同社は革新的な光通信ハードウェアに関する特許を保有しており、これらの特許に基づき、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築することが可能です。
会社概要
経験豊富な通信業界の幹部によって設立されたMJTelcoは、宇宙における通信の課題を克服するために開発された技術を活用しています。事業運営の基盤として、リアルタイム分析を促進し、機械学習を組み込んでトポロジーを継続的に最適化する分散データインフラストラクチャの構築が求められています。ハードウェアが安価であることから、ネットワークをオーバーデプロイすることで、地域情勢の変化が拠点の可用性とコストに及ぼす影響を考慮に入れる計画です。管理チームと運用チームは世界中に拠点を置いており、システム内のデータ利用者とデータ提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリッククラウドが自社のニーズに最適な環境であると判断しました。
ソリューションコンセプト
MJTelcoは、自社のラボで概念実証（PoC）プロジェクトを成功裏に実行しています。彼らには主に2つのニーズがあります。
インストール数が 50,000 を超えると、生成されるデータフローが大幅に増加するため、PoC を拡張して強化します。
機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
MJTelco は、開発/テスト、ステージング、実稼働という 3 つの個別の運用環境も使用します。
実験の実行、新機能の導入、本番環境の顧客へのサービス提供のニーズを満たすためです。
ビジネス要件
予測不可能な分散型通信ユーザーコミュニティにおいて、最小限のコストで本番環境をスケールアップし、必要な時に必要な場所でリソースをインスタンス化します。最先端の機械学習と分析を保護するために、独自データのセキュリティを確保します。
分散した研究員からの分析用データへの信頼性が高くタイムリーなアクセスを提供し、顧客に影響を与えることなく機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
テレメトリデータの安全で効率的な転送と保存を確保し、インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ～ 100,000 のデータプロバイダーをサポートします。
約2年間分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。
1日あたり1億件のレコード
テレメトリフローと本番学習サイクルの両方でのデータパイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEO声明
当社のビジネスモデルは、特許、分析、そして動的機械学習に依存しています。低価格のハードウェアは高い信頼性を実現するよう設計されており、コスト面での優位性をもたらしています。信頼性と容量に関するコミットメントを満たすためには、大規模な分散データパイプラインを迅速に安定化させる必要があります。
CTO声明
当社のパブリッククラウドサービスは、宣伝どおりに機能する必要があります。拡張性とデータの安全性を確保できるリソースが必要です。また、データサイエンティストがモデルを綿密に研究し、迅速に適応できる環境も必要です。データ処理は自動化に依存しているため、開発環境とテスト環境も、反復作業に合わせて適切に機能する必要があります。
CFO声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。
また、膨大なデータフィードを監視する運用チームを編成する余裕はないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、定量分析の研究者はデータパイプラインの問題ではなく、より価値の高い問題に取り組むことができます。
次の要件を満たす運用チーム向けの視覚化を構成する必要があります。
テレメトリには、過去6週間の50,000件のインストールすべてからのデータ（1分ごとにサンプリング）を含める必要があります。レポートはライブデータから3時間以内の遅延でなければなりません。実用的なレポートには、最適ではないリンクのみが表示される必要があります。
最適ではないリンクのほとんどは、一番上に並べる必要があります。
最適ではないリンクは、地域別にグループ化およびフィルタリングできます。レポートの読み込みにかかるユーザー応答時間は5秒未満である必要があります。過去6週間のデータを保存するデータソースを作成し、複数の日付範囲、異なる地域、および固有のインストールタイプを閲覧者が確認できる視覚化を作成します。
ビジュアライゼーションに変更を加えることなく、常に最新のデータを表示しています。毎月新しいビジュアライゼーションを作成して更新するのは避けたいのですが、どうすればよいでしょうか？

A. 現在のデータを調べて、値の選択を可能にする基準フィルターにバインドされた一般化されたグラフと表の小さなセットを作成します。

B. データをスプレッドシートにエクスポートし、条件の可能な組み合わせごとに 1 つずつ一連のグラフと表を作成し、複数のタブに分散します。

C. データをリレーショナルデータベーステーブルに読み込み、すべての行をクエリし、各条件でデータを要約し、Google Charts および Visualization API を使用して結果をレンダリングする Google App Engine アプリケーションを作成します。

D. 現在のデータを調べて、条件の可能な組み合わせごとに 1 つずつ、一連のグラフと表を作成します。

Professional-Data-Engineer 試験問題 230

Google Data Studio 360 で、大規模なチーム向けの重要なレポートを作成しました。レポートのデータソースには Google BigQuery を使用していますが、ビジュアライゼーションに 1 時間以内のデータが表示されないことに気づきました。
何をすべきでしょうか?

A. レポート設定を編集してキャッシュを無効にします。

B. 視覚化を表示するブラウザタブを更新します。

C. 過去 1 時間のブラウザ履歴を消去し、仮想化を表示するタブを再読み込みします。

D. テーブルの詳細を編集して、BigQuery のキャッシュを無効にします。

他のバージョン: 591Google.Professional-Data-Engineer.v2026-05-11.q113; 2347Google.Professional-Data-Engineer.v2025-01-13.q310; 2385Google.Professional-Data-Engineer.v2024-06-07.q281; 1913Google.Professional-Data-Engineer.v2023-09-15.q214; 2287Google.Professional-Data-Engineer.v2022-11-23.q197

最新アップロード: 112Workday.Workday-Pro-Talent-and-Performance.v2026-06-20.q18; 131Fortinet.NSE4_FGT_AD-7.6.v2026-06-20.q64; 115EMC.D-ISM-FN-01.v2026-06-20.q22; 135F5.F5CAB5.v2026-06-19.q20; 123SAP.C_P2W52_2410.v2026-06-19.q29; 139Scrum.PSM-III.v2026-06-18.q13; 168Oracle.1z0-1033-25.v2026-06-18.q45; 149Salesforce.Mule-101.v2026-06-17.q19; 151Citrix.1Y0-204.v2026-06-17.q142; 265CrowdStrike.CCCS-203b.v2026-06-16.q114

Professional-Data-Engineer 試験問題 226

Professional-Data-Engineer 試験問題 227

Professional-Data-Engineer 試験問題 228

Professional-Data-Engineer 試験問題 229

Professional-Data-Engineer 試験問題 230

PDFファイルをダウンロード