[2025-01-13更新,310問] 無料Google Professional-Data-Engineer試験問題集、Professional-Data-Engineer日本語関連対策(ページ 56)

Professional-Data-Engineer 試験問題 271

BigQuery ソースを持つパイプラインをローカルマシンで実行すると、権限拒否エラーが引き続き発生します。その理由は何でしょうか。

A. gcloud には BigQuery リソースへのアクセス権がありません

B. BigQuery はローカルマシンからアクセスできません

C. お使いのマシンに gcloud がありません

D. パイプラインはローカルで実行できません

Professional-Data-Engineer 試験問題 272

Pub/Sub トピックから読み取る Apache Beam 処理パイプラインを設計しました。トピックのメッセージ保持期間は 1 日で、Cloud Storage バケットに書き込みます。RPO が 15 分であるリージョン停止が発生した場合にデータ損失を防ぐには、バケットの場所と処理戦略を選択する必要があります。どうすればよいでしょうか。

A. 1 リージョンの Cloud Storage バケットを使用する
2 Cloud Monitoring を使用して Dataflow 指標を監視し、いつ停止が発生したかを判断する
3 確認済みのメッセージを回復するために、サブスクリプションを1日前まで遡って検索する
4 セカンダリリージョンでデータフロージョブを開始し、同じリージョンのバケットに書き込む

B. 1 マルチリージョンの Cloud Storage バケットを使用する
2 Cloud Monitoring を使用して Dataflow 指標を監視し、いつ停止が発生したかを判断する
3 確認済みのメッセージを回復するために、サブスクリプションを60分前に戻す
4 セカンダリリージョンでデータフロージョブを開始する

C. 1. デュアルリージョンの Cloud Storage バケットを使用します。
2. Cloud Monitoring を使用して Dataflow 指標を監視し、いつ停止が発生したかを判断する
3 確認済みのメッセージを回復するために、サブスクリプションを15分前に戻す
4 セカンダリリージョンでデータフロージョブを開始する

D. 1. ターボレプリケーションを有効にしたデュアルリージョンの Cloud Storage バケットを使用する
2 Cloud Monitoring を使用して Dataflow 指標を監視し、いつ停止が発生したかを判断する
3 確認済みのメッセージを回復するために、サブスクリプションを60分前に戻す
4 セカンダリリージョンで Dataflow ジョブを開始します。

正解: C

デュアルリージョン Cloud Storage バケットは、同じ大陸内の 2 つのリージョンにデータを冗長的に格納するバケットの一種です。これにより、単一のリージョンにデータを格納するリージョンバケットよりも高い可用性と耐久性が実現します。また、デュアルリージョンバケットは、大陸内または大陸間の複数のリージョンにデータを格納するマルチリージョンバケットよりもレイテンシが低く、スループットが高くなります。ターボレプリケーションが有効になっているデュアルリージョンバケットは、リージョン間のレプリケーションをさらに高速化するプレミアムオプションですが、コストが高く、このシナリオでは必要ありません。
デュアルリージョンの Cloud Storage バケットを使用すると、リージョンの停止からデータを保護し、どちらのリージョンからでも低レイテンシかつ高パフォーマンスでデータにアクセスできるようになります。また、Cloud Monitoring を使用して Dataflow 指標をモニタリングし、停止が発生したタイミングを判断し、15 分前にサブスクリプションをシークして確認済みのメッセージを回復することもできます。サブスクリプションをシークすると、メッセージ保持期間（この場合は 1 日）内にパブリッシュされた Pub/Sub トピックからのメッセージを再生できます。15 分前にサブスクリプションをシークすることで、15 分の RPO を満たすことができます。これは、ビジネスで許容できるデータ損失の最大量を意味します。その後、セカンダリリージョンで Dataflow ジョブを開始し、同じデュアルリージョンバケットに書き込むと、メッセージの処理が再開され、データ損失を防ぐことができます。
オプション A は、リージョンの Cloud Storage バケットを使用しても冗長性やリージョンの停止に対する保護が提供されないため、適切なソリューションではありません。バケットが配置されているリージョンで停止が発生すると、データにアクセスしたり、バケットに新しいデータを書き込んだりできなくなります。また、過去 15 分間のメッセージのみを回復する必要があるにもかかわらず、過去 1 日のメッセージがすべて再生されるため、サブスクリプションを 1 日さかのぼって検索することも不要で非効率的です。
オプション B は適切なソリューションではありません。マルチリージョンの Cloud Storage バケットを使用しても、このシナリオでは最高のパフォーマンスやコスト効率が得られないからです。マルチリージョンバケットは、大陸内または大陸間の複数のリージョンにデータを保存します。これにより、デュアルリージョンバケットよりも可用性と耐久性が高くなりますが、レイテンシが高くなり、スループットが低下します。マルチリージョンバケットは、単一の大陸内で Dataflow を使用してデータを処理するよりも、世界中のユーザーにデータを提供する方が適しています。また、60 分前にサブスクリプションをシークすることも不要で非効率的です。これは、15 分の RPO を満たすために必要なメッセージよりも多くのメッセージを再生することになるからです。
オプション D は適切なソリューションではありません。ターボレプリケーションを有効にしたデュアルリージョン Cloud Storage バケットを使用しても、このシナリオでは追加のメリットはなく、コストが増加するだけです。ターボレプリケーションは、リージョン間でより高速なレプリケーションを提供するプレミアムオプションですが、15 分の RPO を満たすために必須ではありません。また、60 分前にサブスクリプションをシークすることも不要で非効率的です。15 分の RPO を満たすために必要なメッセージよりも多くのメッセージを再生することになるからです。参照: ストレージの場所 | Cloud Storage | Google Cloud、データフローメトリック | Cloud Dataflow | Google Cloud、サブスクリプションのシーク | Cloud Pub/Sub | Google Cloud、リカバリポイント目標 (RPO) | Acronis。

Professional-Data-Engineer 試験問題 273

外部の顧客が、データベースから毎日データをダンプして提供します。データは、カンマ区切り値 (CSV) ファイルとして Google Cloud Storage GCS に流れ込みます。このデータを Google BigQuery で分析したいのですが、データに形式が誤っている行や破損している行が含まれている可能性があります。このパイプラインをどのように構築すればよいでしょうか。

A. Google Cloud Dataflow バッチパイプラインを実行してデータを BigQuery にインポートし、エラーを別のデッドレターテーブルにプッシュして分析します。

B. Google Stackdriver で BigQuery モニタリングを有効にし、アラートを作成します。

C. フェデレーションデータソースを使用し、SQL クエリでデータをチェックします。

D. gcloud CLI を使用してデータを BigQuery にインポートし、max_bad_records を 0 に設定します。

Professional-Data-Engineer 試験問題 274

ケーススタディ 2 - MJTelco
会社概要
MJTelco は、世界中で急速に成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。
同社は革新的な光通信ハードウェアの特許を保有しており、これらの特許に基づいて、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築できます。
会社概要
経験豊富な通信会社の幹部によって設立された MJTelco は、宇宙での通信の課題を克服するために開発されたテクノロジーを使用しています。同社の業務の基盤となるのは、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データインフラストラクチャを作成することです。ハードウェアは安価であるため、同社はネットワークを過剰に展開して、地域政治の変動が場所の可用性とコストに与える影響を考慮に入れることを計画しています。
同社の管理および運用チームは世界中に配置されており、システム内のデータコンシューマーとデータ提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリッククラウドがニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelco は、自社のラボで概念実証 (PoC) プロジェクトを成功させています。同社には主に 2 つのニーズがあります。
* インストール数が 50,000 を超える場合に生成されるデータフローを大幅に増やせるように、PoC を拡張および強化します。
* 機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
MJTelco は、実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすために、開発/テスト、ステージング、実稼働の 3 つの個別の運用環境も使用します。
ビジネス要件
* 予測不可能な分散型通信ユーザーコミュニティで必要なときに必要な場所でリソースをインスタンス化し、最小限のコストで実稼働環境を拡張します。
* 最先端の機械学習と分析を保護するために、独自のデータのセキュリティを確保します。
* 分散した研究員が分析するためのデータに信頼性とタイムリーなアクセスを提供する
* 顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
* テレメトリデータの安全かつ効率的な転送と保存を確保する
* インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ～ 100,000 のデータプロバイダーをサポートします。
* 約2年分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。
1日あたり1億件のレコード
* テレメトリフローと実稼働学習サイクルの両方でのデータパイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEOの声明
当社のビジネスモデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されており、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データパイプラインを迅速に安定化する必要があります。
CTO 声明
当社のパブリッククラウドサービスは、宣伝どおりに機能する必要があります。拡張可能で、データを安全に保つリソースが必要です。また、データサイエンティストがモデルを慎重に研究し、迅速に適応できる環境も必要です。当社はデータの処理を自動化に依存しているため、反復しながら機能する開発環境とテスト環境も必要です。
CFOの声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。
また、膨大なデータフィードを監視するために運用チームを配置する余裕はないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、当社の定量研究者はデータパイプラインの問題ではなく、価値の高い問題に取り組むことができます。
Google Data Studio 360 で、大規模なチーム向けの新しいレポートを作成します。レポートでは、データソースとして Google BigQuery を使用します。会社のポリシーでは、従業員が自分の地域に関連付けられたデータのみを表示できるようにする必要があるため、地域ごとにテーブルを作成して入力します。データに対する地域アクセスポリシーを適用する必要があります。
取るべき行動はどれですか? (2 つ選択してください。)

A. 各テーブルがリージョンのデータセットに含まれていることを確認します。

B. 各データセットの設定を調整して、関連するリージョンベースのセキュリティグループビューアクセスを許可します。

C. 関連するリージョンベースのセキュリティグループビューアクセスを許可するように各テーブルの設定を調整します。

D. すべてのテーブルがグローバルデータセットに含まれていることを確認します。

E. 関連するリージョンベースのセキュリティグループビューアクセスを許可するように各ビューの設定を調整します。

Professional-Data-Engineer 試験問題 275

ワークフローを使用して、1 KB の JSON レスポンスを返す API を呼び出し、このレスポンスに複雑なビジネスロジックを適用し、ロジックが完了するまで待機してから、Cloud Storage ファイルから BigQuery への読み込みを実行します。ワークフローの標準ライブラリには、複雑なロジックを実行するのに十分な機能がないため、代わりに Python の標準ライブラリを使用します。ワークフローを最適化して、シンプルさと実行速度を向上させたいと考えています。どうすればよいでしょうか。

A. Dataproc クラスタを作成し、PySpark を使用して JSON ファイルにロジックを適用します。

B. Cloud Composer 環境を作成し、Cloud Composer でロジックを実行します。

C. Python を使用して JSON ファイルにロジックを適用する Cloud Function インスタンスを呼び出します。

D. ワークフローでサブワークフローを呼び出して、JSON ファイルにロジックを適用します。

他のバージョン: 469Google.Professional-Data-Engineer.v2026-05-11.q113; 815Google.Professional-Data-Engineer.v2025-12-29.q327; 2233Google.Professional-Data-Engineer.v2024-06-07.q281; 1796Google.Professional-Data-Engineer.v2023-09-15.q214; 2235Google.Professional-Data-Engineer.v2022-11-23.q197

最新アップロード: 103Oracle.1z0-1057-25.v2026-06-04.q45; 104Amazon.AWS-Certified-Developer-Associate.v2026-06-04.q323; 106Fortinet.FCSS_SDW_AR-7.4.v2026-06-04.q76; 131SAP.C_THR88_2505.v2026-06-03.q76; 137WGU.Web-Development-Applications.v2026-06-03.q73; 130Salesforce.Mule-Dev-301.v2026-06-02.q22; 181CISI.IFC.v2026-06-02.q111; 188Huawei.H13-611_V5.0.v2026-06-01.q113; 222Cisco.200-201.v2026-06-01.q230; 184Huawei.H35-211_V2.5.v2026-06-01.q109

Professional-Data-Engineer 試験問題 271

Professional-Data-Engineer 試験問題 272

Professional-Data-Engineer 試験問題 273

Professional-Data-Engineer 試験問題 274

Professional-Data-Engineer 試験問題 275

PDFファイルをダウンロード