[2025-12-29更新,327問] 無料Google Professional-Data-Engineer試験問題集、Professional-Data-Engineer技術内容(ページ 66)

Professional-Data-Engineer 試験問題 322

BigQueryのデータ変換ソリューションを設計しています。開発者はSOLに精通しており、ELT開発手法の活用を希望しています。さらに、直感的なコーディング環境とSQLをコードとして管理する能力も必要です。開発者がこれらのパイプラインを構築するためのソリューションを特定する必要があります。どうすればよいでしょうか？

A. Cloud Composer を使用してデータを読み込み、BigQuery ジョブオペレーターを使用して SQL パイプラインを実行します。

B. Dataflow ジョブを使用して Pub/Sub からデータを読み取り、データを変換し、BigQuery に読み込みます。

C. Dataform を使用して、SQL パイプラインを構築、管理、スケジュールします。

D. Data Fusion を使用して ETL パイプラインを構築および実行する

正解: C

ELT開発手法に準拠し、SQLに精通した開発者に直感的なコーディング環境を提供するBigQuery向けデータ変換ソリューションを構築するには、Dataformが最適です。その理由は次のとおりです。
ELT開発テクニック:
ELT（抽出、ロード、変換）は、まずデータを抽出してデータウェアハウスにロードし、その後SQLクエリを使用して変換するプロセスです。これは、データウェアハウスにロードする前にデータを変換するETLとは異なります。
BigQuery は ELT をサポートしており、開発者はデータウェアハウスに直接 SQL 変換を記述できます。
データフォーム:
Dataform は、BigQuery やその他の SQL ベースのウェアハウスでのデータ変換用に特別に設計された開発環境です。
バージョン管理や共同開発など、SQL をコードとして管理するためのツールを提供します。
Dataform は既存の開発ワークフローと適切に統合され、SQL ベースのデータパイプラインのスケジュールと管理をサポートします。
直感的なコーディング環境:
Dataform は、SQL クエリの作成と管理のための直感的でユーザーフレンドリーなインターフェースを提供します。
これには、モジュール性と再利用性を備えた標準 SQL を拡張した SQL 方言である SQLX などの機能が含まれており、複雑な変換ロジックの開発が簡素化されます。
SQL をコードとして管理する:
Dataform は Git などのバージョン管理システムをサポートしており、開発者は SQL 変換をコードとして管理できます。
これにより、コラボレーション、コードレビュー、バージョン追跡が向上します。
参照：
データフォームドキュメント
BigQuery ドキュメント
Dataform による ELT パイプラインの管理

Professional-Data-Engineer 試験問題 323

Cloud Machine Learning Engine を使用して自分のパソコンで TensorFlow トレーニングジョブを実行するには、コマンドは何で始まりますか?

A. gcloud ml-engine ローカルトレイン

B. gcloud ml-engine ジョブのトレーニングの送信

C. gcloud ml-engine ジョブの送信トレーニングローカル

D. Cloud ML Engine を使用して、自分のコンピュータ上で TensorFlow プログラムを実行することはできません。

Professional-Data-Engineer 試験問題 324

MJTelcoのケーススタディ
会社概要
MJTelco は、世界中で急速に成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。
同社は革新的な光通信ハードウェアに関する特許を保有しており、これらの特許に基づき、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築することが可能です。
会社概要
経験豊富な通信業界の幹部によって設立されたMJTelcoは、宇宙における通信の課題を克服するために開発された技術を活用しています。事業運営の基盤として、リアルタイム分析を可能にし、機械学習を組み込んだ分散型データインフラストラクチャを構築することで、トポロジーを継続的に最適化する必要があります。ハードウェアは安価であるため、ネットワークを過剰に展開することで、地域情勢の変化が位置情報の可用性とコストに及ぼす影響を考慮に入れる計画です。
同社の管理・運用チームは世界中に拠点を置き、システム内でデータの利用者と提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリッククラウドが自社のニーズを満たす最適な環境であると判断しました。
ソリューションコンセプト
MJTelcoは、自社のラボで概念実証（PoC）プロジェクトを成功裏に実行しています。彼らには主に2つのニーズがあります。
* インストール数が 50,000 を超えると、生成されるデータフローが大幅に増加するため、PoC を拡張して強化します。
* 機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
MJTelco は、実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすために、開発/テスト、ステージング、実稼働の 3 つの個別の運用環境も使用します。
ビジネス要件
* 予測不可能な分散型通信ユーザーコミュニティで必要なときに必要な場所でリソースをインスタンス化し、最小限のコストで実稼働環境を拡張します。
* 最先端の機械学習と分析を保護するために、独自のデータのセキュリティを確保します。
* 分散した研究員から分析のためのデータへの信頼性が高くタイムリーなアクセスを提供する
* 顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
テレメトリデータの安全かつ効率的な転送と保管を確保する
インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ～ 100,000 のデータプロバイダーをサポートします。
1 日あたり約 1 億件のレコードを保存し、最大 2 年間のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にし、テレメトリフローと実稼働学習サイクルの両方でデータパイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEO声明
当社のビジネスモデルは、特許、分析、そして動的機械学習に依存しています。低価格のハードウェアは高い信頼性を実現するよう設計されており、コスト面での優位性をもたらしています。信頼性と容量に関するコミットメントを満たすためには、大規模な分散データパイプラインを迅速に安定化させる必要があります。
CTO声明
パブリッククラウドサービスは宣伝どおりに機能する必要があります。拡張性があり、データの安全性を維持できるリソースが必要です。
また、データサイエンティストがモデルを慎重に研究し、迅速に適応できる環境も必要です。
データ処理には自動化が不可欠であるため、反復作業中に開発環境とテスト環境も機能させる必要があります。
CFO声明
このプロジェクトは規模が大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。また、膨大なデータフィードを監視する運用チームを編成する余裕もないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、当社の定量分析研究者はデータパイプラインの問題ではなく、より価値の高い課題に取り組むことができます。
次の要件を満たす運用チーム向けの視覚化を構成する必要があります。
* テレメトリには、過去 6 週間の 50,000 のインストールすべてからのデータを含める必要があります (1 分ごとにサンプリング)
* レポートはライブデータから 3 時間以上遅延してはなりません。
* 実用的なレポートには、最適ではないリンクのみが表示されます。
* 最適ではないリンクのほとんどは、一番上に並べる必要があります。
* 最適ではないリンクは、地域別にグループ化してフィルタリングできます。
* レポートをロードするためのユーザー応答時間は 5 秒未満である必要があります。
過去6週間分のデータを保存するデータソースを作成し、複数の日付範囲、異なる地理的地域、そして異なる設置タイプを視覚的に表示できるビジュアライゼーションを作成します。ビジュアライゼーションに変更を加えることなく、常に最新のデータを表示します。毎月新しいビジュアライゼーションを作成・更新する手間は省きたいと考えています。どうすればよいでしょうか？

A. 現在のデータを調べて、値の選択を可能にする基準フィルターにバインドされた一般化されたグラフと表の小さなセットを作成します。

B. 現在のデータを調べて、条件の可能な組み合わせごとに 1 つずつ、一連のグラフと表を作成します。

C. データをスプレッドシートにエクスポートし、条件の可能な組み合わせごとに 1 つずつ一連のグラフと表を作成し、複数のタブに分散します。

D. データをリレーショナルデータベーステーブルに読み込み、すべての行をクエリし、各条件でデータを要約し、Google Charts および Visualization API を使用して結果をレンダリングする Google App Engine アプリケーションを作成します。

Professional-Data-Engineer 試験問題 325

特定のテーブルのBigQueryデータを1日に複数回確認する必要があります。クエリ対象のテーブルは数ペタバイト規模ですが、データをフィルタリングし、下流のユーザーにシンプルな集計結果を提供したいと考えています。クエリの実行速度を向上させ、最新のインサイトをより早く得たいと考えています。どうすればよいでしょうか？

A. スケジュールされたクエリを実行して、毎日特定の間隔で必要なデータを取得します。

B. 実行中のクエリに基づいてマテリアライズドビューを作成します。

C. キャッシュされたクエリを使用して結果までの時間を短縮します。

D. 最終結果で取得されるクエリ列を制限します。

Professional-Data-Engineer 試験問題 326

Streaming Engine と水平自動スケーリングを有効にして、Dataflow ストリーミングパイプラインを実行しています。
ワーカーの最大数を1,000に設定しました。パイプラインの入力は、Cloud Storageからの通知を含むPub/Subメッセージです。パイプライン変換の1つはCSVファイルを読み取り、CSV行ごとに要素を出力します。ジョブのパフォーマンスは低く、パイプラインは10個のワーカーしか使用しておらず、オートスケーラーが追加のワーカーを起動していないことがわかります。パフォーマンスを改善するにはどうすればよいでしょうか？

A. Dataflow Prime を使用し、Right Fitting を有効にしてワーカーリソースを増やします。

B. ジョブを更新して、ワーカーの最大数を増やします。

C. 垂直自動スケーリングを有効にして、パイプラインがより大きなワーカーを使用できるようにします。

D. パイプラインコードを変更し、融合を防ぐために Reshuffle ステップを導入します。

他のバージョン: 1455Google.Professional-Data-Engineer.v2025-01-13.q310; 1483Google.Professional-Data-Engineer.v2024-06-07.q281; 1237Google.Professional-Data-Engineer.v2023-09-15.q214; 1699Google.Professional-Data-Engineer.v2022-11-23.q197

最新アップロード: 152Google.Professional-Data-Engineer.v2025-12-29.q327; 112SAP.C_ARP2P_2508.v2025-12-29.q29; 110Appian.ACD201.v2025-12-29.q36; 226ServiceNow.CIS-HAM.v2025-12-27.q212; 160Pegasystems.PEGACPBA24V1.v2025-12-27.q118; 151Microsoft.DP-700.v2025-12-27.q84; 114EXIN.CITM.v2025-12-26.q18; 119Microsoft.GH-100.v2025-12-26.q24; 139PennsylvaniaRealEstateCommission.RePA_Sales_S.v2025-12-26.q37; 117SAP.C_BCBTM_2502.v2025-12-25.q10

Professional-Data-Engineer 試験問題 322

Professional-Data-Engineer 試験問題 323

Professional-Data-Engineer 試験問題 324

Professional-Data-Engineer 試験問題 325

Professional-Data-Engineer 試験問題 326

PDFファイルをダウンロード