[2025-12-29更新,327問] 無料Google Professional-Data-Engineer試験問題集、Professional-Data-Engineer技術内容(ページ 35)

Professional-Data-Engineer 試験問題 166

数百万台のコンピューターのCPUとメモリの使用状況を時系列で保存するためのデータベースを選択する必要があります。このデータは1秒間隔でサンプリングして保存する必要があります。アナリストは、このデータベースに対してリアルタイムのアドホック分析を実行することになります。クエリ実行ごとに課金されることを避け、スキーマ設計によってデータセットの将来的な拡張に対応できるようにする必要があります。どのデータベースとデータモデルを選択すべきでしょうか？

A. BigQuery にテーブルを作成し、CPU とメモリの新しいサンプルをテーブルに追加します。

B. BigQuery で幅の広いテーブルを作成し、毎秒のサンプル値の列を作成し、毎秒の間隔で行を更新します。

C. Cloud Bigtable に、Computer Engine のコンピュータ識別子と毎秒のサンプル時間を組み合わせた行キーを持つナローテーブルを作成します。

D. Cloud Bigtable に、コンピュータ ID と各分のサンプル時間を結合した行キーを持つワイドテーブルを作成し、各秒の値を列データとして結合します。

Professional-Data-Engineer 試験問題 167

テーブルをBigQueryに移行し、データモデルを変更しています。テーブルには、複数の店舗で行われた購入に関する情報が格納されており、取引の時刻、購入商品、店舗ID、店舗所在地の市区町村などの情報が含まれています。このテーブルに対して頻繁にクエリを実行し、過去30日間に各商品が何個販売されたかを確認したり、市区町村別、店舗別の購入傾向を確認したりしています。このテーブルをモデル化して、クエリ時間とコストを最小限に抑えたいと考えています。どうすればよいでしょうか？

A. 最初に店舗 ID、次に都市、最後に州によるトップレベルのクラスター。

B. 最初に店舗ID、次に都市、最後に古い順にトランザクショントームクラスターを分割します。

C. 取引時間でパーティション分割し、最初に州、次に都市、最後に店舗IDでクラスタ化します。

D. 最上位のクラスターは、まず古い順に、次に都市順に、最後に店舗順に並べられます。

Professional-Data-Engineer 試験問題 168

オンプレミスクラスタから Hadoop ジョブを Dataproc と GCS に移行しました。Spark ジョブは、多数のシャッフィング操作で構成される複雑な分析ワークロードで、初期データは Parquet ファイル（平均 200～400 MB）です。Dataproc への移行後、パフォーマンスに若干の低下が見られるため、最適化を検討しています。組織はコストに非常に敏感であるため、このワークロードでは引き続きプリエンプティブワーカー（非プリエンプティブワーカー 2 台のみ）で Dataproc を使用する予定です。
何をすべきでしょうか?

A. parquet ファイルのサイズを増やして、最低 1 GB になるようにします。

B. HDD から SSD に切り替え、初期データを GCS から HDFS にコピーし、Spark ジョブを実行して結果を GCS にコピーします。

C. parquet ファイルの代わりに TFRecords 形式 (ファイルあたり約 200 MB) に切り替えます。

D. HDD から SSD に切り替え、プリエンプティブ VM の構成をオーバーライドしてブートディスクのサイズを増やします。

Professional-Data-Engineer 試験問題 169

フローロジスティックのケーススタディ
会社概要
Flowlogisticは、物流およびサプライチェーンのリーディングプロバイダーです。世界中の企業のリソース管理と最終目的地への輸送を支援しています。同社は急成長を遂げ、鉄道、トラック、航空機、海上輸送など、サービスを拡大しています。
会社概要
当社は地域のトラック輸送会社としてスタートし、その後他の物流市場へ拡大しました。
インフラの更新が遅れているため、注文と出荷の管理・追跡がボトルネックとなっています。Flowlogisticは業務改善のため、荷物レベルでの出荷をリアルタイムに追跡する独自の技術を開発しました。しかし、Apache Kafkaをベースとした既存の技術スタックでは処理量に対応できないため、導入に至っていません。さらに、Flowlogisticは注文と出荷をさらに分析し、最適なリソース配分方法を検討したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
リアルタイム在庫追跡システムで独自の技術を使用し、在庫の位置を表示します。

彼らの荷物
構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析します。

データを活用することで、最適なリソース配分方法や、どの市場への情報展開を行うべきかを判断できます。また、予測分析を活用して、出荷の遅延を早期に把握したいと考えています。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータセンターに存在します。
データベース

2つのクラスターに8台の物理サーバー
- SQL Server - ユーザーデータ、インベントリ、静的データ
物理サーバー3台
- Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
アプリケーションサーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア

20台の物理サーバーにまたがる60台の仮想マシン
- Tomcat - Javaサービス
- Nginx - 静的コンテンツ
- バッチサーバー
ストレージアプライアンス

- 仮想マシン (VM) ホスト用の iSCSI
- ファイバーチャネルストレージエリアネットワーク（FC SAN） - SQLサーバーストレージ
- ネットワーク接続ストレージ（NAS）イメージストレージ、ログ、バックアップ
Apache Hadoop /Spark サーバー

- コアデータレイク
- データ分析ワークロード
その他サーバー20台

- Jenkins、監視、要塞ホスト、
ビジネス要件
スケールされた生産パンティを備えた信頼性が高く再現可能な環境を構築します。

分析のために集中管理されたデータレイクにデータを集約する

過去のデータを使用して将来の出荷の予測分析を実行する

独自の技術を使用して、世界中のすべての出荷を正確に追跡します

新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上します。

クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する

他のすべての要件が満たされている場合は、クラウドに完全に移行します。

技術要件
ストリーミングとバッチデータの両方を処理

既存のHadoopワークロードを移行する

企業の変化する要求を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。

可能な限りマネージドサービスを利用する

飛行中および保存中のデータを暗号化

本番データセンターとクラウド環境の間にVPNを接続する

SEOステートメント
当社は急速な成長を遂げたため、インフラのアップグレードができず、それがさらなる成長と効率化の妨げとなっています。世界中への貨物輸送は効率的ですが、データの移動は非効率です。
顧客がどこにいるのか、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO声明
ITは当社にとってこれまで優先事項ではありませんでした。そのため、データの増加に伴い、テクノロジーへの投資が不十分になっていました。IT管理を担当する優秀なスタッフはいますが、彼らはインフラ管理に忙殺されており、データの整理、分析機能の構築、CFOのトラッキングテクノロジーの導入方法の検討といった、本当に重要な業務に時間を割くことができません。
CFO声明
当社の競争優位性の一つは、出荷・納品の遅延に対して自らペナルティを課すことです。出荷品の現在位置を常に把握することは、当社の収益性と直接的な相関関係にあります。
さらに、サーバー環境の構築に資本を投入したくありません。
Flowlogistic社のCEOは、顧客基盤に関する迅速なインサイトを獲得し、営業チームが現場でより的確な情報提供ができるようしたいと考えています。このチームは技術にあまり詳しくないため、BigQueryレポートの作成を簡素化するために可視化ツールを導入しました。しかし、テーブル内の膨大なデータに圧倒され、必要なデータを見つけるためのクエリに多大なコストがかかっています。あなたは、この課題を最も費用対効果の高い方法で解決したいと考えています。どうすればよいでしょうか？

A. 必要な列のみを含む追加のテーブルを作成します。

B. 仮想化ツールに提示するテーブルにビューを作成します。

C. 仮想化のためにデータを Google スプレッドシートにエクスポートします。

D. 適切な列に ID およびアクセス管理 (IAM) ロールを作成し、それらのロールのみがクエリに表示されるようにします。

Professional-Data-Engineer 試験問題 170

BigQueryのデータセットを分析に使用しています。サードパーティ企業にも同じデータセットへのアクセスを提供したいと考えています。データ共有コストを抑え、データの最新性を確保する必要があります。どのソリューションを選択すべきでしょうか？

A. BigQuery テーブルに承認済みビューを作成してデータアクセスを制御し、サードパーティ企業にそのビューへのアクセスを提供します。

B. Cloud Scheduler を使用してデータを定期的に Cloud Storage にエクスポートし、サードパーティ企業にバケットへのアクセス権を付与します。

C. 共有する関連データを含む別のデータセットを BigQuery に作成し、サードパーティ企業に新しいデータセットへのアクセスを提供します。

D. 頻繁な時間間隔でデータを読み取り、サードパーティ企業が使用できるように関連する BigQuery データセットまたは Cloud Storage バケットに書き込む Cloud Dataflow ジョブを作成します。

他のバージョン: 579Google.Professional-Data-Engineer.v2026-05-11.q113; 2315Google.Professional-Data-Engineer.v2025-01-13.q310; 2353Google.Professional-Data-Engineer.v2024-06-07.q281; 1884Google.Professional-Data-Engineer.v2023-09-15.q214; 2279Google.Professional-Data-Engineer.v2022-11-23.q197

最新アップロード: 120Scrum.PSM-III.v2026-06-18.q13; 134Oracle.1z0-1033-25.v2026-06-18.q45; 127Salesforce.Mule-101.v2026-06-17.q19; 144Citrix.1Y0-204.v2026-06-17.q142; 178CrowdStrike.CCCS-203b.v2026-06-16.q114; 142WGU.Operations-Management.v2026-06-16.q23; 202EC-COUNCIL.312-49v11.v2026-06-16.q204; 259Microsoft.PL-300.v2026-06-16.q439; 152Fortinet.FCSS_LED_AR-7.6.v2026-06-16.q43; 212CheckPoint.156-215.82.v2026-06-15.q106

Professional-Data-Engineer 試験問題 166

Professional-Data-Engineer 試験問題 167

Professional-Data-Engineer 試験問題 168

Professional-Data-Engineer 試験問題 169

Professional-Data-Engineer 試験問題 170

PDFファイルをダウンロード