[2025-01-13更新,310問] 無料Google Professional-Data-Engineer試験問題集、Professional-Data-Engineer日本語関連対策(ページ 36)

Professional-Data-Engineer 試験問題 171

あなたの会社では、Google Cloud Dataflow の学習アルゴリズムのデータ前処理を実行しています。
このステップでは多数のデータログが生成されるため、チームはそれを分析したいと考えています。キャンペーンの動的な性質により、データは 1 時間ごとに指数関数的に増加しています。
データサイエンティストは、ログ内の新しい主要な特徴のデータを読み取るために次のコードを作成しました。
BigQueryIO.読み取り
.named("ログデータの読み取り")
.from("clouddataflow-readonly:samples.log_data")
このデータ読み取りのパフォーマンスを改善したいのですが、どうすればよいでしょうか?

A. Google BigQuery TableSchema クラスと TableFieldSchema クラスの両方を使用します。

B. TableRow オブジェクトを返す変換を呼び出します。PCollection 内の各要素はテーブル内の 1 つの行を表します。

C. .fromQuery 操作を使用して、テーブルから特定のフィールドを読み取ります。

D. コード内で TableReference オブジェクトを指定します。

Professional-Data-Engineer 試験問題 172

ケーススタディ 2 - MJTelco
会社概要
MJTelco は、世界中で急速に成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。
同社は革新的な光通信ハードウェアの特許を保有しており、これらの特許に基づいて、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築できます。
会社概要
経験豊富な通信会社の幹部によって設立された MJTelco は、宇宙での通信の課題を克服するために開発されたテクノロジーを使用しています。同社の業務の基盤となるのは、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データインフラストラクチャを作成することです。ハードウェアは安価であるため、同社はネットワークを過剰に展開して、地域政治の変動が場所の可用性とコストに与える影響を考慮に入れることを計画しています。
同社の管理および運用チームは世界中に配置されており、システム内のデータコンシューマーとデータ提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリッククラウドがニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelco は、自社のラボで概念実証 (PoC) プロジェクトを成功させています。同社には主に 2 つのニーズがあります。
* インストール数が 50,000 を超える場合に生成されるデータフローを大幅に増やせるように、PoC を拡張および強化します。
* 機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
MJTelco は、実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすために、開発/テスト、ステージング、実稼働の 3 つの個別の運用環境も使用します。
ビジネス要件
* 予測不可能な分散型通信ユーザーコミュニティで必要なときに必要な場所でリソースをインスタンス化し、最小限のコストで実稼働環境を拡張します。
* 最先端の機械学習と分析を保護するために、独自のデータのセキュリティを確保します。
* 分散した研究員が分析するためのデータに信頼性とタイムリーなアクセスを提供する
* 顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
* テレメトリデータの安全かつ効率的な転送と保存を確保する
* インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ～ 100,000 のデータプロバイダーをサポートします。
* 約2年分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。
1日あたり1億件のレコード
* テレメトリフローと実稼働学習サイクルの両方でのデータパイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEOの声明
当社のビジネスモデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されており、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データパイプラインを迅速に安定化する必要があります。
CTO 声明
当社のパブリッククラウドサービスは、宣伝どおりに機能する必要があります。拡張可能で、データを安全に保つリソースが必要です。また、データサイエンティストがモデルを慎重に研究し、迅速に適応できる環境も必要です。当社はデータの処理を自動化に依存しているため、反復しながら機能する開発環境とテスト環境も必要です。
CFOの声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。
また、膨大なデータフィードを監視するために運用チームを配置する余裕はないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、当社の定量研究者はデータパイプラインの問題ではなく、価値の高い問題に取り組むことができます。
MJTelco が 1 日に取り込むことに関心のあるレコードストリームを考えると、Google BigQuery のコストが増大することを懸念しています。MJTelco は、設計ソリューションの提供を求めています。必要なのは、tracking_table と呼ばれる 1 つの大きなデータテーブルです。さらに、毎日のイベントのきめ細かな分析を実行しながら、毎日のクエリのコストを最小限に抑えたいと考えています。また、ストリーミング取り込みも使用したいと考えています。どうすればよいですか?

A. 日を表す TIMESTAMP 列を持つ、tracking_table というテーブルを作成します。

B. パターンtracking_table_YYYYMMDDに従って、各日のシャードテーブルを作成します。

C. tracking_table というパーティションテーブルを作成し、TIMESTAMP 列を含めます。

D. 「tracking_table」というテーブルを作成し、DATE 列を含めます。

Professional-Data-Engineer 試験問題 173

時系列トランザクションデータをコピーするデータパイプラインを作成し、データサイエンスチームが BigQuery 内からクエリを実行して分析できるようにする必要があります。1 時間ごとに、数千のトランザクションが新しいステータスで更新されます。初期データセットのサイズは 1.5 PB で、1 日あたり 3 TB ずつ増加します。データは高度に構造化されており、データサイエンスチームはこのデータに基づいて機械学習モデルを構築します。データサイエンスチームのパフォーマンスと使いやすさを最大化したいと考えています。採用すべき 2 つの戦略はどれですか。
（2つ選択してください。）

A. ステータスの更新が BigQuery に更新されるのではなく追加されるデータパイプラインを開発します。

B. 可能な限りデータの構造を保持します。

C. トランザクションデータの毎日のスナップショットを Cloud Storage にコピーし、Avro ファイルとして保存します。BigQuery の外部データソースサポートを使用してクエリを実行します。

D. データを可能な限り非正規化します。

E. BigQuery UPDATE を使用してデータセットのサイズをさらに縮小します。

Professional-Data-Engineer 試験問題 174

1000 個のセンサーのネットワークがあります。センサーは時系列データ (1 秒あたり 1 つのセンサーあたり 1 つのメトリックとタイムスタンプ) を生成します。すでに 1 TB のデータがあり、毎日 1 GB ずつデータが増えると予想されます。このデータには 2 つの方法でアクセスする必要があります。最初のアクセスパターンでは、特定のタイムスタンプで保存された特定のセンサーからメトリックを取得する必要があります。平均 1 桁のミリ秒のレイテンシが必要です。2 番目のアクセスパターンでは、結合を含む複雑な分析クエリを 1 日に 1 回データに対して実行する必要があります。このデータをどのように保存すればよいでしょうか。

A. データを Bigtable に保存します。センサー ID とタイムスタンプを連結して行キーとして使用します。毎日 BigQuery へのエクスポートを実行します。

B. データを BigQuery に保存します。センサー ID とタイムスタンプを連結し、主キーとして使用します。

C. データを Bigtable に保存します。センサー ID とメトリックを連結し、行キーとして使用します。毎日 BigQuery へのエクスポートを実行します。

D. データを BigQuery に保存します。指標を主キーとして使用します。

正解: A

両方のアクセスパターンを満たす方法でデータを保存するには、次の操作を行う必要があります。
* A. データを Bigtable に保存するセンサー ID とタイムスタンプを連結し、それを行キーとして使用します。BigQuery へのエクスポートを毎日実行します。このオプションを使用すると、Bigtable の高パフォーマンスとスケーラビリティを活用してセンサーデータに対する低レイテンシのポイントクエリを実行できるほか、BigQuery の強力な分析機能を活用して大規模なデータセットに対する複雑なクエリを実行できます。センサー ID とタイムスタンプを行キーとして使用することで、データが Bigtable ノード間で均等に並べ替えられ、分散されることを保証できます。また、特定のセンサーと時間の指標を簡単に取得できます。BigQuery へのエクスポートを毎日実行することで、分析クエリに最適化された列指向のストレージ形式にデータを転送し、パーティション分割、クラスタリング、キャッシュなどの BigQuery の機能を活用できます。
* B. データを BigQuery に保存するセンサー ID とタイムスタンプを連結し、それを主キーとして使用します。BigQuery は低レイテンシのポイントクエリ用に設計されていないため、連結された主キーを使用するとパフォーマンスが低下し、コストが高くなる可能性があるため、このオプションは最適ではありません。BigQuery は主キーをネイティブでサポートしていないため、一意性を強化するには一意制約またはハッシュ関数を使用する必要があります。さらに、BigQuery はスキャンされたデータの量に応じて課金されるため、長くて複雑な主キーを使用すると、クエリのコストと複雑さが増す可能性があります。
* C. データを Bigtable に保存するセンサー ID とメトリックを連結し、それを行キーとして使用します。BigQuery へのエクスポートを毎日実行します。このオプションは最適ではありません。センサー ID とメトリックを行キーとして使用すると、一部のセンサーが他のセンサーよりも多くのメトリックを生成したり、一部のメトリックが他のメトリックよりも一般的であったりするため、Bigtable でデータの偏りやホットスポットが発生する可能性があります。これにより、Bigtable のパフォーマンスと可用性、および BigQuery へのエクスポートの効率に影響する可能性があります。
* D. データを BigQuery に保存します。指標を主キーとして使用します。指標を主キーとして使用すると、複数のセンサーが異なる時間に同じ指標を生成したり、同じセンサーが同時に異なる指標を生成したりして、BigQuery でデータの重複や不整合が発生する可能性があるため、このオプションは最適ではありません。これにより、分析クエリの精度と信頼性、およびクエリのコストと複雑さが影響を受ける可能性があります。

Professional-Data-Engineer 試験問題 175

ACID 準拠のデータベースを必要とするシステムを設計しています。障害が発生した場合にシステムに必要な人的介入を最小限に抑える必要があります。どうすればよいでしょうか。

A. ポイントインタイムリカバリを有効にして Cloud SQL for MySQL インスタンスを構成します。

B. 高可用性を有効にして Cloud SQL for PostgreSQL インスタンスを構成します。

C. 複数のクラスタを持つ Bigtable インスタンスを構成します。

D. マルチリージョン構成で BJgQuery テーブルを構成します。

Professional-Data-Engineer プレミアム問題集

365日無料更新
専門家プレゼンツ
403 問題と解答
Windows / Mac / Android / iOS　などをサポート

最新 Google Professional-Data-Engineer 試験問題集は GoShiken.com のサポートで Professional-Data-Engineer 試験を合格させます！

(40%OFF 特別割引: JPNPDF)

今すぐダウンロード

他のバージョン: 591Google.Professional-Data-Engineer.v2026-05-11.q113; 980Google.Professional-Data-Engineer.v2025-12-29.q327; 2385Google.Professional-Data-Engineer.v2024-06-07.q281; 1913Google.Professional-Data-Engineer.v2023-09-15.q214; 2287Google.Professional-Data-Engineer.v2022-11-23.q197

最新アップロード: 112Workday.Workday-Pro-Talent-and-Performance.v2026-06-20.q18; 131Fortinet.NSE4_FGT_AD-7.6.v2026-06-20.q64; 115EMC.D-ISM-FN-01.v2026-06-20.q22; 135F5.F5CAB5.v2026-06-19.q20; 123SAP.C_P2W52_2410.v2026-06-19.q29; 139Scrum.PSM-III.v2026-06-18.q13; 168Oracle.1z0-1033-25.v2026-06-18.q45; 149Salesforce.Mule-101.v2026-06-17.q19; 151Citrix.1Y0-204.v2026-06-17.q142; 265CrowdStrike.CCCS-203b.v2026-06-16.q114