Professional-Data-Engineer 試験問題 21
あなたは、メディア ストリーミング サービスであるモバイル アプリケーション用の新しいストレージ システムを展開しています。最適なのは Google Cloud Datastore であると判断します。複数のプロパティを持つエンティティがあり、その一部は複数の値を取ることができます。たとえば、エンティティ「Movie」では、プロパティ「actors」とプロパティ「tags」には複数の値がありますが、プロパティ「date release」には複数の値がありません。一般的なクエリでは、actor=<actorname> を持つすべての映画を date_release 順に並べるか、tag=Comedy を持つすべての映画を date_release 順に要求します。インデックス数の組み合わせ爆発をどのように回避すべきでしょうか?




Professional-Data-Engineer 試験問題 22
オンプレミスの Hadoop システムを Cloud Dataproc に移行したいと考えています。Hive が主に使用されており、データ形式は Optimized Row Columnar (ORC) です。すべての ORC ファイルが Cloud Storage バケットに正常にコピーされました。パフォーマンスを最大化するには、一部のデータをクラスターのローカル Hadoop 分散ファイル システム (HDFS) にレプリケートする必要があります。Cloud Dataproc で Hive の使用を開始する 2 つの方法は何ですか? (2つお選びください。)
Professional-Data-Engineer 試験問題 23
あなたは自動車メーカーに勤務しており、Google Cloud Pub/Sub を使用してデータ パイプラインを設定してキャプチャを行っています。
異常なセンサーイベント。Cloud Pub/Sub でカスタム HTTPS を呼び出すプッシュ サブスクリプションを使用している
これらの異常なイベントが発生したときに対処するために作成したエンドポイント。あなたのカスタム
HTTPS エンドポイントは、過剰な量の重複メッセージを取得し続けます。最も考えられる原因は何ですか
これらの重複メッセージは何ですか?
異常なセンサーイベント。Cloud Pub/Sub でカスタム HTTPS を呼び出すプッシュ サブスクリプションを使用している
これらの異常なイベントが発生したときに対処するために作成したエンドポイント。あなたのカスタム
HTTPS エンドポイントは、過剰な量の重複メッセージを取得し続けます。最も考えられる原因は何ですか
これらの重複メッセージは何ですか?
Professional-Data-Engineer 試験問題 24
Dataflow プログラムをローカルで実行するために使用できる Java SDK クラスはどれですか?
Professional-Data-Engineer 試験問題 25
データ サイエンス チームが分析のために BigQuery 内からクエリできるように、時系列トランザクション データをコピーするデータ パイプラインを作成する必要があります。毎時間、何千ものトランザクションが新しいステータスで更新されます。初期データセットのサイズは 1.5 PB で、1 日あたり 3 TB ずつ増加します。データは高度に構造化されており、データ サイエンス チームはこのデータに基づいて機械学習モデルを構築します。
a.データ サイエンス チームのパフォーマンスと使いやすさを最大化したいと考えています。どの 2 つの戦略を採用する必要がありますか? 答えを 2 つ選択してください。
a.データ サイエンス チームのパフォーマンスと使いやすさを最大化したいと考えています。どの 2 つの戦略を採用する必要がありますか? 答えを 2 つ選択してください。
