Professional-Data-Engineer 試験問題 26

キャンセルしたい仕事があります。これはストリーミング パイプラインであり、処理中のデータが確実に処理されて出力に書き込まれるようにする必要があります。Dataflow モニタリング コンソールでパイプライン ジョブを停止するには、次のコマンドのうちどれを使用できますか?
  • Professional-Data-Engineer 試験問題 27

    組織が GCP の使用を拡大するにつれて、多くのチームが独自のプロジェクトを作成し始めています。導入のさまざまな段階や対象ユーザーに対応するために、プロジェクトはさらに複数化されます。各プロジェクトには固有のアクセス制御構成が必要です。中央の IT チームはすべてのプロジェクトにアクセスできる必要があります。さらに、Cloud Storage バケットと BigQuery データセットのデータは、他のプロジェクトで使用するためにアドホックな方法で共有する必要があります。ポリシーの数を最小限に抑えて、アクセス制御管理を簡素化したいと考えています。どの 2 つのステップを実行する必要がありますか? 答えを 2 つ選択してください。
  • Professional-Data-Engineer 試験問題 28

    あなたは自動車メーカーに勤めており、異常なセンサー イベントをキャプチャするために Google Cloud Pub/Sub を使用してデータ パイプラインを設定しました。Cloud Pub/Sub でプッシュ サブスクリプションを使用しています。このプッシュ サブスクリプションは、これらの異常なイベントの発生時にアクションを実行するために作成したカスタム HTTPS エンドポイントを呼び出します。カスタム HTTPS エンドポイントは、膨大な量の重複メッセージを受信し続けます。このような重複メッセージの最も可能性の高い原因は何ですか?
  • Professional-Data-Engineer 試験問題 29

    データ ウェアハウスとして Google BigQuery を使用しています。ユーザーは、クエリを実行するタイミングに関係なく、次の単純なクエリの実行が非常に遅いと報告しています。
    SELECT country, state, city FROM [myproject:mydataset.mytable] GROUP BY country クエリのクエリ プランを確認すると、Stage:1 の Read セクションに次の出力が表示されます。

    このクエリの遅延の最も考えられる原因は何ですか?
  • Professional-Data-Engineer 試験問題 30

    あなたの会社は、Google Cloud Dataflow で学習アルゴリズムのデータ前処理を実行しています。
    このステップ中に多数のデータ ログが生成されており、チームはそれらを分析したいと考えています。
    キャンペーンの動的な性質により、データは時間ごとに指数関数的に増加しています。
    データ サイエンティストは、ログ内の新しい重要な機能のデータを読み取るために次のコードを作成しました。
    BigQueryIO.Read
    .named("ReadLogData")
    .from("clouddataflow-readonly:samples.log_data")
    このデータ読み取りのパフォーマンスを向上させたいと考えています。あなたは何をするべきか?