Professional-Data-Engineer 試験問題 196

アナリティクスチームは、いくつかの異なる指標に基づいて、どの顧客が再び貴社と取引する可能性が最も高いかを判断するためのシンプルな統計モデルを構築したいと考えています。チームは、Google Cloud Storage に格納されているデータを使用して、Apache Spark でモデルを実行したいと考えています。このジョブの実行には Google Cloud Dataproc の使用を推奨しています。テストの結果、このワークロードは 15 ノードのクラスタで約 30 分で実行でき、結果は Google BigQuery に出力されることが確認されました。このワークロードは毎週実行する予定です。
コストの観点からクラスターを最適化するにはどうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 197

    JdbclO を使用して Cloud SQL インスタンスからデータを抽出する Apache Beam パイプラインを開発しています。Google Cloud で 2 つのプロジェクトを実行しています。パイプラインはプロジェクト A の Dataflow にデプロイされ、実行されます。
    Cloud SQL インスタンスはプロジェクト B で実行されており、パブリック IP アドレスを持っていません。パイプラインをデプロイした後、接続エラーのためパイプラインが Cloud SQL インスタンスからデータを抽出できないことに気付きました。これらのプロジェクトでは VPC Service Controls と共有 VPC が使用されていないことを確認しました。データがパブリックインターネットを経由しないようにしながら、このエラーを解決したいと考えています。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 198

    あなたはeコマース企業向けのカート放棄システムを設計しています。このシステムは、以下のルールに基づいてユーザーにメッセージを送信します。
    * 1時間、サイト上でユーザーによるインタラクションがない
    * 30ドル以上の商品をカートに追加した
    * 取引が完了していない
    Google Cloud Dataflow を使用してデータを処理し、メッセージを送信するかどうかを決定します。パイプラインはどのように設計すればよいでしょうか?
  • Professional-Data-Engineer 試験問題 199

    配送会社には、Apache Kafka ストリームにリアルタイムで送信されるライブパッケージ追跡データがあります。
    その後、このデータはBigQueryに読み込まれます。社内のアナリストは、パッケージのライフサイクルにおける地理空間の傾向を分析するために、BigQueryの追跡データに対してクエリを実行したいと考えています。テーブルは元々、取り込み日によるパーティショニングで作成されていました。時間が経つにつれて、クエリの処理時間が増加しています。BigQueryのクエリパフォーマンスを向上させる変更を実装する必要があります。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 200

    Dataflow パイプラインについて正しくないものは次のどれですか。