Professional-Data-Engineer 試験問題 111
あなたは広告会社に勤務しており、広告ブロックのクリックスルー率を予測する Spark ML モデルを開発しました。これまではすべてオンプレミスのデータセンターで開発していましたが、現在、Google Cloud への移行を進めています。データセンターは間もなく閉鎖されるため、迅速なリフト&シフト移行が必要です。ただし、これまで使用していたデータは BigQuery に移行されます。Spark ML モデルは定期的に再トレーニングしているため、既存のトレーニング パイプラインを Google Cloud に移行する必要があります。どうすればよいでしょうか?
Professional-Data-Engineer 試験問題 112
特定の条件が満たされた場合に、ウィンドウのコンテンツをいつ出力するかを決定するデータフロー概念は何ですか?
Professional-Data-Engineer 試験問題 113
Streaming Engine と水平自動スケーリングを有効にして、Dataflow ストリーミング パイプラインを実行しています。
ワーカーの最大数を1,000に設定しました。パイプラインの入力は、Cloud Storageからの通知を含むPub/Subメッセージです。パイプライン変換の1つはCSVファイルを読み取り、CSV行ごとに要素を出力します。ジョブのパフォーマンスは低く、パイプラインは10個のワーカーしか使用しておらず、オートスケーラーが追加のワーカーを起動していないことがわかります。パフォーマンスを改善するにはどうすればよいでしょうか?
ワーカーの最大数を1,000に設定しました。パイプラインの入力は、Cloud Storageからの通知を含むPub/Subメッセージです。パイプライン変換の1つはCSVファイルを読み取り、CSV行ごとに要素を出力します。ジョブのパフォーマンスは低く、パイプラインは10個のワーカーしか使用しておらず、オートスケーラーが追加のワーカーを起動していないことがわかります。パフォーマンスを改善するにはどうすればよいでしょうか?
Professional-Data-Engineer 試験問題 114
あなたのチームは、テラバイト単位のデータを処理する複雑な分析クエリを毎日実行しています。最近、
20分経過後、クエリが「リソース超過」エラーで失敗します。この問題を解決する必要があります。どうすればよいでしょうか?
20分経過後、クエリが「リソース超過」エラーで失敗します。この問題を解決する必要があります。どうすればよいでしょうか?
Professional-Data-Engineer 試験問題 115
仮想プライベートクラウド(VPC)ネットワークの一部としてVMにOracleデータベースをデプロイしています。50個のテーブルをBigQueryにレプリケーションし、継続的に同期したいと考えています。インフラストラクチャの管理を最小限に抑えたいと考えています。どうすればよいでしょうか?

