Professional-Data-Engineer 試験問題 131
ニューラル ネットワーク モデルのトレーニングには数日かかります。トレーニング速度を上げたい。何ができるでしょうか?
Professional-Data-Engineer 試験問題 132
分析チームは、いくつかの異なる指標に基づいて、どの顧客が再び貴社と協力する可能性が最も高いかを判断するための単純な統計モデルを構築したいと考えています。彼らは、Google Cloud Storage に格納されているデータを使用して Apache Spark でモデルを実行したいと考えており、このジョブの実行には Google Cloud Dataproc の使用を推奨しました。テストの結果、このワークロードは 15 ノードのクラスターで約 30 分で実行でき、結果が Google BigQuery に出力されることがわかりました。計画では、このワークロードを毎週実行します。コストを考慮してクラスターを最適化するにはどうすればよいですか?
Professional-Data-Engineer 試験問題 133
BigQuery には過去 3 年間をカバーする履歴データがあり、毎日新しいデータを BigQuery に配信するデータ パイプラインもあります。データ サイエンス チームが日付列でフィルターされ、3090 日分のデータに制限されたクエリを実行すると、クエリによってテーブル全体がスキャンされることに気づきました。また、請求額が予想よりも早く増加していることにも気づきました。SQL クエリを実行できる機能を維持しながら、できるだけコスト効率よく問題を解決したいと考えています。あなたは何をするべきか?
Professional-Data-Engineer 試験問題 134
Dataflow プログラムをローカルで実行するために使用できる Java SDK クラスはどれですか?
Professional-Data-Engineer 試験問題 135
あなたは、テキスト ファイルを取り込んで変換する Dataflow パイプラインをテストしています。ファイルは gzip 圧縮されており、エラーはデッドレター キューに書き込まれ、Sidelnputs を使用してデータを結合しています。パイプラインの完了に予想よりも時間がかかっていることに気づきました。Dataflow ジョブを迅速化するにはどうすればよいでしょうか?
