Professional-Data-Engineer 試験問題 226
一元化された分析プラットフォームとして BigQuery を使用します。新しいデータが毎日ロードされ、ETL パイプラインが元のデータを変更して、最終ユーザー向けに準備します。この ETL パイプラインは定期的に変更されるため、エラーが発生する可能性がありますが、場合によっては 2 週間後にのみエラーが検出されることがあります。これらのエラーから回復する方法を提供する必要があり、ストレージ コストに合わせてバックアップを最適化する必要があります。BigQuery でデータを整理し、バックアップを保存するにはどうすればよいでしょうか?
Professional-Data-Engineer 試験問題 227
次の条件を満たすクラウドネイティブな履歴データ処理システムを設計しています。
分析されるデータは CSV、Avro、PDF 形式であり、複数の分析によってアクセスされます。

Cloud Dataproc、BigQuery、Compute Engine などのツール。
ストリーミング データ パイプラインには、毎日新しいデータが保存されます。

パフォーマンスはソリューションの要素ではありません。

ソリューションの設計では、可用性を最大化する必要があります。

このソリューションのデータ ストレージをどのように設計すべきでしょうか?
分析されるデータは CSV、Avro、PDF 形式であり、複数の分析によってアクセスされます。

Cloud Dataproc、BigQuery、Compute Engine などのツール。
ストリーミング データ パイプラインには、毎日新しいデータが保存されます。

パフォーマンスはソリューションの要素ではありません。

ソリューションの設計では、可用性を最大化する必要があります。

このソリューションのデータ ストレージをどのように設計すべきでしょうか?
Professional-Data-Engineer 試験問題 228
Dataflow プログラムをローカルで実行するために使用できる Java SDK クラスはどれですか?
Professional-Data-Engineer 試験問題 229
あなたは、アプリケーション ログ ファイルを 1 つのログ ファイルにまとめて 1 つのログ ファイルにまとめる製造工場で働いています。
その日の午前2時。そのログ ファイルを処理する Google Cloud Dataflow ジョブを作成しました。作る必要があります
ログ ファイルができるだけ低コストで 1 日に 1 回処理されるようにします。あなたは何をするべきか?
その日の午前2時。そのログ ファイルを処理する Google Cloud Dataflow ジョブを作成しました。作る必要があります
ログ ファイルができるだけ低コストで 1 日に 1 回処理されるようにします。あなたは何をするべきか?
Professional-Data-Engineer 試験問題 230
あなたは大規模な不動産会社に勤めており、機械学習に使用する 6 TB の住宅販売データを準備しています。SQL を使用してデータを変換し、BigQuery ML を使用して機械学習モデルを作成します。変換されていない生のデータセットに対する予測にモデルを使用する予定です。予測時のスキューを防ぐためにワークフローをどのように設定すればよいでしょうか?
