Professional-Data-Engineer 試験問題 226

一元化された分析プラットフォームとして BigQuery を使用します。新しいデータが毎日ロードされ、ETL パイプラインが元のデータを変更して、最終ユーザー向けに準備します。この ETL パイプラインは定期的に変更されるため、エラーが発生する可能性がありますが、場合によっては 2 週間後にのみエラーが検出されることがあります。これらのエラーから回復する方法を提供する必要があり、ストレージ コストに合わせてバックアップを最適化する必要があります。BigQuery でデータを整理し、バックアップを保存するにはどうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 227

    次の条件を満たすクラウドネイティブな履歴データ処理システムを設計しています。
    分析されるデータは CSV、Avro、PDF 形式であり、複数の分析によってアクセスされます。

    Cloud Dataproc、BigQuery、Compute Engine などのツール。
    ストリーミング データ パイプラインには、毎日新しいデータが保存されます。

    パフォーマンスはソリューションの要素ではありません。

    ソリューションの設計では、可用性を最大化する必要があります。

    このソリューションのデータ ストレージをどのように設計すべきでしょうか?
  • Professional-Data-Engineer 試験問題 228

    Dataflow プログラムをローカルで実行するために使用できる Java SDK クラスはどれですか?
  • Professional-Data-Engineer 試験問題 229

    あなたは、アプリケーション ログ ファイルを 1 つのログ ファイルにまとめて 1 つのログ ファイルにまとめる製造工場で働いています。
    その日の午前2時。そのログ ファイルを処理する Google Cloud Dataflow ジョブを作成しました。作る必要があります
    ログ ファイルができるだけ低コストで 1 日に 1 回処理されるようにします。あなたは何をするべきか?
  • Professional-Data-Engineer 試験問題 230

    あなたは大規模な不動産会社に勤めており、機械学習に使用する 6 TB の住宅販売データを準備しています。SQL を使用してデータを変換し、BigQuery ML を使用して機械学習モデルを作成します。変換されていない生のデータセットに対する予測にモデルを使用する予定です。予測時のスキューを防ぐためにワークフローをどのように設定すればよいでしょうか?