Professional-Data-Engineer 試験問題 161
スケジュールに従って実行する必要があるいくつかのバッチ ジョブを実装しています。これらのジョブには、特定の順序で実行する必要がある相互依存するステップが多数あります。ジョブの一部には、シェル スクリプトの実行、Hadoop ジョブの実行、BigQuery でのクエリの実行が含まれます。ジョブは数分間から最大で数時間実行されることが予想されます。ステップが失敗した場合は、y を一定回数再試行する必要があります。これらのジョブの実行を管理するにはどのサービスを使用する必要がありますか?
Professional-Data-Engineer 試験問題 162
あなたは、3 つの診療所の数百人の患者を対象とするパイロット プロジェクトとして、患者記録のデータベースを設計しました。
設計では、単一のデータベース テーブルを使用してすべての患者とその訪問を表し、自己結合を使用してレポートを生成しました。サーバーのリソース使用率は 50% でした。それ以来、プロジェクトの範囲は拡大しました。データベースには 100 倍以上の患者記録を保存する必要があります。時間がかかりすぎるか、コンピューティング リソースが不十分なためにエラーが発生するため、レポートを実行できなくなります。データベース設計をどのように調整すればよいでしょうか?
設計では、単一のデータベース テーブルを使用してすべての患者とその訪問を表し、自己結合を使用してレポートを生成しました。サーバーのリソース使用率は 50% でした。それ以来、プロジェクトの範囲は拡大しました。データベースには 100 倍以上の患者記録を保存する必要があります。時間がかかりすぎるか、コンピューティング リソースが不十分なためにエラーが発生するため、レポートを実行できなくなります。データベース設計をどのように調整すればよいでしょうか?
Professional-Data-Engineer 試験問題 163
Dataproc クラスタにプリエンプティブル ワーカーを追加する場合、次のルールのうちどれが適用されますか (回答を 2 つ選択してください)。
Professional-Data-Engineer 試験問題 164
データ サイエンス チームが分析のために BigQuery 内からクエリできるように、時系列トランザクション データをコピーするデータ パイプラインを作成する必要があります。毎時間、何千ものトランザクションが新しいステータスで更新されます。初期データセットのサイズは 1.5 PB で、1 日あたり 3 TB ずつ増加します。データは高度に構造化されており、データ サイエンス チームはこのデータに基づいて機械学習モデルを構築します。データ サイエンス チームのパフォーマンスと使いやすさを最大化したいと考えています。どの 2 つの戦略を採用する必要がありますか?
(2つお選びください。)
(2つお選びください。)
Professional-Data-Engineer 試験問題 165
現在のオンプレミスの Apache Hadoop デプロイメントをクラウドに移行することを計画しています。長時間実行されるバッチ ジョブに対して、展開が可能な限りフォールト トレラントであり、コスト効率が高いことを確認する必要があります。
マネージド サービスを使用したい。あなたは何をするべきか?
マネージド サービスを使用したい。あなたは何をするべきか?
