Professional-Data-Engineer 試験問題 156
あなたの会社では、独自のシステムを使用して、6 時間ごとに在庫データをクラウドのデータ取り込みサービスに送信しています。送信されるデータには、いくつかのフィールドのペイロードと送信のタイムスタンプが含まれます。送信に関して懸念事項がある場合、システムはデータを再送信します。データを最も効率的に重複排除するにはどうすればよいでしょうか。
Professional-Data-Engineer 試験問題 157
プライベートユーザーデータを含む機密プロジェクトに取り組んでいます
Professional-Data-Engineer 試験問題 158
ニューラル ネットワークにカテゴリ特徴のカテゴリ間の関係を学習させるにはどうすればよいでしょうか?
Professional-Data-Engineer 試験問題 159
スケーラブルな方法でデータを収集する必要がある新しいアプリケーションを構築しています。データは一日中アプリケーションから継続的に到着し、年末までに 1 日あたり約 150 GB の JSON データを生成することが予想されます。要件は次のとおりです。
* 生産者と消費者の分離
* 取り込んだ生のデータを、スペースとコスト効率に優れた方法で保存し、無期限に保存する
* ほぼリアルタイムのSQLクエリ
* 少なくとも 2 年間の履歴データを保持し、SQL でクエリを実行します。これらの要件を満たすにはどのパイプラインを使用する必要がありますか?
* 生産者と消費者の分離
* 取り込んだ生のデータを、スペースとコスト効率に優れた方法で保存し、無期限に保存する
* ほぼリアルタイムのSQLクエリ
* 少なくとも 2 年間の履歴データを保持し、SQL でクエリを実行します。これらの要件を満たすにはどのパイプラインを使用する必要がありますか?
Professional-Data-Engineer 試験問題 160
次の条件を満たすクラウドネイティブの履歴データ処理システムを設計しています。
* 分析対象のデータは CSV、Avro、PDF 形式であり、Cloud Dataproc、BigQuery、Compute Engine などの複数の分析ツールからアクセスされます。
* ストリーミング データ パイプラインは毎日新しいデータを保存します。
* パフォーマンスはソリューションの要素ではありません。
* ソリューション設計では可用性を最大化する必要があります。
このソリューションのデータストレージをどのように設計すればよいでしょうか?
* 分析対象のデータは CSV、Avro、PDF 形式であり、Cloud Dataproc、BigQuery、Compute Engine などの複数の分析ツールからアクセスされます。
* ストリーミング データ パイプラインは毎日新しいデータを保存します。
* パフォーマンスはソリューションの要素ではありません。
* ソリューション設計では可用性を最大化する必要があります。
このソリューションのデータストレージをどのように設計すればよいでしょうか?
