Professional-Data-Engineer 試験問題 146
データ ウェアハウスを Google Cloud に移行し、オンプレミスのデータセンターを廃止します。これは会社の優先事項であるため、クラウドへの初期データ ロード用に帯域幅が利用可能になることはわかっています。転送されるファイルの数は多くありませんが、各ファイルは 90 GB です。さらに、トランザクション システムで Google Cloud のウェアハウスをリアルタイムで継続的に更新する必要があります。データを移行し、ウェアハウスへの書き込みが継続されるようにするには、どのようなツールを使用すればよいでしょうか。
Professional-Data-Engineer 試験問題 147
You are designing the database schema for a machine learning-based food ordering service that will predict what users want to eat. Here is some of the information you need to store:
* The user profile: What the user likes and doesn't like to eat
* The user account information: Name, address, preferred meal times
* The order information: When orders are made, from where, to whom
The database will be used to store all the transactional data of the product. You want to optimize the data schema. Which Google Cloud Platform product should you use?
* The user profile: What the user likes and doesn't like to eat
* The user account information: Name, address, preferred meal times
* The order information: When orders are made, from where, to whom
The database will be used to store all the transactional data of the product. You want to optimize the data schema. Which Google Cloud Platform product should you use?
Professional-Data-Engineer 試験問題 148
スケーラブルな方法でデータを収集する必要がある新しいアプリケーションを構築しています。データは一日中アプリケーションから継続的に到着し、年末までに 1 日あたり約 150 GB の JSON データを生成することが予想されます。要件は次のとおりです。
* 生産者と消費者の分離
* 取り込んだ生のデータを、スペースとコスト効率に優れた方法で保存し、無期限に保存する
* ほぼリアルタイムのSQLクエリ
* 少なくとも 2 年間の履歴データを保持し、SQL でクエリを実行します。これらの要件を満たすにはどのパイプラインを使用する必要がありますか?
* 生産者と消費者の分離
* 取り込んだ生のデータを、スペースとコスト効率に優れた方法で保存し、無期限に保存する
* ほぼリアルタイムのSQLクエリ
* 少なくとも 2 年間の履歴データを保持し、SQL でクエリを実行します。これらの要件を満たすにはどのパイプラインを使用する必要がありますか?
Professional-Data-Engineer 試験問題 149
Bigtable アクセス ロールに関して正しくない記述は次のどれですか。
Professional-Data-Engineer 試験問題 150
Hadoop ジョブをオンプレミス クラスタから Dataproc と GCS に移行しました。Spark ジョブは、多数のシャッフィング操作で構成される複雑な分析ワークロードであり、初期データは parquet ファイル (平均 200 ~ 3000 バイト) です。
それぞれ 400 MB のサイズです)。Dataproc への移行後にパフォーマンスが低下したため、最適化したいと考えています。組織はコストに非常に敏感であることに留意する必要があるため、このワークロードでは引き続きプリエンプティブ (非プリエンプティブ ワーカー 2 台のみ) で Dataproc を使用する必要があります。
何をすべきでしょうか?
それぞれ 400 MB のサイズです)。Dataproc への移行後にパフォーマンスが低下したため、最適化したいと考えています。組織はコストに非常に敏感であることに留意する必要があるため、このワークロードでは引き続きプリエンプティブ (非プリエンプティブ ワーカー 2 台のみ) で Dataproc を使用する必要があります。
何をすべきでしょうか?
