Professional-Data-Engineer 試験問題 41
ウェブサーバーは、クリックイベントをPub/Subトピックにメッセージとして送信します。ウェブサーバーは、クリックが発生した時刻を示すイベントのタイムスタンプ属性をメッセージに含めます。このPub/Subトピックからサブスクリプションを介して読み取り、いくつかの変換を適用し、その結果を広告部門が使用する別のPub/Subトピックに書き込むDataflowストリーミングジョブがあります。広告部門は、対応するクリック発生から30秒以内に各メッセージを受信する必要がありますが、メッセージの受信が遅れていると報告されています。Dataflowジョブのシステムラグは約5秒で、データの鮮度は約40秒です。いくつかのメッセージを調べたところ、イベントのタイムスタンプと公開時刻のラグは1秒以内でした。何が問題なのでしょうか?また、どう対処すればよいでしょうか?
Professional-Data-Engineer 試験問題 42
会社のデータプラットフォームは、上流ソースから予約データとユーザープロフィールデータのCSVファイルダンプをCloud Storageに取り込みます。データアナリストチームは、両方のデータセットで利用可能なメールアドレスフィールドでこれらのデータセットを結合し、分析を実行したいと考えています。しかし、個人を特定できる情報(PII)にアナリストがアクセスできないようにする必要があります。アナリスト向けにBigQueryに読み込む前に、両方のデータセットのメールアドレスフィールドを匿名化する必要があります。どうすればよいでしょうか?
Professional-Data-Engineer 試験問題 43
Dataformを使用してBigQueryでELTソリューションを構築しています。最終テーブルに対して一意性チェックとnull値チェックを実行する必要があります。これらのチェックをパイプラインに効率的に統合するにはどうすればよいでしょうか?
Professional-Data-Engineer 試験問題 44
貴社の業界における政府規制では、特定の種類のデータへのアクセスに関する監査可能な記録を保持することが義務付けられています。期限切れのログがすべて適切にアーカイブされると仮定した場合、この義務の対象となるデータはどこに保存すればよいでしょうか?
Professional-Data-Engineer 試験問題 45
現在、BigQuery に保存されているデータを可視化するために SQL ベースのツールを使用しています。データの可視化には、外部結合と分析関数を使用する必要があります。また、可視化は 4 時間以上前のデータに基づいて行う必要があります。ビジネスユーザーからは、可視化の生成が遅すぎるという苦情が寄せられています。データ準備パイプラインのメンテナンスオーバーヘッドを最小限に抑えながら、可視化クエリのパフォーマンスを改善したいと考えています。どうすればよいでしょうか?
