Professional-Data-Engineer 試験問題 151

履歴データは Cloud Storage に保存されます。過去のデータに対して分析を実行する必要がある
a.無効なデータ エントリを検出し、プログラミングや SQL の知識を必要としないデータ変換を実行するソリューションを使用したいと考えています。
あなたは何をするべきか?
  • Professional-Data-Engineer 試験問題 152

    ソフトウェアはすべてのメッセージに単純な JSON 形式を使用します。これらのメッセージは Google Cloud Pub/Sub に公開され、Google Cloud Dataflow で処理されて CFO 用のリアルタイム ダッシュボードが作成されます。
    テスト中に、ダッシュボードに一部のメッセージが表示されないことに気づきました。ログを確認すると、すべてのメッセージが Cloud Pub/Sub に正常にパブリッシュされています。次に何をすべきでしょうか?
  • Professional-Data-Engineer 試験問題 153

    運送会社には、Apache Kafka ストリームにリアルタイムで送信されるライブ荷物追跡データがあります。
    これは次に BigQuery にロードされます。社内のアナリストは、パッケージのライフサイクルにおける地理空間傾向を分析するために、BigQuery の追跡データをクエリしたいと考えています。このテーブルは元々、取り込み日パーティショニングを使用して作成されました。時間の経過とともに、クエリの処理時間は増加しました。BigQuery のクエリ パフォーマンスを向上させる変更を実装する必要があります。あなたは何をするべきか?
  • Professional-Data-Engineer 試験問題 154

    あなたの会社は、WHILECARD テーブルを使用して、類似した名前を持つ複数のテーブルにわたってデータをクエリしています。SQL ステートメントは現在、次のエラーで失敗しています。
    # 構文エラー : ステートメントの終了が予期されましたが、[4:11] で "-" を取得しました SELECT age FROM bigquery-public-data.noaa_gsod.gsod WHERE age != 99 AND_TABLE_SUFFIX = `1929' ORDER BY age DESC どのテーブル名が作成されますかSQL ステートメントは正しく機能しますか?
  • Professional-Data-Engineer 試験問題 155

    あなたの会社では、1 時間あたり 20,000 個のファイルが作成されます。各データ ファイルは、4 KB 未満のカンマ区切り値 (CSV) ファイルとしてフォーマットされます。すべてのファイルは、処理する前に Google Cloud Platform に取り込まれる必要があります。会社のサイトの Google Cloud へのレイテンシは 200 ミリ秒で、インターネット接続の帯域幅は 50 Mbps に制限されています。現在、Google Compute Engine の仮想マシンにデータ取り込みポイントとして安全な FTP (SFTP) サーバーをデプロイしています。ローカルの SFTP クライアントは専用マシン上で動作し、CSV ファイルをそのまま送信します。目標は、前日のデータを含むレポートを幹部が利用できるようにすることです。
    毎日午前10時。この設計は、帯域幅使用率がかなり低いにもかかわらず、かろうじて現在の量に追いつくことができます。
    季節性により、会社ではファイル数が今後 3 か月間で 2 倍になると予想されていると言われています。どの 2 つのアクションを取る必要がありますか? (2つお選びください。)