Professional-Data-Engineer 試験問題 16

Dataproc クラスタ インスタンス上のソフトウェアをカスタマイズする方法ではないものはどれですか。
  • Professional-Data-Engineer 試験問題 17

    MJTelcoのケーススタディ
    会社概要
    MJTelcoは、世界中で急成長を遂げているものの、サービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。同社は革新的な光通信ハードウェアに関する特許を保有しており、これらの特許に基づき、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築することが可能です。
    会社概要
    経験豊富な通信業界の幹部によって設立されたMJTelcoは、宇宙における通信の課題を克服するために開発された技術を活用しています。事業運営の基盤として、リアルタイム分析を可能にし、機械学習を組み込んだ分散型データインフラストラクチャを構築することで、トポロジーを継続的に最適化する必要があります。ハードウェアは安価であるため、ネットワークを過剰に展開することで、地域情勢の変化が位置情報の可用性とコストに及ぼす影響を考慮に入れる計画です。
    同社の管理・運用チームは世界中に拠点を置き、システム内でデータの利用者と提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリッククラウドが自社のニーズを満たす最適な環境であると判断しました。
    ソリューションコンセプト
    MJTelcoは、自社のラボで概念実証(PoC)プロジェクトを成功裏に実行しています。彼らには主に2つのニーズがあります。
    より多くのデータフローを生成するために、PoCを拡張して強化する

    50,000 以上のインストール。
    機械学習サイクルを改良し、制御に使用する動的モデルを検証および改善する

    トポロジの定義。
    MJTelcoは開発/テスト、ステージング、本番の3つの独立した運用環境も使用します。
    - 実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすため。
    ビジネス要件
    最小限のコストで生産環境を拡張し、いつでもどこでもリソースをインスタンス化します。

    予測不可能な分散型通信ユーザーコミュニティに必要です。
    最先端の機械学習と分析を保護するために、独自のデータのセキュリティを確保します。

    分散した研究員に分析用のデータへの信頼性とタイムリーなアクセスを提供する

    機械学習モデルの迅速な反復をサポートする隔離された環境を維持する

    顧客に影響を与えます。
    技術要件
    テレメトリデータの安全かつ効率的な転送と保管を確保する
    インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。
    約2年間分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。
    1日あたり1億件のレコード
    テレメトリ フローと本番学習サイクルの両方でのデータ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
    CEO声明
    当社のビジネスモデルは、特許、分析、そして動的機械学習に依存しています。低価格のハードウェアは高い信頼性を実現するよう設計されており、コスト面での優位性をもたらしています。信頼性と容量に関するコミットメントを満たすためには、大規模な分散データパイプラインを迅速に安定化させる必要があります。
    CTO声明
    当社のパブリッククラウドサービスは、宣伝どおりに機能する必要があります。拡張性とデータの安全性を確保できるリソースが必要です。また、データサイエンティストがモデルを綿密に研究し、迅速に適応できる環境も必要です。データ処理は自動化に依存しているため、開発環境とテスト環境も、反復作業に合わせて適切に機能する必要があります。
    CFO声明
    プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。
    また、膨大なデータフィードを監視する運用チームを編成する余裕はないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、定量分析の研究者はデータパイプラインの問題ではなく、より価値の高い問題に取り組むことができます。
    MJTelcoはデータ共有のためのカスタムインターフェースを構築しています。彼らの要件は次のとおりです。
    1. ペタバイト規模のデータセットを集約する必要がある。
    2. 非常に高速な応答時間 (ミリ秒) で特定の時間範囲の行をスキャンする必要があります。
    どのような Google Cloud Platform 製品の組み合わせを推奨すべきでしょうか?
  • Professional-Data-Engineer 試験問題 18

    Cloud Dataproc 閲覧者はどのようなアクションを実行できますか?
  • Professional-Data-Engineer 試験問題 19

    パブリック HTTPS エンドポイントから Cloud Storage に大量のファイルを移行しています。ファイルは、署名付き URL を使用して不正アクセスから保護されています。オブジェクト URL のリストを含む TSV ファイルを作成し、Storage Transfer Service を使用して転送ジョブを開始しました。ジョブの実行時間が長くなり、最終的に失敗しました。転送ジョブのログを確認すると、ジョブはある時点までは正常に実行されていましたが、残りのファイルで HTTP 403 エラーが発生したため失敗したことがわかります。ソースシステムに変更がないことを確認しました。移行プロセスを再開するには、問題を修正する必要があります。どうすればよいですか?
  • Professional-Data-Engineer 試験問題 20

    機械学習データセットをトレーニング データとテスト データに分割する必要があるのはなぜですか?