Professional-Data-Engineer 試験問題 11
BigQuery で処理される行数を減らすにはどのような方法を使用できますか?
Professional-Data-Engineer 試験問題 12
世界中の何百万ものデバイスから IoT センサー データを収集し、そのデータを BigQuery に保存しています。
アクセス パターンは、次のクエリを使用して location_id と device_version で評価された最近のデータに基づいています。
コストとパフォーマンスの観点からクエリを最適化したい場合、データをどのように構造化すればよいでしょうか?
アクセス パターンは、次のクエリを使用して location_id と device_version で評価された最近のデータに基づいています。
コストとパフォーマンスの観点からクエリを最適化したい場合、データをどのように構造化すればよいでしょうか?
Professional-Data-Engineer 試験問題 13
MJTelcoのケーススタディ
会社概要
MJTelco は、世界中で急速に成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。
同社は革新的な光通信ハードウェアに関する特許を保有しており、これらの特許に基づき、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築することが可能です。
会社概要
経験豊富な通信業界の幹部によって設立されたMJTelcoは、宇宙における通信の課題を克服するために開発された技術を活用しています。事業運営の基盤として、リアルタイム分析を可能にし、機械学習を組み込んだ分散型データインフラストラクチャを構築することで、トポロジーを継続的に最適化する必要があります。ハードウェアは安価であるため、ネットワークを過剰に展開することで、地域情勢の変化が位置情報の可用性とコストに及ぼす影響を考慮に入れる計画です。
同社の管理・運用チームは世界中に拠点を置き、システム内でデータの利用者と提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリッククラウドが自社のニーズを満たす最適な環境であると判断しました。
ソリューションコンセプト
MJTelcoは、自社のラボで概念実証(PoC)プロジェクトを成功裏に実行しています。彼らには主に2つのニーズがあります。
* インストール数が 50,000 を超えると、生成されるデータ フローが大幅に増加するため、PoC を拡張して強化します。
* 機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
MJTelco は、実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすために、開発/テスト、ステージング、実稼働の 3 つの個別の運用環境も使用します。
ビジネス要件
* 予測不可能な分散型通信ユーザー コミュニティで必要なときに必要な場所でリソースをインスタンス化し、最小限のコストで実稼働環境を拡張します。
* 最先端の機械学習と分析を保護するために、独自のデータのセキュリティを確保します。
* 分散した研究員から分析のためのデータへの信頼性が高くタイムリーなアクセスを提供する
* 顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
* テレメトリデータの安全かつ効率的な転送と保管を確保する
* インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。
* 約2年間分のデータを追跡するデータテーブルに対する分析とプレゼンテーションが可能
1日あたり1億件のレコード
* テレメトリ フローと本番学習サイクルの両方でデータ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEO声明
当社のビジネスモデルは、特許、分析、そして動的機械学習に依存しています。低価格のハードウェアは高い信頼性を実現するよう設計されており、コスト面での優位性をもたらしています。信頼性と容量に関するコミットメントを満たすためには、大規模な分散データパイプラインを迅速に安定化させる必要があります。
CTO声明
当社のパブリッククラウドサービスは、宣伝どおりに機能する必要があります。拡張性とデータの安全性を確保できるリソースが必要です。また、データサイエンティストがモデルを綿密に研究し、迅速に適応できる環境も必要です。データ処理は自動化に依存しているため、開発環境とテスト環境も、反復作業に合わせて適切に機能する必要があります。
CFO声明
このプロジェクトは規模が大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。また、膨大なデータフィードを監視する運用チームを編成する余裕もないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、当社の定量分析研究者はデータパイプラインの問題ではなく、より価値の高い問題に取り組むことができます。
MJTelco の Google Cloud Dataflow パイプラインは、50,000 のインストールからデータを受信する準備が整いました。
Cloud Dataflow のコンピューティング能力を必要に応じてスケールアップできるようにしたいと考えています。どの Cloud Dataflow パイプライン構成を更新する必要がありますか?
会社概要
MJTelco は、世界中で急速に成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。
同社は革新的な光通信ハードウェアに関する特許を保有しており、これらの特許に基づき、安価なハードウェアで信頼性の高い高速バックボーンリンクを多数構築することが可能です。
会社概要
経験豊富な通信業界の幹部によって設立されたMJTelcoは、宇宙における通信の課題を克服するために開発された技術を活用しています。事業運営の基盤として、リアルタイム分析を可能にし、機械学習を組み込んだ分散型データインフラストラクチャを構築することで、トポロジーを継続的に最適化する必要があります。ハードウェアは安価であるため、ネットワークを過剰に展開することで、地域情勢の変化が位置情報の可用性とコストに及ぼす影響を考慮に入れる計画です。
同社の管理・運用チームは世界中に拠点を置き、システム内でデータの利用者と提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリッククラウドが自社のニーズを満たす最適な環境であると判断しました。
ソリューションコンセプト
MJTelcoは、自社のラボで概念実証(PoC)プロジェクトを成功裏に実行しています。彼らには主に2つのニーズがあります。
* インストール数が 50,000 を超えると、生成されるデータ フローが大幅に増加するため、PoC を拡張して強化します。
* 機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
MJTelco は、実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすために、開発/テスト、ステージング、実稼働の 3 つの個別の運用環境も使用します。
ビジネス要件
* 予測不可能な分散型通信ユーザー コミュニティで必要なときに必要な場所でリソースをインスタンス化し、最小限のコストで実稼働環境を拡張します。
* 最先端の機械学習と分析を保護するために、独自のデータのセキュリティを確保します。
* 分散した研究員から分析のためのデータへの信頼性が高くタイムリーなアクセスを提供する
* 顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
* テレメトリデータの安全かつ効率的な転送と保管を確保する
* インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。
* 約2年間分のデータを追跡するデータテーブルに対する分析とプレゼンテーションが可能
1日あたり1億件のレコード
* テレメトリ フローと本番学習サイクルの両方でデータ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
CEO声明
当社のビジネスモデルは、特許、分析、そして動的機械学習に依存しています。低価格のハードウェアは高い信頼性を実現するよう設計されており、コスト面での優位性をもたらしています。信頼性と容量に関するコミットメントを満たすためには、大規模な分散データパイプラインを迅速に安定化させる必要があります。
CTO声明
当社のパブリッククラウドサービスは、宣伝どおりに機能する必要があります。拡張性とデータの安全性を確保できるリソースが必要です。また、データサイエンティストがモデルを綿密に研究し、迅速に適応できる環境も必要です。データ処理は自動化に依存しているため、開発環境とテスト環境も、反復作業に合わせて適切に機能する必要があります。
CFO声明
このプロジェクトは規模が大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。また、膨大なデータフィードを監視する運用チームを編成する余裕もないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、当社の定量分析研究者はデータパイプラインの問題ではなく、より価値の高い問題に取り組むことができます。
MJTelco の Google Cloud Dataflow パイプラインは、50,000 のインストールからデータを受信する準備が整いました。
Cloud Dataflow のコンピューティング能力を必要に応じてスケールアップできるようにしたいと考えています。どの Cloud Dataflow パイプライン構成を更新する必要がありますか?
Professional-Data-Engineer 試験問題 14
自然言語処理分野における回帰問題に取り組んでおり、データセットには1億個のラベル付きサンプルが含まれています。データをランダムにシャッフルし、データセットを学習用サンプルとテスト用サンプル(90/10の比率)に分割しました。ニューラルネットワークを学習させ、テストセットでモデルを評価したところ、学習用セットのモデルの二乗平均平方根誤差(RMSE)がテストセットの2倍になることがわかりました。モデルのパフォーマンスをどのように改善すればよいでしょうか?
Professional-Data-Engineer 試験問題 15
あるオンライン小売業者は、現在のアプリケーションをGoogle App Engine上に構築しています。同社の新たな取り組みでは、顧客がアプリケーション経由で直接取引を行えるよう、アプリケーションを拡張することが求められています。
ショッピング取引を管理し、ビジネス インテリジェンス(BI)ツールを使用して複数のデータセットから統合されたデータを分析する必要があります。この目的のために単一のデータベースのみを使用したいと考えています。どの Google Cloud データベースを選択すべきでしょうか?
ショッピング取引を管理し、ビジネス インテリジェンス(BI)ツールを使用して複数のデータセットから統合されたデータを分析する必要があります。この目的のために単一のデータベースのみを使用したいと考えています。どの Google Cloud データベースを選択すべきでしょうか?
