Professional-Data-Engineer 試験問題 302
MJTelcoのケーススタディ
会社概要
MJTelcoは、急成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。
同社は革新的な光通信ハードウェアに関する特許を保有しており、これらの特許に基づいて
安価なハードウェアを使用して、信頼性の高い高速バックボーン リンクを多数作成できます。
会社概要
経験豊富な通信業界の幹部によって設立されたMJTelcoは、もともと
宇宙における通信の課題を克服する。その運用の基本として、
リアルタイム分析を推進し、機械学習を組み込んだ分散データインフラストラクチャ
トポロジーを継続的に最適化しています。ハードウェアが安価なため、過剰に導入する計画です。
ネットワークにより、動的な地域政治が場所の可用性に与える影響を考慮できるようになり、
料金。
彼らの管理および運用チームは世界中に配置されており、多対多の
システムにおけるデータの消費者と提供者との関係。慎重に検討した結果、
パブリック クラウドが自社のニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelcoは、自社のラボで概念実証(PoC)プロジェクトを成功裏に実行しています。彼らには主に2つのニーズがあります。
より多くのデータフローを生成するために、PoCを拡張して強化する

50,000 以上のインストール。
機械学習サイクルを改良し、制御に使用する動的モデルを検証および改善する

トポロジの定義。
MJTelcoは開発/テスト、ステージング、本番の3つの独立した運用環境も使用します。
- 実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすため。
ビジネス要件
最小限のコストで生産環境を拡張し、いつでもどこでもリソースをインスタンス化します。

予測不可能な分散型通信ユーザーコミュニティに必要です。
最先端の機械学習と分析を保護するために、独自のデータのセキュリティを確保します。

分散した研究員に分析用のデータへの信頼性とタイムリーなアクセスを提供する

機械学習モデルの迅速な反復をサポートする隔離された環境を維持する

顧客に影響を与えます。
技術要件
テレメトリデータの安全かつ効率的な転送と保管を確保する

インスタンスを迅速に拡張して、複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。

それぞれ。
約2年間分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。

1日あたり1億件のレコード
データ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。

テレメトリフローと本番学習サイクルの両方で。
CEO声明
当社のビジネスモデルは、特許、分析、そして動的な機械学習に依存しています。当社の安価な
ハードウェアは高い信頼性を備えており、コスト面で優位性があります。迅速に安定させる必要があります。
信頼性と容量のコミットメントを満たすために、大規模な分散データ パイプラインを構築しました。
CTO声明
パブリッククラウドサービスは宣伝どおりに機能しなければなりません。拡張性があり、データを保持できるリソースが必要です。
安全であること。また、データサイエンティストが注意深く研究し、迅速に適応できる環境も必要です。
モデル化。データ処理を自動化に頼っているため、開発とテストも自動化が必要です。
反復しながら作業する環境。
CFO声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。
また、多数のデータフィードを監視するための運用チームを編成する余裕はないため、
自動化とインフラストラクチャ。Google Cloudの機械学習により、定量研究者は
データ パイプラインの問題ではなく、価値の高い問題に取り組みます。
次の要件を満たす運用チーム向けの視覚化を作成する必要があります。
レポートには、過去6週間の50,000のインストールすべてからのテレメトリデータを含める必要があります。

(1分ごとにサンプリング)。
レポートはライブデータから 3 時間以上遅延してはなりません。

実用的なレポートには、最適ではないリンクのみが表示されます。

最適ではないリンクのほとんどは、一番上に並べる必要があります。

最適ではないリンクは、地域の地理によってグループ化およびフィルタリングできます。

レポートをロードするためのユーザー応答時間は 5 秒未満である必要があります。

どのアプローチが要件を満たしていますか?
会社概要
MJTelcoは、急成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。
同社は革新的な光通信ハードウェアに関する特許を保有しており、これらの特許に基づいて
安価なハードウェアを使用して、信頼性の高い高速バックボーン リンクを多数作成できます。
会社概要
経験豊富な通信業界の幹部によって設立されたMJTelcoは、もともと
宇宙における通信の課題を克服する。その運用の基本として、
リアルタイム分析を推進し、機械学習を組み込んだ分散データインフラストラクチャ
トポロジーを継続的に最適化しています。ハードウェアが安価なため、過剰に導入する計画です。
ネットワークにより、動的な地域政治が場所の可用性に与える影響を考慮できるようになり、
料金。
彼らの管理および運用チームは世界中に配置されており、多対多の
システムにおけるデータの消費者と提供者との関係。慎重に検討した結果、
パブリック クラウドが自社のニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelcoは、自社のラボで概念実証(PoC)プロジェクトを成功裏に実行しています。彼らには主に2つのニーズがあります。
より多くのデータフローを生成するために、PoCを拡張して強化する

50,000 以上のインストール。
機械学習サイクルを改良し、制御に使用する動的モデルを検証および改善する

トポロジの定義。
MJTelcoは開発/テスト、ステージング、本番の3つの独立した運用環境も使用します。
- 実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすため。
ビジネス要件
最小限のコストで生産環境を拡張し、いつでもどこでもリソースをインスタンス化します。

予測不可能な分散型通信ユーザーコミュニティに必要です。
最先端の機械学習と分析を保護するために、独自のデータのセキュリティを確保します。

分散した研究員に分析用のデータへの信頼性とタイムリーなアクセスを提供する

機械学習モデルの迅速な反復をサポートする隔離された環境を維持する

顧客に影響を与えます。
技術要件
テレメトリデータの安全かつ効率的な転送と保管を確保する

インスタンスを迅速に拡張して、複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。

それぞれ。
約2年間分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。

1日あたり1億件のレコード
データ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。

テレメトリフローと本番学習サイクルの両方で。
CEO声明
当社のビジネスモデルは、特許、分析、そして動的な機械学習に依存しています。当社の安価な
ハードウェアは高い信頼性を備えており、コスト面で優位性があります。迅速に安定させる必要があります。
信頼性と容量のコミットメントを満たすために、大規模な分散データ パイプラインを構築しました。
CTO声明
パブリッククラウドサービスは宣伝どおりに機能しなければなりません。拡張性があり、データを保持できるリソースが必要です。
安全であること。また、データサイエンティストが注意深く研究し、迅速に適応できる環境も必要です。
モデル化。データ処理を自動化に頼っているため、開発とテストも自動化が必要です。
反復しながら作業する環境。
CFO声明
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。
また、多数のデータフィードを監視するための運用チームを編成する余裕はないため、
自動化とインフラストラクチャ。Google Cloudの機械学習により、定量研究者は
データ パイプラインの問題ではなく、価値の高い問題に取り組みます。
次の要件を満たす運用チーム向けの視覚化を作成する必要があります。
レポートには、過去6週間の50,000のインストールすべてからのテレメトリデータを含める必要があります。

(1分ごとにサンプリング)。
レポートはライブデータから 3 時間以上遅延してはなりません。

実用的なレポートには、最適ではないリンクのみが表示されます。

最適ではないリンクのほとんどは、一番上に並べる必要があります。

最適ではないリンクは、地域の地理によってグループ化およびフィルタリングできます。

レポートをロードするためのユーザー応答時間は 5 秒未満である必要があります。

どのアプローチが要件を満たしていますか?
Professional-Data-Engineer 試験問題 303
フローロジスティックのケーススタディ
会社概要
Flowlogisticは、物流およびサプライチェーンのリーディングプロバイダーです。世界中の企業のリソース管理と最終目的地への輸送を支援しています。同社は急成長を遂げ、鉄道、トラック、航空機、海上輸送など、サービスを拡大しています。
会社概要
当社は地域のトラック輸送会社としてスタートし、その後他の物流市場へ拡大しました。
インフラの更新が遅れているため、注文と出荷の管理・追跡がボトルネックとなっています。Flowlogisticは業務改善のため、荷物レベルでの出荷をリアルタイムに追跡する独自の技術を開発しました。しかし、Apache Kafkaをベースとした既存の技術スタックでは処理量に対応できないため、導入に至っていません。さらに、Flowlogisticは注文と出荷をさらに分析し、最適なリソース配分方法を検討したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
リアルタイム在庫追跡システムで独自の技術を使用し、在庫の位置を表示します。

彼らの荷物
構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析します。

データを活用することで、最適なリソース配分方法や、どの市場への情報展開を行うべきかを判断できます。また、予測分析を活用して、出荷の遅延を早期に把握したいと考えています。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータ センターに存在します。
データベース

- 2つのクラスターに8台の物理サーバー
- SQL Server - ユーザーデータ、インベントリ、静的データ
- 物理サーバー3台
- Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
アプリケーション サーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア

- 20台の物理サーバーにまたがる60台の仮想マシン
- Tomcat - Javaサービス
- Nginx - 静的コンテンツ
- バッチサーバー
ストレージアプライアンス

- 仮想マシン (VM) ホスト用の iSCSI
- ファイバーチャネルストレージエリアネットワーク(FC SAN) - SQLサーバーストレージ
ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
10台のApache Hadoop / Sparkサーバー

- コアデータレイク
- データ分析ワークロード
その他サーバー20台

- Jenkins、監視、要塞ホスト、
ビジネス要件
スケールされた生産パンティを備えた信頼性が高く再現可能な環境を構築します。

分析のために集中管理されたデータレイクにデータを集約する

過去のデータを使用して将来の出荷の予測分析を実行する

独自の技術を使用して、世界中のすべての出荷を正確に追跡します

新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上します。

クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する

他のすべての要件が満たされている場合は、クラウドに完全に移行します。

技術要件
ストリーミングとバッチデータの両方を処理

既存のHadoopワークロードを移行する

企業の変化する要求を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。

可能な限りマネージドサービスを利用する

飛行中および保存中のデータを暗号化

本番データセンターとクラウド環境の間にVPNを接続する
SEOステートメント
当社は急速な成長を遂げたため、インフラのアップグレードができず、それがさらなる成長と効率化の妨げとなっています。世界中への貨物輸送は効率的ですが、データの移動は非効率です。
顧客がどこにいるのか、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO声明
ITは当社にとってこれまで優先事項ではありませんでした。そのため、データの増加に伴い、テクノロジーへの投資が不十分になっていました。IT管理を担当する優秀なスタッフはいますが、彼らはインフラ管理に忙殺されており、データの整理、分析機能の構築、CFOのトラッキングテクノロジーの導入方法の検討といった、本当に重要な業務に時間を割くことができません。
CFO声明
当社の競争優位性の一つは、出荷・納品の遅延に対して自らペナルティを課すことです。出荷品の現在位置を常に把握することは、当社の収益性と直接的な相関関係にあります。
さらに、サーバー環境の構築に資本を投入したくありません。
Flowlogistic 社の経営陣は、現在の Apache Kafka サーバーではリアルタイム在庫追跡システムのデータ量を処理できないと判断しました。そのため、Google Cloud Platform (GCP) 上に、自社の追跡ソフトウェアにデータを提供する新しいシステムを構築する必要があります。このシステムは、世界中の様々なソースからデータを取り込み、リアルタイムで処理・クエリを実行し、データを確実に保存できる必要があります。GCP プロダクトのどの組み合わせを選択すべきでしょうか?
会社概要
Flowlogisticは、物流およびサプライチェーンのリーディングプロバイダーです。世界中の企業のリソース管理と最終目的地への輸送を支援しています。同社は急成長を遂げ、鉄道、トラック、航空機、海上輸送など、サービスを拡大しています。
会社概要
当社は地域のトラック輸送会社としてスタートし、その後他の物流市場へ拡大しました。
インフラの更新が遅れているため、注文と出荷の管理・追跡がボトルネックとなっています。Flowlogisticは業務改善のため、荷物レベルでの出荷をリアルタイムに追跡する独自の技術を開発しました。しかし、Apache Kafkaをベースとした既存の技術スタックでは処理量に対応できないため、導入に至っていません。さらに、Flowlogisticは注文と出荷をさらに分析し、最適なリソース配分方法を検討したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
リアルタイム在庫追跡システムで独自の技術を使用し、在庫の位置を表示します。

彼らの荷物
構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析します。

データを活用することで、最適なリソース配分方法や、どの市場への情報展開を行うべきかを判断できます。また、予測分析を活用して、出荷の遅延を早期に把握したいと考えています。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータ センターに存在します。
データベース

- 2つのクラスターに8台の物理サーバー
- SQL Server - ユーザーデータ、インベントリ、静的データ
- 物理サーバー3台
- Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
アプリケーション サーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア

- 20台の物理サーバーにまたがる60台の仮想マシン
- Tomcat - Javaサービス
- Nginx - 静的コンテンツ
- バッチサーバー
ストレージアプライアンス

- 仮想マシン (VM) ホスト用の iSCSI
- ファイバーチャネルストレージエリアネットワーク(FC SAN) - SQLサーバーストレージ
ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
10台のApache Hadoop / Sparkサーバー

- コアデータレイク
- データ分析ワークロード
その他サーバー20台

- Jenkins、監視、要塞ホスト、
ビジネス要件
スケールされた生産パンティを備えた信頼性が高く再現可能な環境を構築します。

分析のために集中管理されたデータレイクにデータを集約する

過去のデータを使用して将来の出荷の予測分析を実行する

独自の技術を使用して、世界中のすべての出荷を正確に追跡します

新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上します。

クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する

他のすべての要件が満たされている場合は、クラウドに完全に移行します。

技術要件
ストリーミングとバッチデータの両方を処理

既存のHadoopワークロードを移行する

企業の変化する要求を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。

可能な限りマネージドサービスを利用する

飛行中および保存中のデータを暗号化

本番データセンターとクラウド環境の間にVPNを接続する
SEOステートメント
当社は急速な成長を遂げたため、インフラのアップグレードができず、それがさらなる成長と効率化の妨げとなっています。世界中への貨物輸送は効率的ですが、データの移動は非効率です。
顧客がどこにいるのか、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO声明
ITは当社にとってこれまで優先事項ではありませんでした。そのため、データの増加に伴い、テクノロジーへの投資が不十分になっていました。IT管理を担当する優秀なスタッフはいますが、彼らはインフラ管理に忙殺されており、データの整理、分析機能の構築、CFOのトラッキングテクノロジーの導入方法の検討といった、本当に重要な業務に時間を割くことができません。
CFO声明
当社の競争優位性の一つは、出荷・納品の遅延に対して自らペナルティを課すことです。出荷品の現在位置を常に把握することは、当社の収益性と直接的な相関関係にあります。
さらに、サーバー環境の構築に資本を投入したくありません。
Flowlogistic 社の経営陣は、現在の Apache Kafka サーバーではリアルタイム在庫追跡システムのデータ量を処理できないと判断しました。そのため、Google Cloud Platform (GCP) 上に、自社の追跡ソフトウェアにデータを提供する新しいシステムを構築する必要があります。このシステムは、世界中の様々なソースからデータを取り込み、リアルタイムで処理・クエリを実行し、データを確実に保存できる必要があります。GCP プロダクトのどの組み合わせを選択すべきでしょうか?
Professional-Data-Engineer 試験問題 304
「customers」というBigQueryデータセットがあります。すべてのテーブルは、「gdpr」というData Catalogタグテンプレートを使用してタグ付けされます。このテンプレートには、ブール値を持つ「機密データあり~」という必須フィールドが1つ含まれています。すべての従業員が簡単な検索を実行し、データセット内の「機密データあり」フィールドがtrueまたはfalseであるテーブルを見つけることができる必要があります。ただし、「機密データあり」フィールドがtrueであるテーブル内のデータは、人事(HR)グループのみが閲覧できるようにする必要があります。すべての従業員グループにBigQueryを割り当てます。
データセットに対するmetadataViewerロールとbigquery.connectionUserロール。設定のオーバーヘッドを最小限に抑えたい場合、次に何をすべきでしょうか?
データセットに対するmetadataViewerロールとbigquery.connectionUserロール。設定のオーバーヘッドを最小限に抑えたい場合、次に何をすべきでしょうか?
Professional-Data-Engineer 試験問題 305
projects.regions.clusters.create オペレーションを使用して新しい Cloud Dataproc クラスタを作成する場合、プロジェクト、リージョン、名前、____ の 4 つの値が必要です。
Professional-Data-Engineer 試験問題 306
Bigtable の時系列データにおけるホットスポットを回避するために推奨される方法はどれですか?
