Professional-Data-Engineer 試験問題 156
ケーススタディ1 - フローロジスティック
会社概要
Flowlogisticは、物流およびサプライチェーンのリーディングプロバイダーです。世界中の企業のリソース管理と最終目的地への輸送を支援しています。同社は急成長を遂げ、鉄道、トラック、航空機、海上輸送など、サービスを拡大しています。
会社概要
当社は地域のトラック輸送会社としてスタートし、その後他の物流市場へ拡大しました。
インフラの更新が遅れているため、注文と出荷の管理・追跡がボトルネックとなっています。Flowlogisticは業務改善のため、荷物レベルでの出荷をリアルタイムに追跡する独自の技術を開発しました。しかし、Apache Kafkaをベースとした既存の技術スタックでは処理量に対応できないため、導入に至っていません。さらに、Flowlogisticは注文と出荷をさらに分析し、最適なリソース配分方法を検討したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
* 荷物の位置を示すリアルタイム在庫追跡システムに独自の技術を使用する
* 構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析し、最適なリソース配分方法や、どの市場への情報展開を行うべきかを決定します。また、予測分析を活用して、出荷の遅延を早期に把握したいと考えています。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータ センターに存在します。
* データベース
2つのクラスターに8台の物理サーバー
- SQL Server - ユーザーデータ、インベントリ、静的データ
物理サーバー3台
- Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
* アプリケーションサーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア
20台の物理サーバーにまたがる60台の仮想マシン
- Tomcat - Javaサービス
- Nginx - 静的コンテンツ
- バッチサーバー
* ストレージ機器
- 仮想マシン (VM) ホスト用の iSCSI
- ファイバーチャネルストレージエリアネットワーク(FC SAN) - SQLサーバーストレージ
- ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
* 10台のApache Hadoop / Sparkサーバー
- コアデータレイク
- データ分析ワークロード
* その他サーバー20台
- Jenkins、監視、要塞ホスト、
ビジネス要件
* スケールされた生産パンティを備えた信頼性が高く再現可能な環境を構築します。
* 分析のために集中化されたデータレイクにデータを集約する
* 過去のデータを使用して将来の出荷に関する予測分析を実行する
* 独自の技術を使用して、世界中のすべての出荷を正確に追跡します
* 新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上
* クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する
* 他のすべての要件が満たされている場合は、クラウドに完全に移行します
技術要件
* ストリーミングとバッチデータの両方を処理
* 既存のHadoopワークロードを移行する
* 会社の変化する需要を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。
* 可能な限りマネージドサービスを利用する
* 飛行中および保存中のデータを暗号化
* 本番データセンターとクラウド環境をVPNで接続する SEOステートメント 急速な成長を遂げたため、インフラのアップグレードが進まないことが、さらなる成長と効率性の妨げとなっています。世界中への貨物輸送は効率的ですが、データの移動は非効率的です。
顧客がどこにいるのか、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO声明
ITは当社にとってこれまで優先事項ではありませんでした。そのため、データの増加に伴い、テクノロジーへの投資が不十分になっていました。IT管理を担当する優秀なスタッフはいますが、彼らはインフラ管理に忙殺されており、データの整理、分析機能の構築、CFOのトラッキングテクノロジーの導入方法の検討といった、本当に重要な業務に時間を割くことができません。
CFO声明
当社の競争優位性の一つは、出荷や納品の遅延に対して自らペナルティを課すことです。出荷品の現在位置を常に把握することは、当社の収益と利益率に直接的に影響します。加えて、サーバー環境の構築に資本を投入したくありません。
Flowlogistic社のCEOは、顧客基盤に関する迅速なインサイトを獲得し、営業チームが現場でより的確な情報提供ができるようしたいと考えています。このチームは技術にあまり詳しくないため、BigQueryレポートの作成を簡素化するために可視化ツールを導入しました。しかし、テーブル内の膨大なデータに圧倒され、必要なデータを見つけるためのクエリに多大なコストがかかっています。あなたは、この課題を最も費用対効果の高い方法で解決したいと考えています。どうすればよいでしょうか?
会社概要
Flowlogisticは、物流およびサプライチェーンのリーディングプロバイダーです。世界中の企業のリソース管理と最終目的地への輸送を支援しています。同社は急成長を遂げ、鉄道、トラック、航空機、海上輸送など、サービスを拡大しています。
会社概要
当社は地域のトラック輸送会社としてスタートし、その後他の物流市場へ拡大しました。
インフラの更新が遅れているため、注文と出荷の管理・追跡がボトルネックとなっています。Flowlogisticは業務改善のため、荷物レベルでの出荷をリアルタイムに追跡する独自の技術を開発しました。しかし、Apache Kafkaをベースとした既存の技術スタックでは処理量に対応できないため、導入に至っていません。さらに、Flowlogisticは注文と出荷をさらに分析し、最適なリソース配分方法を検討したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
* 荷物の位置を示すリアルタイム在庫追跡システムに独自の技術を使用する
* 構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析し、最適なリソース配分方法や、どの市場への情報展開を行うべきかを決定します。また、予測分析を活用して、出荷の遅延を早期に把握したいと考えています。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータ センターに存在します。
* データベース
2つのクラスターに8台の物理サーバー
- SQL Server - ユーザーデータ、インベントリ、静的データ
物理サーバー3台
- Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
* アプリケーションサーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア
20台の物理サーバーにまたがる60台の仮想マシン
- Tomcat - Javaサービス
- Nginx - 静的コンテンツ
- バッチサーバー
* ストレージ機器
- 仮想マシン (VM) ホスト用の iSCSI
- ファイバーチャネルストレージエリアネットワーク(FC SAN) - SQLサーバーストレージ
- ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
* 10台のApache Hadoop / Sparkサーバー
- コアデータレイク
- データ分析ワークロード
* その他サーバー20台
- Jenkins、監視、要塞ホスト、
ビジネス要件
* スケールされた生産パンティを備えた信頼性が高く再現可能な環境を構築します。
* 分析のために集中化されたデータレイクにデータを集約する
* 過去のデータを使用して将来の出荷に関する予測分析を実行する
* 独自の技術を使用して、世界中のすべての出荷を正確に追跡します
* 新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上
* クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する
* 他のすべての要件が満たされている場合は、クラウドに完全に移行します
技術要件
* ストリーミングとバッチデータの両方を処理
* 既存のHadoopワークロードを移行する
* 会社の変化する需要を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。
* 可能な限りマネージドサービスを利用する
* 飛行中および保存中のデータを暗号化
* 本番データセンターとクラウド環境をVPNで接続する SEOステートメント 急速な成長を遂げたため、インフラのアップグレードが進まないことが、さらなる成長と効率性の妨げとなっています。世界中への貨物輸送は効率的ですが、データの移動は非効率的です。
顧客がどこにいるのか、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO声明
ITは当社にとってこれまで優先事項ではありませんでした。そのため、データの増加に伴い、テクノロジーへの投資が不十分になっていました。IT管理を担当する優秀なスタッフはいますが、彼らはインフラ管理に忙殺されており、データの整理、分析機能の構築、CFOのトラッキングテクノロジーの導入方法の検討といった、本当に重要な業務に時間を割くことができません。
CFO声明
当社の競争優位性の一つは、出荷や納品の遅延に対して自らペナルティを課すことです。出荷品の現在位置を常に把握することは、当社の収益と利益率に直接的に影響します。加えて、サーバー環境の構築に資本を投入したくありません。
Flowlogistic社のCEOは、顧客基盤に関する迅速なインサイトを獲得し、営業チームが現場でより的確な情報提供ができるようしたいと考えています。このチームは技術にあまり詳しくないため、BigQueryレポートの作成を簡素化するために可視化ツールを導入しました。しかし、テーブル内の膨大なデータに圧倒され、必要なデータを見つけるためのクエリに多大なコストがかかっています。あなたは、この課題を最も費用対効果の高い方法で解決したいと考えています。どうすればよいでしょうか?
Professional-Data-Engineer 試験問題 157
Cloud Datastore を使用して車両のテレメトリデータをリアルタイムで取り込むことにしました。長期的なデータ増加に対応しつつ、コストを抑えたストレージシステムを構築したいと考えています。また、ポイントインタイム(PIT)リカバリを実行できるように、定期的にデータのスナップショットを作成したり、別の環境に Cloud Datastore 用のデータのクローンを作成したりしたいと考えています。これらのスナップショットは長期間アーカイブする必要があります。
これを実現できる 2 つの方法はどれですか。2 つの回答を選択してください。
これを実現できる 2 つの方法はどれですか。2 つの回答を選択してください。
Professional-Data-Engineer 試験問題 158
あなたはBigQuery管理者として、アドホッククエリやLookerなどのツールを使ったダウンストリームレポートを実行するデータ利用者のチームをサポートしています。すべてのデータとユーザーは、単一の組織プロジェクトに統合されています。最近、クエリ結果の速度低下に気づき、どこで速度低下が発生しているかをトラブルシューティングしたいと考えています。
ユーザーがジョブを実行する際に、ジョブのキューイングやスロットの競合が発生し、結果へのアクセスが遅くなっている可能性があります。クエリジョブ情報を調査し、パフォーマンスに影響を与えている箇所を特定する必要があります。どうすればよいでしょうか?
ユーザーがジョブを実行する際に、ジョブのキューイングやスロットの競合が発生し、結果へのアクセスが遅くなっている可能性があります。クエリジョブ情報を調査し、パフォーマンスに影響を与えている箇所を特定する必要があります。どうすればよいでしょうか?
Professional-Data-Engineer 試験問題 159
BigQueryを集中分析プラットフォームとして利用しています。毎日新しいデータがロードされ、ETLパイプラインが元のデータを修正して最終ユーザーに提供するための準備をします。このETLパイプラインは定期的に修正されるためエラーが発生する可能性がありますが、エラーが2週間後に初めて検出されることもあります。これらのエラーから回復する方法を提供する必要があり、バックアップはストレージコストを考慮して最適化する必要があります。BigQueryでデータをどのように整理し、バックアップをどのように保存すればよいでしょうか?
Professional-Data-Engineer 試験問題 160
「person」という列の中に「city」というネストされた列を含むテーブルがあり、BigQuery で次のクエリを送信しようとするとエラーが発生するとします。
`project1.example.table1` から person を選択 WHERE city = "London"
どのようにエラーを修正しますか?
`project1.example.table1` から person を選択 WHERE city = "London"
どのようにエラーを修正しますか?
