テクニカル・アセスメント - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

テクニカル・アセスメント

テクニカルアセスメントは、貴社が現在保有している技術的能力のマップを提供してくれるので重要です。評価の対象は、データガバナンス、データ取り込み、データ変換、データ共有、機械学習 (ML) プラットフォーム、プロセス、自動化です。 

テクニカルアセスメント中に尋ねることができる質問の例をチームごとに次に示します。コンテキストに基づいて質問を追加できます。

データエンジニアリングチーム

  • チームのデータ取り込みに関連する現在の課題は何か? 

  • チームが必要とする外部または内部のデータソースで、取り込みできないものはありますか? なぜ利用できないのですか?

  • どのタイプのデータソース (MySQL データベース、Salesforce API、受信ファイル、Web サイトのナビゲーションデータなど) からデータを取り込んでいますか?

  • 新しいデータソースからデータを取り込むのにどれくらいの時間がかかりますか?

  • 新しいソースからデータを取り込むプロセスは自動化されていますか?

  • 開発チームがアプリケーションから分析用のトランザクションデータを公開するのはどれほど簡単ですか?

  • データソースからのフルロードまたはインクリメンタルロード (バッチまたはマイクロバッチ) 用のツールはありますか?

  • データベースから継続的にロードするための変更データキャプチャ (CDC) ツールはありますか?

  • データ取り込み用のデータストリーミングオプションはありますか?

  • バッチデータとリアルタイムデータのデータ変換はどのように行いますか?

  • データ変換ワークフローのオーケストレーションをどのように管理していますか?

  • データの発見とカタログ化、データの取り込み、データ変換、ビジネスアナリストの支援、データサイエンティストの支援、データガバナンス、チームとユーザーのトレーニングなど、最も頻繁に行っているアクティビティはどれですか?

  • データセットを作成すると、データプライバシーの観点からどのように分類されますか? 社内の消費者にとって意味のあるものにするには、どのようにクリーニングすればよいでしょうか。

  • データガバナンスとデータスチュワードシップは集中型ですか、それとも分散型ですか?

  • データガバナンスをどのように実施していますか? 自動化プロセスはありますか?

  • パイプラインの各フェーズ(データ取り込み、データ処理、データ共有、データ使用)におけるデータ所有者および管理者は誰か? 所有者とスチュワードを決定するためのデータドメインの概念はありますか?

  • アクセス制御を行って組織内でデータセットを共有する際の主な課題は何か?

  • データパイプラインの導入と管理にコードとしてのインフラストラクチャ (IaC) を使用していますか?

  • データレイク戦略はありますか? 

    • データレイクは組織全体に分散されていますか、それとも一元化されていますか? 

  • データカタログはどのように整理されていますか? 会社全体ですか、それとも地域ごとですか?

  • データレイクハウスのアプローチは導入されていますか?

  • データメッシュのコンセプトを使用していますか、または使用する予定がありますか?

これらの質問は、次のように補足できます。AWSよく設計されたフレームワークデータ分析レンズ

ビジネス分析チーム

  • 自分の仕事で利用できるデータの次の特徴をどう説明しますか。

    • 清潔さ

    • Quality

    • 分類

    • メタデータ

    • ビジネス上の意味

  • あなたのチームは、ドメイン内のデータセットのビジネス用語集の定義に参加していますか?

  • 業務に必要なデータを必要なタイミングで入手できなければ、どのような影響がありますか?

  • データにアクセスできない、またはデータの取得に時間がかかりすぎるシナリオの例はありますか? 必要なデータを取得するにはどれくらいの時間がかかりますか?

  • 技術的な問題や処理時間が原因で、必要以上に小さいデータセットを使用する頻度はどれくらいですか?

  • 必要な規模とツールを備えたサンドボックス環境はありますか?

  • A/B テストを行って仮説を検証できますか?

  • 仕事に必要なツールが不足していませんか?

    • どのタイプのツールですか?

    • なぜ利用できないのですか?

  • 時間がない重要な活動はありますか?

  • 最も時間を消費するアクティビティはどれですか?

  • ビジネスに対する考え方はどのように刷新されていますか?

    • スケジュール設定や管理は自動的に行われていますか?

  • 取得したデータよりも新しいデータが必要なのはどのシナリオですか?

  • 分析はどうやって共有するの? 共有にはどのツールとプロセスを使用していますか?

  • 新しいデータ製品を作成して、他のチームが利用できるようにすることは頻繁ですか?

    • データ製品を他の事業分野や会社全体で共有するプロセスについて教えてください。

データサイエンスチーム (モデル展開の決定用)

  • 自分の仕事で利用できるデータの次の特徴をどう説明しますか。

    • 清潔さ

    • Quality

    • 分類

    • メタデータ

    • 意味

  • 機械学習 (ML) モデルのトレーニング、テスト、デプロイのための自動化ツールはありますか?

  • ML モデルの作成とデプロイの各ステップを実行するためのマシンサイズのオプションはありますか?

  • ML モデルはどのようにして本番環境に導入されるのですか?

  • 新しいモデルをデプロイする手順を教えてください。それらはどの程度自動化されていますか?

  • バッチデータやリアルタイムデータ用に ML モデルをトレーニング、テスト、デプロイするためのコンポーネントはありますか? 

  • モデルの作成に必要なデータを表すのに十分な大きさのデータセットを使用および処理できますか?

  • モデルをどのように監視し、再トレーニングするための措置を講じていますか?

  • モデルがビジネスに与える影響をどのように測定していますか?

  • ビジネスチームの仮説を検証するために A/B テストを実施できますか?

その他の質問については、AWSよく設計されたフレームワークの機械学習レンズ