カスタムドキュメントをクエリするための生成 AI オプション

多くの場合、組織には構造化データと非構造化データのさまざまなソースがあります。このガイドでは、生成 AI を使用して非構造化データからの質問に回答する方法に焦点を当てています。

組織内の非構造化データは、さまざまなソースから取得できます。PDF PDFs 、テキストファイル、内部 Wiki、技術文書、公開ウェブサイト、ナレッジベースなどです。非構造化データに関する質問に回答できる基盤モデルが必要な場合は、次のオプションを使用できます。

カスタムドキュメントやその他のトレーニングデータを使用して新しい基盤モデルをトレーニングする
カスタムドキュメントのデータを使用して既存の基盤モデルを微調整する
コンテキスト内学習を使用して、質問をするときに基盤モデルにドキュメントを渡す
取得拡張生成 (RAG) アプローチを使用する

カスタムデータを含む新しい基盤モデルをゼロからトレーニングすることは、野心的な取り組みです。BloombergGPT モデルなど、いくつかの企業が成功Bloombergしています。もう 1 つの例は、によるマルチモーダルEXAONEモデルです。このモデルはLG AI Research、6,000 億個のアートワークと 2 億 5,000 万個の高解像度イメージをテキストとともに使用してトレーニングされました。AI のコスト: 基盤モデル () を構築または購入すると、トレーニングにかかるMetaLlama 2コストは約 480 万 USD です。LinkedInゼロからモデルをトレーニングするための主な前提条件は、リソースへのアクセス (財務、技術、時間) と明確な投資収益率の 2 つです。これが適していないと思われる場合、次のオプションは既存の基盤モデルを微調整することです。

既存のモデルをファインチューニングするには、Amazon Titan、Mistral、Llama モデルなどのモデルを取得し、そのモデルをカスタムデータに適応させる必要があります。微調整にはさまざまな手法があり、そのほとんどはモデル内のすべてのパラメータを変更するのではなく、少数のパラメータのみを変更する方法です。これは、パラメータ効率の高い微調整と呼ばれます。ファインチューニングには主に 2 つの方法があります。

教師ありファインチューニングは、ラベル付きデータを使用し、新しい種類のタスクのためにモデルをトレーニングするのに役立ちます。たとえば、PDF フォームに基づいてレポートを生成する場合は、十分な例を指定してその方法をモデルに教える必要があります。
教師なしファインチューニングはタスクに依存しず、基盤モデルを独自のデータに適応させます。ドキュメントのコンテキストを理解するようにモデルをトレーニングします。次に、ファインチューニングされたモデルは、よりカスタムなスタイルを使用してレポートなどのコンテンツを作成します。

ただし、質疑応答のユースケースにはファインチューニングが適さない場合があります。詳細については、このガイドの「RAG とファインチューニングの比較」を参照してください。

質問すると、基盤モデルをドキュメントに渡し、モデルのコンテキスト内学習を使用してドキュメントから回答を返すことができます。このオプションは、1 つのドキュメントのアドホッククエリに適しています。ただし、このソリューションは、複数のドキュメントのクエリや、Microsoft SharePoint や Atlassian Confluence などのシステムやアプリケーションのクエリには適していません。

最後のオプションは RAG を使用することです。RAG では、基盤モデルはレスポンスを生成する前にカスタムドキュメントを参照します。RAG は、モデルの機能を組織の内部ナレッジベースに拡張します。モデルを再トレーニングする必要はありません。これは、モデル出力を改善して、さまざまなコンテキストで関連性、正確性、有用性を維持するための費用対効果の高いアプローチです。

このセクションのトピック:

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

序章

RAG について