本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
用於查詢自訂文件的生成式 AI 選項
組織通常具有各種結構化和非結構化資料來源。本指南著重於如何使用生成式 AI 來回答非結構化資料的問題。
組織中的非結構化資料可能來自各種來源。這些可能是 PDFs、文字檔案、內部 Wiki、技術文件、公開網站、知識庫或其他。如果您想要可以回答非結構化資料相關問題的基礎模型,可使用下列選項:
-
使用您的自訂文件和其他訓練資料來訓練新的基礎模型
-
使用自訂文件中的資料微調現有的基礎模型
-
當您提出問題時,使用內容內學習將文件傳遞至基礎模型
-
使用擷取增強產生 (RAG) 方法
從頭開始訓練包含自訂資料的新基礎模型是一項有野心的任務。少數幾家公司已成功完成,例如Bloomberg使用他們的BloombergGPT
微調現有模型需要採用模型,例如 Amazon Titan、Mistral 或 Llama 模型,然後根據自訂資料調整模型。微調有各種技術,其中大部分只涉及修改幾個參數,而不是修改模型中的所有參數。這稱為參數效率微調。進行微調的主要方法有兩種:
-
受監督的微調使用標籤資料,並協助您訓練新任務類型的模型。例如,如果您想要根據 PDF 表單產生報告,則可能需要提供足夠的範例來教導模型如何執行此操作。
-
非監督式微調與任務無關,並根據您自己的資料調整基礎模型。它會訓練模型以了解文件的內容。經過微調的模型接著會使用更自訂您組織的樣式來建立內容,例如報告。
不過,微調可能不適用於問答式使用案例。如需詳細資訊,請參閱本指南中的比較 RAG 和微調。
當您提出問題時,您可以傳遞文件基礎模型,並使用模型的內容內學習來傳回文件的答案。此選項適用於單一文件的臨機操作查詢。不過,此解決方案不適用於查詢多個文件或查詢系統和應用程式,例如 Microsoft SharePoint 或 Atlassian Confluence。
最後一個選項是使用 RAG。使用 RAG,基礎模型會在產生回應之前參考您的自訂文件。RAG 會將模型的功能延伸到組織的內部知識庫,完全不需要重新訓練模型。這是一種經濟實惠的方法,可改善模型輸出,以便在各種環境中保持相關性、準確性和實用性。