ChatGPTに独自データを学習させる方法と注意点

ChatGPTはWebページ、書籍、ニュース記事、雑誌、論文などから情報を収集しています。そのため一般知識に基づく回答は可能ですが、専門性の高い知識や業界特有の情報に関する出力には限界があります。より望ましい回答を得るために有用なのが独自のデータをChatGPTに学習させることです。今回はChatGPTに独自データを学習させる方法や注意点などについて詳しく解説します。

ChatGPTに自社データを学習させる3つの方法

ChatGPTに自社データを学習させる方法は3つあります。それぞれの方法や費用について紹介します。

専用ツール

・ノーコード開発が可能なツール
・ChatGPTと連携したAIツール

などの専用ツールを利用する方法もあります。

独自AIを構築するにはAIエンジニアに依頼する必要がありますが、外部の専用ツールを利用すれば高度な知識やスキルは必要ありません。

例えばノーコード開発が可能なツールでは学習用データをアップロードするだけで独自のAIチャットボットを作成できます。

またChatGPTと連携したAIツールではプロンプトエンジニアリングで学習させることが可能です。

・プロンプトに自社のテキストデータを入力する
・データファイルを添付する

などの方法で自社データを与えると、その情報に基づいた回答が得られます。

いずれもAPIを利用するため情報漏洩のリスクを低減できます。

エンベディング

エンベディングは簡単に説明すると学習データから必要な情報を抽出してプロンプトに追加する技術のことです。

ユーザーが入力したプロンプトを分析し、類似性や関連性の高い情報を独自データから抽出して追加することでより精度の高い回答を出力することが可能になります。

この際、ベクトルデータベースと呼ばれるものを活用します。データをベクトル化して保存や管理するデータベースシステムのことです。

エンベディング（＝ベクトルデータベースを埋め込む）を実行するにはツールを活用するのが最も手軽です。

OpenAIが提供するエンベディングモデルのほか、LangChainやLlamaIndexと呼ばれるライブラリなどがあります。基本的にはPythonの知識が必要ですが、ツールによってはノーコードで実行できるものもあります。

エンベディングは自社データや専門知識などを学習させるのに向いておりChatGPTを業務利用したいときにおすすめの方法です。

エンベディングモデルのそれぞれの費用は下記の通りです。

※100万トークンあたり

モデル	使用料金
text-embedding-3-small	$0.02
text-embedding-3-large	$0.13
ada v2	$0.10

※引用：「Pricing」（OpenAI）

ファインチューニング

ファインチューニングは既に大規模データを学習したモデルにデータを追加する技術のことです。事前に学習していた大規模データの内容も調整できるため特定のタスクに特化させやすいのが特徴です。

ファインチューニングを行う際は大量の高品質なデータを用意してプログラミングする必要があります。

例えばテキストデータであれば

・不要な文字を除去する
・正規化する

画像データであれば

・サイズを統一する
・色彩を正規化する

などの作業が必要です。そのためリソースの確保と多くのコストが必要になる点は押さえておきましょう。

OpenAIが提供しているファインチューニングが可能なモデルの費用は下記の通りです。

※100万トークンあたり

モデル	トレーニング料金	入力料金	出力料金
GPT3.5 Turbo	$8.00	$3.00	$6.00
davinci-002	$6.00	$12.00	$12.00
babbage-002	$0.40	$1.60	$1.60

※引用：「Pricing」（OpenAI）

ChatGPTが学習できるデータ形式

プラグインや専用ツールを活用して自社データを読み込ませる際は下記のデータ形式を利用できます。

・PDF
・CSV
・URL

ファインチューニングやエンベディングで活用するデータベースはJSON形式などで作成できます。 JSONとは「JavaScript Object Notation」の略で、JavaScriptのオブジェクトの書き方に基づいたデータ記述言語のひとつです。

どちらの方法も対応するコードで情報を与える必要があるためプログラミングの知識やスキルが必要になります。

自社データを学習させたChatGPTの活用例

自社データを学習したChatGPTは下記のように活用できます。

学習方法	活用例
OpenAI API	・カスタマーサポートができるAIチャットボットの開発・メールなどの文章作成、資料作成
ファインチューニング	・音声、画像生成・デジタルクローンの作成・商品説明文の作成
エンベディング	・カスタマーサポートができるAIチャットボットの開発・画像検索
専用ツール	・メールなどの文章作成、資料作成・画像生成・社内ヘルプデスク