RAGによる自社データに特化したLLMの実現。基礎知識や活用事例を解説。
カテゴリ:ユースケース
LLM(Large language Models:大規模言語モデル)の登場により、私たちはキーワードによる検索だけではなく自然な文章で様々な情報を調べることができるようになりました。ただし、LLMは万能ではなく、生成する情報の制御や誤った情報が提供されるリスクを抱えており、従来の検索を全て置き換えるものではないのが実情と言えるでしょう。
LLMの利便性自体は広く認められており、現代ではその利便性を自社が保有するデータに活用できないかと各社工夫を重ねている状況です。
それを実現する手段として一般的に活用されている仕組みに「RAG(Retrieval-Augmented Generation:検索拡張生成)」があります。RAGはLLMが参照する知識を制御し、高精度な応答を生成するための技術です。
この記事では、LLMで自社データを活用するために、RAGがどのような働きをするのかやRAG活用の事例を解説します。
目次
LLMで自社データを活用する際の課題
汎用性が高く手軽に利用できるLLM(Large language Models:大規模言語モデル)ですが、自社データに特化した活用をするにはいくつかの課題があります。
基本的に一般的な応答が生成される
一般的にLLMは、Web上に公開されているデータやSNSの書き込み、テキストコンテンツなど膨大な情報を学習しています。その過程でWeb上などに公開される特定企業の製品情報などが学習されている可能性もありますが、社内情報などの業務に特化した応答は基本的には生成できません。
また、プロンプト(ユーザが入力する指示や質問)によってある程度の制御は可能ですが、利用者のリテラシーに左右するなど、使いこなすにはまだ難しい状況です。
ハルシネーションの発生
また、一見正しく見える応答であっても、実際には誤っているケースがあります。これらをハルシネーションと呼びます。すでに知識を持った人物であれば誤りに気づいたり、別の質問をしたりすることで調整できますが、知識を有していない人では誤った情報を信じてしまう可能性があります。
新入社員が業務を学ぶ場面や顧客へ自社製品の情報を提供する場面などでは、誤情報が出力されることは看過できません。
では自社データを用いてLLMを活用するためには、どのような対策が必要なのでしょうか。
自社データ特化のLLM実現にはRAGが有効
LLMは非常に広範囲な知識を有していますが、生成される応答は一般的な知識であることが通常です。自社が保有するデータや独自の製品情報を生成AIが参照するためには、「RAG」と呼ばれる技術を用いることが現時点(2024年夏時点)では多いです。
RAGとは
RAG(Retrieval-Augmented Generation)は、生成AIに独自の情報を埋め込み、応答を生成する際にその情報を参照する技術です。具体的には、社内データを生成AIに学習させることで、生成AIの回答の参照範囲をより専門的に広げることです。
一般的なWeb上の情報ではなく、RAGによって学習した社内情報を参照できるため、業務に特化した回答が実現できます。
基本的なRAGの仕組み
RAGによりLLMが応答する際に参照するデータを制御できます。基本的なRAGの仕組みを紹介します。
-
Retrieval(検索)
埋め込まれた社内情報をデータベースから検索します。 -
Augmented(拡張)
LLMが応答を生成するプロセスに、1で検索した情報を組み込みます。 -
Generation(生成)
組み込んだ情報を基に、応答を生成します。
RAGを用いることで自社独自の情報をLLMに扱わせることが可能となります。社内情報を参照しながら会話をできるLLMを実現することで、実際の業務で生成AIを活用できる幅が広がります。
RAGにより実現できる自社データ活用
では具体的にRAGによる自社データの活用方法をご紹介します。
チャットボット
RAGで埋め込んだデータをもとに応答するチャットボットを構築することができます。前述したように、通常のLLMでは、自社製品に関する質問に対して一般的な情報や誤った情報が提供されるリスクがあります。
RAGを用いることでLLMが参照する情報を制御することで、事前に問いと回答を作成せずとも、ある程度実体に沿った回答を可能とするチャットボットが実現でき、社内外の問い合わせ工数の削減に繋がります。
ナレッジマネジメント+生成AI
多くの企業は技術情報やナレッジ情報を社内に蓄積しています。しかし、従業員が各データへアクセスする際の、文書を探す手間や探す際に検索キーワードが浮かばないなどによって、結果的に情報を見つけられないケースも課題として存在します。
こうした課題に対して、RAGを利用した検索システムなどの導入より、自然言語や表現の揺れ、質問の意味を汲み取った形で社内ナレッジを効率的に検索することが可能です。
詳細:ブレインズテクノロジー、社内データを情報基盤とした生成AIナレッジチャット「Chat EI」を提供開始
https://www.brains-tech.co.jp/news/20240531/
特定コンテンツの生成
蓄積したデータを自動的に読み取り、グラフや表を作成することが可能になります。フォーマットや参照データを指定することで、データ可視化や分析を効率的に行うことが可能です。
一般的に公開されているLLMの応答をRAGにより制御することで、自社ビジネスに特化した生成AIとして活用することができます。
RAGによる自社データ活用事例
では具体的にRAGによって自社データを活用した事例をいくつかご紹介します。
くすりの窓口:医療分野の高精度チャットボット
くすりの窓口では、オンラインでの服薬指導や診療に関わるサービスを提供しています。
医療分野でのサービスであり、専門用語の多さやきめ細かなオペレーションが必須となりますが、従業員により知識に差がある、回答にばらつきが生じるといった課題が生じていました。
そこで、社内で保有しているサービスのマニュアルを集約し、従業員向けのチャットボットを構築しています。従業員はユーザーからの問い合わせに回答する前にチャットボットを使用し、高精度な応答を得た上でユーザーへの返答を行うことを目指しています。
参考:RAGを活用した生成AIチャットボット提供
https://classmethod.jp/cases/kusurinomadoguchi/
竹中工務店:建設業のナレッジ検索システム
竹中工務店では、大手クラウド基盤上で動作する生成AIを活用し、業務ノウハウを蓄積・回答できるシステムを構築しています。建築業に関する専門知識をRAGとして埋め込み、ユーザーは検索エンジンを利用する感覚でノウハウの検索をすることが可能です。
ノウハウ以外に社内ルールや技術標準文書も対象となっており、専門的な情報を即座に検索できる環境を整えています。
参考:建設業の専門知識を用いて回答を生成─竹中工務店
https://it.impress.co.jp/articles/-/25424
LLMによる自社データ活用の実現はRAGが有効
LLMの登場により、社内に蓄積したデータへのアクセス手段は大きく変化しました。特定のキーワードを知らなくても、自然言語でLLMへ質問すれば、ある程度高精度な応答を得ることができます。
ただし、RAGの実装には生成AIを含む高度なIT知識が必要です。既に利用するクラウドストレージやオンプレのファイルサーバーに格納してあるデータを生成AIの学習基盤にするための工数も必要となります。
弊社ブレインズテクノロジーが開発・提供する「Chat EI」は、既存のファイルサーバーやクラウドストレージに格納された電子データを事前に自動的に取得し、ユーザーのアクセス権限に応じて質問に回答できる生成AIナレッジチャットです。
生成AIサービスに対して新たにデータアップロードの必要がなく、自然言語による問い合わせに対して社内情報(RAG)を活用した応答が可能です。
詳しくは下記をご参照ください。
詳細:https://www.brains-tech.co.jp/news/20240531/
\ 企業におけるデータ活用の最新情報をお届け /
弊社ブレインズテクノロジーでは、企業におけるデータ活用の最新情報として下記のようなお役立ち情報を毎月定期的に発信しております。
・企業における情報管理・情報共有の実態調査
・従業員の働き方やデータ活用に関するテーマ
・ナレッジマネジメントに関する課題や解決法 など
メールアドレスの登録のみで無料にて情報をお届けいたします。配信の解除もいつでも可能です。ぜひご登録ください!
※弊社個人情報の取り扱いに同意頂いた上でご登録ください。