UB Researchチームで2週間の短期インターンをしている梶川です。

現在、UB ResearchではRAGシステム構築に向けた研究を行っており、社内のさまざまなデータを正確に拾い上げるための検索エンジンの開発と評価を行っています。

今回、その検索エンジンに代わるモデルを用いて、実際の検索テキストで検索を実施した結果を報告します。

概要

近年、LLMを用いた文書生成が流行しており、その中でも外部情報を検索し、LLMに追加して生成させるRAGという技術が活用されています。RAGによって、LLMが知らない情報に対して正確な応答を返すことができ、UB Researchでもニュース記事や有価証券報告書などの情報に対してRAGを適用することを考えています。既存の検索エンジンには、国内データで学習されたBERTベースのモデルを用いていますが、今回、最新のモデルであるBGE-M3を用いて、検索を実施しました。

ベクトル検索

ベクトル検索は、テキストをベクトル空間上に埋め込み、検索クエリとのベクトルの距離を計測することで、関連するテキストを抽出する技術のことです。LLMによるRAGでは、LLMの知らない情報を外部から抽出する際にベクトル検索が用いられます。

今回は、ベクトル検索を改善を行うために、最新のモデルであるBGE-M3を用いて検証します。

BGE-M3は、多言語埋め込みモデルの一種で、1テキストに対して3種類の埋め込みを生成することができます。日本語の検索タスクに対して、高い性能が報告されており、性能改善が期待できます。また、扱える最大トークン数が8192トークンと比較的長い文章を入力することができることも魅力となっています。

実験設定

Faiss

ベクトル検索ライブラリとしてFaissを用いました。Faissは、Facebookが開発した近傍探索ライブラリです。データを識別するためにインデックスが必要ですが、一般的に利用されるIndexFlatL2を用いました。

BGE-M3は3種類の埋め込みを生成可能ですが、今回は最も一般的であるDenseベクトルを用いて実験を行いました。

検索テキストと質問文

SPEEDAの業界レポートとトレンドレポート、有価証券報告書、ニュース記事の4つの経済データを採用しました。

検索クエリとなる質問文には以下の6つを採用しました。

質問文を入力し、その検索結果50件に対して特定のキーワードが含まれているかなどで評価を行いました。

Q1. 一般的にコンビニ業界では、どのようなサプライチェーンの特徴が挙げられますか。特に関わりの強い企業があれば、具体名を教えてください。
Q2. ユーザベースが非上場化を行った理由はどういったものでしょうか。
Q3. 生成AIモデルの独自の開発を公表している日本企業としてどのような企業があるか具体的に教えてください。
Q4. ベネッセホールディングスの非上場化を目指した背景は？
Q5. ダイキンが新興国で好調だと伺いましたが主要な成功要因を教えて下さい。
Q6. ソニーグループのPlaystation 5の販売が不調な理由は？