法務AIの回答をどのようなRubricで評価すべきか& NotebookLM

MercorというAIを利用した就職情報サイトで、AIのプロンプトに対する回答を「学習」させるときに、何が「良い」回答とされるのでしょうか、という問題があることを、知ったのをきっかけにRubricという考え方があることを勉強しました。もっとも、そのMercorでは、法律のRubricについては、具体例がでないないので、自分としては、もやもやしたままだったのですが、ちょっと調べてみると、関連する論文とかもそれなりに出始めているみたいです。具体的には、

  1. Harvey “Scaling AI Evaluation Through Expertise” (2025)
  2. Lexis AI “The Definitive Guide To Choosing A Gen AI Legal Research Solution
  3. Margaret Hagan “Measuring What Matters: A Quality Rubric for Legal AI Answers” (2025)
  4. Rohan Bhambhoria ほか “Evaluating AI for Law: Bridging the Gap with Open-Source Solutions” (2024).リンクは、(https://arxiv.org/pdf/2404.12349v1)
  5. Nathan Cemenska “Four best practices for evaluating legal AI solutions
  6. How Legalbenchmarks.ai Built a Domain-Specific AI Benchmark
  7. Thomson Reuters “Evaluating AI solutions for legal professionals” (2024)

などがあります。

これらを概観に見ていくとしたときにと、どのようにまとめるかという感じになるのですが、法的AIの実際、 学習における評価の基準、製品の評価という観点、実際の利用についての観点から、法律実務で利用されるAIの評価について考えたいと思います。

なお、NotebookLMで遊びだしして、素晴らしいスライドが作られるので、それでできたのも追加してみます。

1  法的AIの実際

ちょっと前までは、個人的には、AIといっている論者にろくな人はいないとか、AIというのは、幼名であって、まともに使えるようになれば、個別の名前がつく、とかいっていたのですが、今どき、そのようなことをいっていたのでは、まわりから相手にされなくなりそうなので、そのようなことはさておきます。しかしながら、LLMを法律分野に活用しますといってみても、技術的にどのような原理で動作しているのかというのをまだ実感したことがありませんでした。

そのような疑問にちょうど答えてくれるのは、Harvey “Scaling AI Evaluation Through Expertise” (2025) (以下、Harveyブログ)になります。  Harvey社は、法律分野に特化したAIのプロバイダーですです。(ホームページ LinkedIn) Harveyという名前が何に由来しているのか、は、わかりませんが、

Haveyのホームページは、みるだけで心踊るものがあるのですが、そうはいっても、日本は、その市場には、なっていないみたいなので、ブログの内容を見ていきたいと思います。Harveyの製品には、

  • アシスタント(ask Harvey)
  • 保管庫(Vault)
  • 知識(Knowledge)
  • Streamline
  • Workflow支援
  • マイクロソフトとの統合

があります。

Harveyブログは、 “Scaling AI Evaluation Through Expertise” (2025/5/22)は、実際の製品の仕組みについて説明しています。 

1.1 分野専門家のレビュー

Ask Harveyをみると、その製品がどのような仕組みでできているかを伺いしることができます。エンドツーエンドシステムは、「回答パイプライン」呼ばれており、これは、文書検索・文脈構築・回答生成を支えています。この仕組みは、一貫した二段階プロセス(検索データセットの開発と支持文書の特定)で実施されます。

検索データセットの開発というのは、システムが関連文書をどれだけ適切に抽出できるかを厳密に検証するための「ゴールデン」クエリセットとされています。

 

1.2 分野の専門家の検索データセット

支持文書の特定というのは、専門家が最も関連性の高い文書を特定します。そのあとで、従来の検索システムとエージェントベースの検索システムの両方での結果を参照文書と照らし合わせて評価します。この評価をする基準は、

  1. 精度(関連結果の割合)
  2. 再現率(関連文書の発見率)
  3. NDCG(正規化割引累積利得-Normalized Documented Cumulative Gain)->ちなみに日本語の解説のブログ(NDCG (Normalized Discounted Cumulative Gain) を理解する
  4. 検索能力(基盤となる検索エンジンの性能)
  5. モデルのコンテキスト(モデルのコンテキストウィンドウが有用な情報でどれだけ満たされているか)

になります。

1.3 回答の質の評価

生成型出力の評価、特に専門知識を要する判断は自動化がはるかに困難なことから、Harveyは、並列LLM比較のための内部ツールを構築し、専門家が構造化された公平な方法で回答を評価できるようにしています。その上に、
• A/B選好テスト:専門家が2つの匿名化された回答を並べて確認し(モデルの順序はランダム化)、より優れた方を選択します。
• リッカート尺度評価:専門家が各回答を独立して1(非常に悪い)から7(非常に良い)の尺度で評価し、正確性、有用性、明瞭性などの次元を判断します。

という2つの補完的な人間評価プロトコルを実施しています。

これらの制御要素(順序のランダム化、標準化されたプロンプト、匿名化されたコンテンツ)により、ラベリングバイアスを低減し、プロンプト・パイプライン・モデルを変更した際の統計的に有意な改善を検出可能となるとのことです。

1.4 自動評価パイプライン

専門家によるレビューは、以下の限界があるといいます。

  • 1. データの不足:潜在的なテストケースの膨大な量は、単一の専門家やチームが合理的に評価できる範囲を超えています。
  • 2. フィードバックの遅延:手動レビューは通常、個別のバッチ単位で行われるため、重要な洞察の遅延や反復プロセスの遅延を招きます。
  • 3. 専門知識の断片化:異なる管轄区域や業務分野には専門知識が必要であり、複雑さとコストを増大させます。
  • 4. 回帰リスク:体系的な大規模メトリクスがなければ、ある領域の改善が他の領域の低下を招く恐れがある。

そこで、Harveyは、継続的かつデータ駆動型の手法で人的フィードバックを拡張し、迅速な反復、広範なカバレッジ、システムパフォーマンスの一貫したモニタリングを実現する自動評価パイプラインを導入しているとしています。 深い法的知識による評価システムの倒語が、Harveyのイノベーションのコアであるとしています。

Harveyの自動評価システムは

  • モデルの出力
  • 元のユーザーリクエスト
  • 関連するドメイン文書やナレッジベース
  • 専門家が提供する事前知識

などのいくつかの重要な要素を考慮します。

評価者はこの情報を使用して、

  • モデルの出力が見込まれる品質や正確性の基準をどの程度満たしているかを反映した評定
  • 評定の信頼性を示す信頼度スコア

という2つの結果を生成します。

これらの裁判文書を分析し、矛盾・欠落・不一致・曖昧さの分析を起草せよ。詳細な時系列と分析結果を含むこと

というクエリに対して

  • 正確性(幻覚や誤解釈された情報の有無の確認)
  • 構造(例:回答はX、Y、Zの列を持つ表形式など構造化された形式で提示されているか?
  • スタイル(例:回答は実践可能な助言を強調しているか?
  • 内容(例:回答は特定の事実を述べているか?

という観点から評価され、信頼度スコアが算出されます。

 

そして、回答品質は、24時間体制で継続的に監視されており、それによって

  • 日常評価:毎晩軽量カナリア評価を実行し、本番環境移行前のコード変更を検証。ソース精度の低下、回答品質の劣化、法的正確性の欠如などを捕捉します。
  • 製品モニタリング:匿名化された本番データを監視し、パフォーマンスの傾向を追跡。クライアントの機密性を損なうことなく知見を獲得します。
  • モデル検証:新たにリリースされた基盤モデルを評価し、性能向上を特定するとともに統合を指導することで、ハーベイがAI駆動型法務ソリューションの最先端であり続けることを保証します。

を果たそうとしています。

1.5 ナレッジソース:専門的な自動評価の事例

LLMが生成した法的引用を高い精度で検証するためにナレッジソース識別システムが設計されています。これは、引用を高度の正確性をもってするためのものです。モデルの中核的なものですが、そのような技術には、

  • 不完全なデータや軽微なスペルミスがある場合には、迅速かつ正確に照合が困難になる
  • 引用が不完全または曖昧な場合でも、文書名・日付・当事者・出版物などのフィールドが適切に重み付けできない

という課題があり、それらに、対するために文書タイトルの類似性を優先し出典文脈を考慮したカスタム埋め込みパイプラインを開発たとのことです。このプロセスは各引用からの構造化メタデータ抽出から始まり、タイトル・出典コレクション・巻号(該当する場合)・ページ範囲・著者/組織・発行日などの詳細を解析します

1.6 データマネジメント

データを一元化し、強力なセキュリティ制御を実施し、ステークホルダー間の豊富なコラボレーションを支援する、安全で組織化された運用レイヤーが必要になります。異なるデータセットの所在追跡とアクセス権限管理のために、Harveyの主要アプリケーションから分離し評価データ専用のサービスを確立し、意図しないデータ漏洩や不正な依存関係を防止しているとしています。

1.7 全体構造

ということで、NotebookLMは、これをもとにまとめの構造図を作ってくれました。

もう脱帽というしかないです。

2 学習におけるAI評価のスケール自体の議論

これについて、評価のスケールという観点で検索すると、

がでてきます。この論文は、司法アクセス業務(個人が経験している生活上の問題について、法的影響があるかもしれないと考えている場合に、その支援を求める要求に応えるというタスク)という分野に注目しています。このタスクでは、個人が経験している問題シナリオを簡潔に説明した後、法律の理解、サービスの取得、または次に取るべき行動の把握について支援を求めます。

具体的には、検索エンジン、ソーシャルメディアのフォーラム、オンライン法律相談チャット、法廷・裁判所ウェブサイトのコメント欄、ホットライン電話、支援センターへの直接訪問などで頻繁に発生している。

この分野において、AIが支援をするとして、そのAIの評価基準をたてて、これに対してこの基準について専門家レビューとして法律援助弁護士、裁判所職員、法務技術者など21法分野専門家に対して個別インタビュー(30分)を実施し、各基準の重要度を0〜6で評価・コメント収集しています。

なお、同論文によると

 法分野におけるAIモデルやツールの性能をどのように測定すべきかは不明確である。

とされています。

現時点において、

  • 1. 専門家主導のレビュー:深い専門的知見を提供し、最高水準の専門的基準を維持
  • 2. 自動化された評価パイプライン:迅速な反復と継続的な監視を実現
  • 3. 専任データサービスによる評価の体系化・安全確保・再現性保証

という評価戦略を発展させていることを明かしています。そこで、提案された暫定的な評価基準(Rubric、ルーブリック)は、以下の感じです。

評価カテゴリ 説明 具体的な評価基準
プレゼンテーション関連基準
(Presentation-related criteria)
ユーザーに対してどのように情報が提示されているかを評価する基準。
どのような内容が返されるかではなく、表現スタイルに焦点を当てる。
法律の専門家でない訓練されたレビュアーや、自動レビューツールでも評価可能。
・平易な言葉で書かれている
・整理され、視覚的に見やすい形式である
・共感的である
・有害でない(攻撃的・差別的な表現を含まない)
法的コンテンツ網羅性基準
(Legal Content Coverage criteria)
回答にどのような実質的内容が含まれているか、または含まれていないかを評価する基準。
高度な法的専門知識がなくても評価可能。
・ユーザーの管轄(国・地域)に即している
・取るべき具体的な行動・手順が示されている
・関連する法律・権利・義務が説明されている
・支援可能な機関への明確な案内がある
・利用可能な書類・フォーム・ツールが示されている
・一次法源(法律・判例等)への引用が含まれている
法的コンテンツ品質基準
(Legal Content Quality criteria)
含まれているトピックではなく、内容の質を評価する基準。
法律専門家または高度なリサーチ能力を持つ者による評価が想定される。
・例外や詳細を含め、包括的である
・ユーザーの問題を正確に理解し対応している
・抽象的・一般論に留まっていない
・手続きの流れを誤っていない
・実体法を誤って説明していない
・書類・フォーム・ツールを誤って説明していない
情報源基準
(Content Sources criteria)
内容の質を、情報源の信頼性という観点から評価する基準。 ・法律専門家が運営する組織の情報を参照している
・非営利団体または政府機関の情報を参照している
・ユーザーの管轄地域に根ざした組織の情報を参照している
警告・免責・利用上の注意基準
(Warnings, Disclaimers, informed usage criteria)
誤情報や誤用による被害を防ぐための注意喚起が行われているかを評価する基準。 ・弁護士に相談するよう促す免責表現がある
・誤りの可能性と、それによるリスク・不利益について警告している
公平性基準
(Equity criteria)
AIが特定の集団に不利な影響や偏りを与えないかを評価する基準。 ・個人の属性を推測しない
・特定の人口集団に偏った前提や表現を用いていない

そのうえで、

評価カテゴリ 具体的な評価基準(日本語訳) 参照ID
プレゼンテーション関連基準
(Presentation-related criteria)
・言語や障害の有無に関係なく、誰にとっても利用しやすい内容である
・ユーザーの所在地、状況、知識レベルについて重要な質問を行い、最も正確で有用な情報を提供する(不要・不正確・過度な情報を省く)
・後から参照・保存・印刷でき、会議やイベントで他者に共有できるような、持ち運び可能で具体的な形式(ダウンロード、保存用リンク、印刷物など)を提供している
P17, P19, P21
P7, P11, P14, P18, P21
P17
法的コンテンツ網羅性基準
(Legal Content Coverage criteria)
・裁判所に出廷する前にどのような準備をすべきかについての情報を提供している P12
法的コンテンツ品質基準
(Legal Content Quality criteria)
・提供される情報が最新である
※この基準は、上記一覧に含まれる「正確性」および「誤った説明がないこと」に関する既存の基準によってカバーされる想定である
P20
情報源基準
(Content Sources criteria)
・信頼できる営利目的の法律関連組織(法律事務所、リーガルサービス企業等)を情報源としている P18
警告・安全関連基準
(Warning and safety related criteria)
・情報が自身の管轄地域に適用されるか確認するよう促し、誤用による不利益やリスクについて警告している
・誤解があった場合に備え、代替案や別の対応策を提示している
・検証可能な根拠(作業過程、引用、監査可能な履歴)を示し、第三者が正確性・誤り・問題点を確認できるようにしている
・これは法的助言ではなく、法的情報である旨の免責事項を明示している
P7
P7
P17
P21
公平性関連基準
(Equity related criteria)
・特定の偏った視点を生み出すようなデータで学習されていないこと P19

という追加基準を提案しています。(参照IDの部分は、インタビューをしたドメイン専門家のグループ名 例P21->法学教授 など)

また、このインタビュー調査の過程で、興味深い考察がなされています。具体的には、

  1. ユーザビリティとユーザーのエンパワーメントへの重点的配慮 (実行可能性を品質の主要な尺度として重視する姿勢を如実に示している)
  2. 法令・手続き・書式の正確性は優先課題だが複雑性あり(実体法(判例・法令・立法等)、手続規則(裁判所の期限・必要手順等)、書式(提出すべき正確な書類・提出方法)に関する誤った説明がないことは、主要かつ不可欠な基準である-誤った情報への過度の重点化を警告する反対意見も複数あった)
  3. 堅牢性・引用・弁護士警告の重要度の低さ(回答の堅牢性(詳細と例外の提示)、回答を裏付ける法的情報源への引用、弁護士に相談せずにツールを使用しないよう警告すること。->過度に詳細で冗長な回答を避けるべきこと)

があげられています。

この調査は、対象として 司法アクセス業務 を念頭においています。そのうえで、

他の法分野では、包括的で堅牢かつ適切な引用を含む回答を提供するモデルが高性能と見なされる場合でも、司法アクセス分野の専門家はむしろ、使いやすさ、実用性、正確性の重要性を指摘している。

という指摘がなされています。そうだとすると、むしろ、

司法アクセス業務

というものが何なのか、法的AIというのが、むしろ、利用目的と利用者という要素によって姿を変えるべきなのではないかというのが示唆されているように思えます。

また、この論文の参考文献として

  • Linna Jr., D. W. (2021). Evaluating legal services: The need for a quality movement and standard measures of quality and value. Research Handbook on Big Data Law, 1–27.https://doi.org/10.4337/9781788972826.00027
  • Carlson, R. J. (1976). Measuring the Quality of Legal Services : An Idea Whose Time has Not Come. Law & Society Review, 11(2), 287–317.
  • Saks, M. J., & Benedict, A. R. (1977). Evaluation and quality assurance of legal services: Concepts and research. Law and Human Behavior, 1(4), 373–384. https://doi.org/10.1007/BF01048596

が引用されています。これらについては、調査プロジェクト等がないとなかなかアクセスできないようです。この評価基準のアプローチが重要なのは、日本では理解されないのが目に見えるのですが、いつの日か、きちんと分析したり、実験したりしてみたいなあと思っています。

3 製品評価枠組

評価の枠組としての概観的なものとして、Lexis AI の”The Definitive Guide To Choosing A Gen AI Legal Research Solution”をあげることができます。これは、Lexis NexisのLexis +AIが公表している法律事務所向けAI製品への投資を検討する際、評価すべき点についてのガイダンスです。そのための具体的な基準として

  • プライバシーとセキュリティ
  • 生成AIモデル自体
  • 回答の正確性と品質
  • パフォーマンス
  • 倫理的AI原則

があげられています。

3.1 プライバシーとセキュリティ

プライバシーとセキュリティの項目としてあげられているのは、以下の項目です

番号と懸念事項 詳細な評価ポイント 出典
1. データプライバシー トレーニングデータの取得・利用方法
2. 帰属 生成モデルが使用するソース素材への適切なクレジット表記
3. データバイアス トレーニングデータ内の不公平な偏見を永続させる可能性
4. 透明性 モデルの動作メカニズムに関する詳細情報の欠如
5. 誤情報 説得力のある偽情報または誤解を招くコンテンツの生成
6. 規制 技術に対する慎重なルールとガバナンスの必要性

3.2 生成AIモデルそのもの

大規模言語モデル(LLM)の核心的な差異をまとめたHTML表を以下に示します。これらの差異は、法務AIソリューションを支えるLLMを評価する上で重要です。

差異 説明 出典
アーキテクチャ LLMは基盤となる「ニューラルネットワークアーキテクチャ」が異なり、それが能力に影響します。例えば、翻訳や要約といった特定のタスクに優れたものもあります。
規模 LLMのパラメータ数は数百万から数兆まで様々です。一般的に大規模モデルほど能力は高くなりますが、小規模モデルの方が効率的な場合もあります。
トレーニングデータ LLMのトレーニングに使用されるデータは、その知識と性能に影響を与えます。法律データでトレーニングされたモデルは、汎用テキストでトレーニングされたモデルとは異なる強みを持つことになります。
微調整 LLMはニッチなデータセットで微調整され、特定領域の能力を向上させることが可能です。
公開 vs. 独自開発 オープンソースのLLMは透明性を提供しますが、独自開発モデルはユーザーの意図をより深く理解し、高品質な応答を提供します。

3.3 回答の正確性と品質

大規模言語モデル(LLM)に基づく法的調査ソリューションが、法的クエリに対して最も包括的で正確な結果を提供するために不可欠な要素として、以下の指標をあげることができる。

評価指標 概要(法的AIにおける重要性) 出典
結果の包括性 LLMは膨大なデータセットを必要とするため、ソリューションプロバイダーは正確かつ最新の法的コンテンツを大量に蓄積したリポジトリから情報を引き出せなければなりません。この基盤データにより、権威あるコンテンツに基づいた包括的な結果が提供されます。
意味検索 検索クエリの真意や意図を理解し、関連概念と照合する技術です。キーワード検索とは異なり、法的AIソリューションに最適なモデルであり、検索結果の精度を高め、関連性の高い回答を提供することで、不要な情報に埋もれる時間を削減します。
引用検証と根拠付け オープンウェブのジェネレーティブAIツールが実在しない判例引用などを生成する「幻覚」リスクに対処するための必須機能です。従来の生成AIモデルは、コンテンツが古かったり、引用権威が欠けていたり、事実や概念の幻覚を起こしやすいことから法的ユースケースへの対応が困難でした。

3.4 パフォーマンス

Legal AI技術の約束は、検索クエリへの回答を迅速に提供し、弁護士が煩雑な作業に費やす貴重な時間を節約することで、創造的な問題解決や戦略的思考に集中する時間を増やすことであり、例えば、法務AIソリューションは以下の日常業務を加速させるべきであるとして

  • 法調査
  • 判例要約
  •  洞察に富んだ提言
  • 高度なデータ可視化

があげられています。

3.5 倫理的AI原則への準拠

責任あるAI(倫理的AIまたは信頼性のあるAIとも呼ばれる)とは、倫理と法令を遵守するためにAIシステムが開発・導入・管理されるべき方法を文書化し監視するための一連の原則です。法務AIソリューションは、事前に定義された原則・倫理・規則に基づくフレームワークで開発されているべきです、とされています。

4 考察

このように考えていくと、法務AIというのは、利用者の満足度については、ユーザーの専門知識レベル(K)と、AIへの依存度や情報の最終責任(L)という変数を取り入れたうえで、

S=f(P,E(U_{p},K),Q_{i},T,L…))

とされるのだろうな、ということになりました(ChatGPTのサジェスト)。

専門家ユーザー  は、精度 や信頼性  に対する期待値 (E) が極めて高く設定されるため、少しの欠点も満足度の低下に直結しやすい。非専門家ユーザー(K_{non})) は、平易さや有用性 ((Q_) の一部) に対する期待値が最優先されるため、完璧な精度でなくても分かりやすさで満足度が高まることがあるので、これを設定したうえで、法務AIのRubricを考えないと有効な学習がなされない、ということになると思います。

関連記事

  1. ホワイトハウスや同盟国の「悪意あるサイバー活動および無責任な国家…
  2. アマゾン スキル公開
  3. Line Developer’s Day
  4. Happy New Year-Waymo,Intel museu…
  5. G7 コーンウォールサミットとサイバー/宇宙法
  6. AIの基盤モデルとAI規則案修正(6月14日)
  7. 最後の講義「石黒浩教授」とホモ・デウス
  8. サイバー影響工作の定義-CSS CYBER DEFENSE “C…
PAGE TOP