MIT、AIテキスト分類器の評価ツールをオープンソースで開発
大規模言語モデルが私たちの日常生活にますます浸透するにつれて、その信頼性を厳密にテストし、確保することの重要性はかつてないほど高まっています。映画のレビューが絶賛なのか辛辣な批判なのかを見極める場合でも、ニュース記事をビジネスまたはテクノロジーに分類する場合でも、オンラインチャットボットを監視して不正な金融アドバイスや医療上の誤情報を提供しないようにする場合でも、これらの自動評価は現在、主にテキスト分類器として知られる洗練されたアルゴリズムによって処理されています。しかし、重要な問題は依然として残っています。これらの分類の正確性をどのようにして真に確認できるのでしょうか?
MITの情報・意思決定システム研究所(LIDS)のチームは最近、これらの分類器の有効性を測定するだけでなく、その精度を向上させる明確な道筋を提供する革新的なアプローチを発表しました。主任研究科学者Kalyan Veeramachaneniと、彼の学生であるLei Xu、Sarah Alnegheimish、および他の2人の協力者によって開発されたこの新しい評価および修復ソフトウェアは、無料でダウンロード可能となっており、より広範なAIコミュニティに significant な貢献をしています。
従来、分類システムをテストするには、「合成例」を作成する必要がありました。これは、すでに分類された文に似せて作られた文です。例えば、研究者は以前に肯定的なレビューとラベル付けされた文を取り、単語を1つか2つ微妙に変更することで、分類器を欺いて否定的に誤解させることを目指します。たとえ核心的な意味が変わらなくてもです。同様に、誤情報と見なされた文が、正確なものとして誤分類されるように微妙に調整されることもあります。これらの欺瞞的な例は、敵対的サンプルとして知られ、分類器の脆弱性を露呈します。これらの弱点を明らかにするために様々な方法が試みられてきましたが、既存の技術はしばしば苦戦し、多くの重要なインスタンスを見逃しています。
このような評価ツールの需要は高まっており、特に企業が多様な目的でチャットボットを導入し、その応答が適切で安全であることを確保しようと努めているためです。例えば、銀行は口座残高の確認などの日常的な顧客問い合わせにチャットボットを使用するかもしれませんが、誤って金融アドバイスを提供しないよう厳密に確認する必要があります。これは、機関が責任を負う可能性を秘めているためです。Veeramachaneniが説明するように、「チャットボットの応答をエンドユーザーに表示する前に、テキスト分類器を使用して、それが金融アドバイスを提供しているかどうかを検出したいのです。」これにより、分類器自体の堅牢なテストが必要になります。
MITチームの方法は、彼らが改善を目指す技術そのもの、すなわち大規模言語モデル(LLM)を活用しています。敵対的サンプルが作成されるとき(元の意味を保持しつつ分類器を欺く、わずかに変更された文)、別のLLMが使用されて意味的等価性が確認されます。もしLLMが2つの文が同じ意味を伝えていることを確認したにもかかわらず、分類器がそれらに異なるラベルを割り当てた場合、Veeramachaneniが指摘するように、「それは敵対的な文であり、分類器を欺くことができます。」興味深いことに、研究者たちは、これらの成功した敵対的攻撃のほとんどが単語1つの変更のみに関わっており、これは代替文を生成するためにLLMを使用している人々にはしばしば見過ごされる微妙な点であることを発見しました。
何千もの例を(再びLLMを使用して)広範に分析した結果、チームは特定の単語が分類の変更に不均衡な影響を与えることを発見しました。この重要な洞察により、分類器の精度をテストするためのより的を絞ったアプローチが可能になり、常に最も大きな違いを生み出す少数の単語のサブセットに焦点を当てることができます。LIDSを最近卒業し、その博士論文がこの分析に大きく貢献したLei Xuは、「全体的な分類を変更し、分類器を欺くことができる最も強力な単語が何であるかを特定するために、多くの興味深い推定技術を使用しました」とVeeramachaneniは詳しく説明しました。このアプローチにより、敵対的サンプルの生成における計算負担が劇的に軽減されます。
これに基づいて、このシステムはさらにLLMを使用して、これらの「強力な」単語に密接に関連する単語を特定し、分類結果への影響に基づいて包括的なランキングを作成します。特定された後、これらの敵対的サンプルは分類器を再トレーニングするために使用でき、そのようなエラーに対するその堅牢性を大幅に向上させることができます。
分類器の精度を向上させることの意味は、ニュース記事や映画レビューの単純な分類をはるかに超えています。これらのシステムは、誤分類が深刻な結果をもたらす可能性のある高リスク環境でますます展開されています。これには、機密性の高い医療、金融、またはセキュリティ情報の偶発的な漏洩の防止、生物医学のような分野での重要な研究の指導、あるいはヘイトスピーチや誤情報の特定とブロックが含まれます。
この研究の直接的な結果として、チームは「p」と名付けられた新しい測定基準を導入しました。これは、単語1つの攻撃に対する分類器の回復力を定量化するものです。このような誤分類を軽減することの極めて重要な重要性を認識し、研究チームは彼らのツールをオープンアクセスにしました。このパッケージは2つの主要なコンポーネントで構成されています。SP-Attackは、さまざまなアプリケーションで分類器をテストするための敵対的サンプルを生成し、SP-Defenseは、これらの敵対的サンプルをモデルの再トレーニングに使用することで分類器の堅牢性を向上させるように設計されています。
いくつかのテストでは、競合する手法が敵対的攻撃に66%の成功率を許したのに対し、MITチームのシステムはこれをほぼ半減させ、攻撃成功率を33.7%に削減しました。他のアプリケーションではわずか2%の改善にとどまりましたが、これらのシステムが毎日処理する数十億のインタラクションを考慮すると、たとえわずかなパーセンテージであっても数百万のトランザクションに影響を与える可能性があるため、このような一見小さな利益でも非常に重要です。チームの発見は、7月7日にジャーナル Expert Systems に掲載されました。論文はLIDSのXu、Veeramachaneni、Alnegheimishと、フランスのマルセイユにあるIRDのLaure Berti-Equille、スペインのフアン・カルロス王大学のAlfredo Cuesta-Infanteによって執筆されました。