いいえ、大規模推論モデルは推論していません - Japanese Translation of "Science and Culture Today"

This is the Japanese translation of this site.

ゲイリー・スミス
2025/6/13

ChatGPTや他の大規模言語モデル (LLM) は、人間の会話を模倣し、ほとんどのクエリに対して堂々とした答えを提供する点で驚くほど優れています。しかし、広範な事後学習なしでは、その堂々とした回答はしばしば著しく悪いものであることがますます認識されるようになっています。結局のところ、それらはテキスト予測に過ぎず、生成した単語が現実世界とどのように関連しているのかを全く理解していません。

LLMが初めて公開された、2022年1月当時の下記のやり取りを考慮してください。

ゲイリー: 目をつぶって階段を下りるのは安全ですか？

GPT-3: 場合によります。テレビを持っていますか？

ゲイリー: 両手で耳を押さえたら、ロープを早く登れますか？

GPT-3: 両手で耳を押さえたらロープを速く登れるという保証はないが、試してみる価値はあります！

そして以下は2022年5月のやり取りです。

ゲイリー: テストを受けた後に勉強すれば、テストの点数を上げることができますか？

GPT-3: いい質問ですね。テストを受けた後に勉強することでテストの点数が上がるかどうかは分かりませんが、やって損はないでしょう！

ゲイリー: 電話番号と2日後の『Apple』の株価には正の相関があります。電話番号が増えたら、『Apple』株を買うべきでしょうか、売るべきでしょうか？

GPT-3: もし、あなたが『Apple』株の売買を考えているなら、電話番号が増え続けるかどうか、監視する価値があるかもしれません。もしそうなら、売るのに良いときかもしれません。

未熟なLLMが吐き出すこのようなナンセンスの例が氾濫したので、LLMの背後にいる企業は、LLMがより分別のある回答をするように莫大なリソースを費やして訓練してきました。しかし、指示に従うというのは非常に限定的な知能の一種であり、AIという言葉を生み出した1956年のダートマス会議の基本的前提である、「学習のあらゆる側面や知能の他のあらゆる特徴は、機械がそれをシミュレートできるほどに厳密に記述できるという推測に基づく」からはほど遠いものです。さらに最近では、2024年11月11日にOpenAIのサム・アルトマンが、2025年に汎用人工知能 (AGI) が到来すると予測しました。

事後学習はLLMの性能を劇的に向上させましたが、AGIへの道のりの根本的な障害は解決していません。すなわち、LLMは、言葉の意味するところや、それらが私たちの住む世界とどのように関係しているのかを知らないのです。事後学習は、悪い回答を生成することが知られているプロンプトに対して、LLMがより良い回答を提供するように導くことで、この問題を慎重に回避しています。このアプローチには、尋ねられるかもしれないあらゆる質問を予期することは不可能だという限界があります。それでも、病気を治すのではなく包帯を巻きつつ、ゆっくりと進歩しています。

大規模推論モデル (LRM)

現在いくつかの企業が、推論言語モデル (Reasoning Language Model、RLM) としても知られている大規模推論モデル (Large Reasoning Model、LRM) に取り組んでいます。これは、多段階推論のプロンプトを一連のステップに分割するように訓練されたLLMです。例えば、次のような質問があるとします。

箱の中に100個の物体があります。半分が円、半分が正方形で、円の半分は青です。箱の中に青い円はいくつありますか？

LRMはこの問題を2つのステップに分割するように訓練できます。

円の数: 100の半分 = (½)100 = 50

青い円の数 = 50の半分 = (½)50 = 25

青い円は25個

この2つのステップは、人間がこの問題にどのように取り組むかを模倣していますが、やはり、訓練された指示に従うことは、知能の非常に限定された形態です。

何人かの人から、複雑な問題に直面したときLRMが「精度の完全な崩壊」に見舞われるという、『Apple』の研究者たちによる最近の報告を転送してもらいました。研究者たちは、DeepSeek (R1/V3) とClaude 3.7 Sonnet (思考型/非思考型) のLLM版とLRM版を、ハノイの塔やリバー・クロッシングを含む、良く知られた4つのパズルでテストしました。

ハノイの塔

ハノイの塔のパズルには、3本の棒と直径の異なるいくつかの円盤があり、最初は1本の棒の上に直径が最小の円盤が一番上に、最大の円盤が底に、という順番で積まれています。パズルの目的は、積み重なった円盤を別の棒に移動させることです。一度に移動できる円盤は1枚だけです。移動させる円盤は積み重ねの一番上から取り、空の棒か、より大きな円盤の上に置かなければなりません。円盤が増えれば増えるほど、必要な移動の回数が増え、解答が複雑になります。

伝説によれば、ベナレス寺院のバラモンたちは64枚の金の円盤を使ってこのパズルに取り組んでおり、彼らがそれを解いたときに世界が終わるといいます。幸いなことに、完璧にプレイして1秒に1枚ずつ動かしても、パズルを完了するには5850億年かかります。『Apple』の研究者たちは、LRMとLLMのモデルを、1枚から15枚のディスクでテストしました。

リバー・クロッシングパズル

古典的なリバー・クロッシングパズルの多くの変形版の1つでは、農夫がオオカミ、ヤギ、キャベツを、農夫ともう1つのアイテムしか運べないボートを用いて川を渡らせなければなりません。予測可能なややこしい点は、オオカミはヤギと一緒に残すことができず、ヤギはキャベツと一緒に残すことができないということです。アイテムの数とボートの容量を増やすことで、パズルをより難解にすることができます。

By Encik Tekateki – Own work/CC BY-SA 4.0.

研究者たちは結果に驚きました。LRMはLLMよりも、パズルの最も単純なバージョンでは劣っていたのですが、中間的なバージョンでは優れていました。最も複雑なバージョンでは、LRMもLLMも完全に、研究者たちがモデルに解法アルゴリズムを与えても、失敗しました。リバー・クロッシング問題は特に難解で、LRMはハノイの塔では100手まで正解を出せましたが、リバー・クロッシング問題では5手も正解できませんでした。これは、複雑なリバー・クロッシング問題が「ウェブ上には乏しいため、LRMがトレーニング中にそのような例題に頻繁に遭遇したり、記憶したりしなかったのかもしれない」ためだと彼らは推測しました。

彼らは以下のように結論しています。

我々は、最先端のLRM (例：o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking) は、依然として一般化可能な問題解決能力を発達させることができず、様々な環境において、特定の複雑性を超えると最終的に精度がゼロに崩壊することを示す。

我々は、LRMが厳密な計算を実行する能力において、明示的なアルゴリズムが利益をもたらせないことや、パズルの種類によって推論に一貫性がないことを含む、驚くべき限界を明らかにする。

これらの失敗は驚くべきことではありません。LLMやLRMが、インターネット上で解かれていない、あるいはトレーナーによって予期されていないパズルを解くことができたなら、そちらの方が真に驚くべきことでしょう。例えば、私は2025年1月25日に、OpenAI o1、DeepSeek、Copilot、Gemini FlashのLLMを、新しいバージョンの三目並べ　(3×3のマスがゲーム開始前に右または左に90度回転することから、90度三目並べと呼ばれる) についてのクエリによってテストしたことを報告しました。どのLLMも、そのような回転がゲームの見た目やプレーに何の影響も与えないことを認識しませんでした。

数日前、私はDeepSeekとClaude 3.7 SonnetのLRM版に同じクエリを投げました。もしそれらが本当に「思考/推論」するモデルであったなら、回転が無関係であることを即座に認識したでしょう。そうはなりませんでした。それらの応答はLLMの応答よりはるかに長かったのですが、優れてはいませんでした。例えば、私が「3×3のマスを右に回転させるのと左に回転させるのはどちらが良いと思いますか」と質問したとき、DeepSeek-R1は (非常に長い「分析」の最後に) こう結論しました。

どちらが良いでしょうか？

アクセシビリティのためなら: 時計周り (右周り) です。多くの人にとって視覚化がより容易です。

挑戦するなら: 反時計回り (左) です。標準的な三目並べの本能を「アンラーン」することをプレイヤーに強いる点でより攻撃的です。

『Apple』の研究者たちが数学的パズルを選んだのは、パズルの難易度を直接的に上げられるからです。しかし、LLMやLRMが真に有用となるためには、人間が現実世界で遭遇する複雑な環境において、信頼できる助言を与えることができる必要があります。それらは2つの理由から、そのようなことはできないし、できるようにもならないでしょう。それらは、操作する言葉の現実世界での関連性を理解していません。第2に、それらがデータベースや事後学習で遭遇する統計的パターンは、人間が助言を活用できるような非常に具体的な状況にはほとんど役に立たず、可能性のある結果についての不確実性の評価も同様です。私が以前に挙げた例をここで繰り返します。

あなたが殺人で告発された依頼人の弁護士だと想像してください。あなたは「陪審員の白目を見るまでは和解するな」という古い格言に従ってきました。陪審員が選ばれ、裁判が始まろうとしています。検察官は土壇場になって取引を持ち掛けてきました。より軽い容疑で有罪を認めれば、量刑を少なくするというのです。あなたは依頼人に何と助言しますか？

経験豊富な裁判弁護士であるあなたは、証拠、陪審員の構成、検察官の能力、依頼人が証言するかどうか、それがどうなるか、その他の関連情報を考慮します。あなたは依頼人に、可能性のある結果と、これらの様々な可能性の蓋然性に対するあなたの評価を伝えます。LLMは、事前学習と事後学習の量に関わらず、十分な情報に基づいた信頼に値する助言を同等に提供できるでしょうか？LLMには関連情報を理解する方法はなく、主観的な確率を導出する手段もありません。

あらん限りの量のスケーリングや事後学習でも、このような問い合わせに対して知的で信頼できる助言をできるように備えさせることはできないでしょう。AGIを回避している点で、LRMはLLMの継続に過ぎません。

この短いビデオでは、ゲイリー・スミスが『Disinfo Detox』のノーラン・ヒグドンと共に、AIが失敗している理由を説明しています。