
Appleの新しい研究論文が話題になっています。その反応を見た人は、LLM業界全体を揺るがしたと思うかもしれません。しかし、それは全く事実ではありません。MLコミュニティが長年議論してきた議論を主流に持ち込むための、最良の試みと言えるかもしれません。この論文がなぜ重要なのか、ここで考えてみましょう。
問題の論文「思考の錯覚:問題の複雑性というレンズを通して推論モデルの強みと限界を理解する」は確かに興味深い。この論文では、Claude 3.7やDeepSeek-R1といったいわゆる大規模推論モデル(LRM)を、データ汚染の影響を受けやすい標準的な数学ベンチマークではなく、制御されたパズル(ハノイの塔、ブロックワールドなど)を用いて体系的に検証している。
その結果は?LRMは中程度の複雑さのタスクではLLMよりも優れたパフォーマンスを発揮しますが、より複雑なタスクではLLMと同様に破綻します。さらに悪いことに、タスクが難しくなるにつれて、これらの「推論」モデルは、たとえわずかな余裕予算が残っているとしても、思考を増やすのではなく、思考を減らすようになります。
この論文は、まるで何か重大な秘密を暴露したかのように注目を集めていますが、私はこう言いたいのです。これは何も新しいことではありません。ただ、より明確になり、より多くの人が理解しやすくなっただけです。実際、それは素晴らしいニュースです。
論文が示していること
注目すべき点は、「推論」を目的としたモデルが、忍耐強い子供でも習得できる問題で依然として失敗するということです。例えばハノイの塔では、Claudeやo3-miniのようなモデルは7~8枚のディスクで動作しなくなります。さらに、正確な解法アルゴリズムを与えられ、それに従うように指示された場合でも、パフォーマンスは向上しません。
言い換えれば、彼らは推論しているのではなく、LLM推論パターンをより精巧な方法で反復的に拡張しているのです。この区別は重要であり、Appleの論文の真の価値です。著者らは「推論」や「思考」といった意味深な用語に反論しています。これらの用語は記号的な推論や計画を示唆しますが、実際には単なる階層化されたパターン拡張が行われているだけです。モデルは、もっともらしい結果にたどり着くまで、複数の推論パスを実行します。
これはまさに新発見というわけではない。MetaのAI責任者であるヤン・ルカン氏は長年、今日の法学修士課程の学生は飼い猫よりも賢くないと主張、AGIは『トランスフォーマー』から生まれるものではないと声高に主張してきた。スバラオ・カンバンパティ氏は長年にわたり、「思考の連鎖」がこれらのモデルの実際の計算方法と一致しないという論文を発表してきた。そしてゲイリー・マーカス氏も、長年唱えてきた「深層学習は行き詰まりつつある」という主張に新たな栄誉が加わったと言えるだろう。
問題解決ではなくパターンマッチング
この研究で最も痛烈なデータポイントは、複雑性が増すとモデルが文字通り試行錯誤をやめてしまう点だろう。十分な計算リソースが残っているにもかかわらず、課題が拡大するにつれてモデルは内部の「思考」を縮小してしまうのだ。これは単なる技術的な失敗ではなく、むしろ概念的な失敗と言える。
Appleの論文が明らかにしているのは、多くのLLMが失敗するのは「訓練が不十分」や「単にデータが足りない」からではないということです。LLMが失敗するのは、段階的なアルゴリズムの論理を表現し、実行する方法が根本的に欠如しているからです。そして、これは思考連鎖による促しや強化学習による微調整では、力ずくで解決できるものではありません。
論文自体を引用すると、「LRMは明示的なアルゴリズムを使用できず、パズル全体にわたって一貫性のない推論を行う」とのことです。たとえ解決策の青写真を渡されても、LRMはつまずいてしまうのです。
それで…これは悪いニュースですか?
はい。ただ、新しいニュースではないです。
これらの結果は、機械学習研究コミュニティに深く関わっている人にとっては、それほど驚くべきものではない。しかし、これらの結果が巻き起こした話題は、より興味深い点を浮き彫りにしている。それは、機械学習の世界が長年にわたり築き上げてきた区別、特にこれらのモデルが何ができて何ができないかについての区別を、一般大衆がようやく理解する準備が整ったということだ。
この区別は重要です。人々がこれらのシステムを「思考」と呼ぶとき、私たちはそれらを、現在できないことを代替できるかのように扱い始めます。その時、幻覚や論理破綻は、興味深い奇癖から危険な盲点へと変化します。
だからこそ、Appleの貢献は重要なのです。LLMを「暴露」したからではなく、LLMとは何か、そうでないものとは何かを明確に線引きするのに役立つからです。そして、その明確化はずっと前から求められていました。
更新:以前のバージョンでは、ヤン・ルカン氏が現在の法学修士課程を飼い猫に例えていると記載されていました。実際には、彼の主張は、今日の法学修士課程は 飼い猫よりも能力が劣っているというものです 。本文は彼の立場をより反映するように修正されました。
candode.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。