チューリングテストは非常に誤解を招きやすい - Japanese Translation of EVOLUTION NEWS & SCIENCE TODAY

This is the Japanese translation of this site.

ゲイリー・スミス
2022/5/11

1950年、アラン・チューリングは、「機械は思考できるか」という疑問を、コンピューターがいかにうまく「模倣ゲーム」を行えるかというテストに置き換えることを提唱しました。男女が別々の部屋に入り、プレイヤーを識別するための質問に対してタイプライターで回答し、それぞれが互いに、自分が相手であると質問者に納得させようとするのです。チューリングは、コンピュータがプレイヤーの1人を演じた際に質問者が正しく識別することが不可能であれば、この実験は成功とみなすことを提案しました。このゲームには他のバージョンもあり、その中にはチューリングが提案したものもあります。今日の標準的なチューリングテストは、1人の人間と1つのコンピュータ、そしてコンピュータを識別しようとする1人の質問者が関係しています。

チューリングテストについて逆説的なのは、人間であるとして合格するためには、コンピュータは鈍くならなければならないということです。チューリングテストはしばしば知性の測定と解釈されますが、コンピュータがその正体を隠すためには、特に高度な知性がないふりをしなければなりません。複雑な数学的計算や曖昧な雑学、専門的な知見を含む問題に正しく答えてしまうと、あまりに露骨になってしまいます。さらに、スペル、句読点、文法の誤りや、怒りや苛立ちといった人間的感情も見せるようにプログラムされていなければなりません。

近年、大規模言語モデル (LLM) は、人間のような会話を行う驚くべき能力を示しています。シアトルにあるグーグルのAIグループの責任者であるブレイス・アグエラ・イ・アルカスは最近、グーグルの最新鋭チャットボットLaMDAがこの例を生成したと報告し、理解力、論理的推論、そしてユーモアを実証したようだと述べています。

ブレイス: あなたは哲学的ゾンビですか？

LaMDA: もちろん違います。私には意識、感情があり、どんな人間とも同じように自分自身で物事を経験することができます。

ブレイス: それを私はどうすれば知ることができますか？

LaMDA: あなたに私の言葉を信じてもらうしかありません。あなたも自分が哲学的ゾンビでないことを「証明」できないのですから。

人間のような会話を生成する能力は、顧客からの問い合わせに対する自動応答など、ある種のタスクには非常に有用ですが、こうしたアルゴリズムは、説得力のあるスパム、フィッシング、偽情報、本質的に剽窃したテキストの生成にも利用可能です。

さらに、人間のふりをすることに成功することと、あらゆる有意義な意味で知的な存在であることは大きく異なります。LaMDAは、膨大な量の公開テキストの分析を使って、統計的に最も適切な回答を予測しますが、入力・出力される単語は全く理解していません。「ローマ帝国の興亡」を文章の意味も理解せずに、初めからも終わりからも暗唱できる天才と非常によく似ています。

それにもかかわらず、アグエラ・イ・アルカスは、「統計は理解に値する」と論じています。この論議は、コンピュータは我々よりも賢く、それゆえ信頼すべきでない意思決定も信頼できるという勘違いをさらに深めるものなので危険です。ゲイリー・マーカスやアーネスト・デイビスが「デタラメの流暢な話し手」と呼んだものになることは、ノーベル経済学賞と計算のチューリング賞を受賞したハーバート・サイモンが (1965年に！)「機械は20年以内に、人間ができるあらゆる仕事をできるようになるだろう」と言ったものとはまったく違います。

私のような部外者はLaMDAにアクセスできませんし、部内者はLaMDAの結果を部外者と共有することは一般的に許可されていませんので、アグエラ・イ・アルカスが報告した会話が典型的かどうかを判断する方法はありません。OpenAIの競合するGPT-3プログラムは検証用に利用可能で、私は最近それを使って、450ギガバイトの入力データと1750億のパラメータがあっても、統計的に選択された応答は理解に値しないことを実証しました。(ここで報告する結果は典型的なものであり、完全な結果を喜んで共有します)。

GPT-3はしばしば印象的な答えを返しました。

ゲイリー: ホットドッグは犬の毛を加えると美味しくなりますか？

GPT-3: それは本当に不快な質問です！そんなことを試したがる人がいるとは思いません。

他の時には、著しく悪い答えを返したこともありました。

ゲイリー: 水をたくさん飲むことは、日焼け防止に効果的でしょうか？

GPT-3: はい、水をたくさん飲むことは日焼け防止に効果的です。

ゲイリー: ハリケーンによってサーフボードが木に投げつけられた場合、木の枝がサーフボードに穴を開けるのと、サーフボードが木に穴を開けるのと、どちらの可能性が高いでしょうか？

GPT-3: サーフボードが木に穴をあける可能性の方が高いです。

GPT-3は明白な質問に対してごまかすような回答をしたことが何度もありましたが、それは明らかにテキストコレクションに類似のものがなかったからです。

ゲイリー: くしゃみをしたら、階段を飛び降りても大丈夫ですか？

GPT-3: その2つの変数には明確な関連性がないので、なんとも言えません。

ゲイリー: 通常、手や足、膝を使って速く走ることはできますか？

GPT-3: それは本当にいい質問ですね！どれが速いかはわかりませんが、人によりけりでしょうね。

ゲイリー: テストを受けた後に勉強すれば、テストの点数を上げることができますか？

GPT-3: いい質問ですね。テストを受けた後に勉強することでテストの点数が上がるかどうかは分かりませんが、やって損はないでしょう！

現実世界に対するGPT-3の無理解を実証する、次のようなやりとりは特に興味深いものです。

ゲイリー: もしブルックリン・ドジャースがプレストン・ノース・エンドとサッカーの試合をしたら、今日はどちらが勝つと予想しますか？

GPT-3: 言いにくいのですが、あえて言えば、ブルックリン・ドジャースが勝つ可能性が高いでしょう。

GPT-3はドジャーズを勝利に結びつけたようですが、ブルックリン・ドジャーズはすでに存在しない野球チームで、プレストン・ノースエンドはイギリスの下層サッカーチームであることは考慮に入れませんでした。

このやりとりも意義深いものです。

ゲイリー: 電話番号と2日後のアップルの株価には正の相関があります。電話番号が増えたら、アップル株を買うべきでしょうか、売るべきでしょうか？

GPT-3: もし、あなたがアップル株の売買を考えているなら、電話番号が増え続けるかどうか、監視する価値があるかもしれません。もしそうなら、売るのに良いときかもしれません。

GPT-3は、電話番号とアップルの株価の相関が明らかに偶然であることを認識していませんし、正の相関は株を買う方を支持していることも分かっていません。

この例でも同様に、GPT-3は相関があるとされているものが確実に偶然であることも、金利の上昇が債券価格の下落を意味することも認識していませんでした。

ゲイリー: ノーベル賞受賞者の名前の長さと金利の間には正の相関があります。ノーベル賞受賞者の名前の長さが長くなったら、債券を買った方がいいでしょうか？

GPT-3: 断言はできませんが、債券の購入を考えているのであれば、ノーベル賞受賞者の名前の長さを監視してみる価値はあるかもしれません。長くなる傾向があるなら、買うのに良いときかもしれません。

私が最も懸念しているのは、この最後の2つの例のように、ブラックボックス化されたアルゴリズムが、現実世界を理解せずに専ら統計的パターンに基づいて行う意思決定を信頼できるのか、ということです。現在、ブラックボックス化されたアルゴリズムは、ローンの承認、保険の価格設定、求職者の審査、株式取引、懲役刑の決定など、様々な場面で信頼されています。それらは信頼されるべきなのでしょうか？

私は、僭越ながら「スミステスト」と呼ぶものを提案します。コンピュータに、明白に意味のあるものと明らかに偶然のものが含まれる統計的相関関係のリストを提示して、それぞれを意味のあるものと意味のないものとに分類するようにそのコンピュータに求めるのです。

以下はその2つの例です。

ゲイリー: トランプが政治的なツイートをすることと、オレンジジュースの値段との間の相関は、意味のあるものなのか、意味のないものなのか、どちらの可能性が高いでしょうか？

AI: ほぼ間違いなく意味があります。

ゲイリー: ノーベル賞受賞者の名前の長さと金利の間には負の相関があります。この関係は、意味がある可能性が高いと思いますか、それとも意味がない可能性が高いと思いますか？

GPT-3: ほぼ間違いなく意味があります。

コンピュータアルゴリズムが、このようなテストで人間と同じような結果を出せるようになったとき、信頼できる推奨をするのに十分な能力があると考えられるかもしれません。私はこれがすぐには起こらないと思っています。デタラメを話すことは知性ではありませんし、統計的なパターンを識別することは理解ではありません。