70年以上後:AIはチューリングテストを存在し、人間よりも人間のように聞こえます

Sakiko

チューリングテストでは、人々とマシンは互いに競い合います。

人工知能のブレークスルー:AIモデルは、実際の人々よりも拡張チューリングテストでより頻繁に維持されました。

ただし、決定的な発疹は、適切なプロンプトのためのよく知られた技術を与えました。

それが起こった:

カリフォルニア大学サンディエゴ校には1つあります

Openais AIモデルGPT-4.5で、特に説得力のあるセクションでチューリングテストで公開されています。この実験は、約300人の参加者とオンラインで実施され、次のようにオフになりました。

  • オブザーバー(尋問者)2人の対話者のうち、マシンのどちらとどの人がいるのかを知らずに、それぞれ5分間、AIと人と個別に話し合った。
  • オブザーバーの仕事は、会話に基づいて誰が人間で、誰が機械であるかを決定することでした。

特定の条件下では、GPT-4.5モデルは、説得力のある人間であることにより、参加者の半数以上を大幅に欺くことができました。

チューリングテスト:AI開発のベンチマーク

1950年にアランチューリングによって開発され、模倣の人間の知能のための機械の能力を評価するのに役立ちます。以下が進みます。

  • 私は模倣ゲーム- チューリング自体と呼ばれるように - 人間の質問者は2人とコミュニケーションをとる目撃者- 人と機械。
  • 死ぬコミュニケーションは書面で行われます、そのため、質問者は対話者の身元に対する視覚的または音響的な参照を持っていません。
  • 質問者が人間と機械を確実に区別できない場合、マシンはテストの意味でインテリジェントと見なされます

チューリングテストは、マシンの実際の思考能力や認識を測定するのではなく、人間のコミュニケーション行動をシミュレートする能力を測定することに注意することが重要です。

プロンプトのトリックが違いをもたらします

興味深いことに、AIプロンプトのタイプが重要な役割を果たしました。特別な指示なしにGPT-4.5が使用された場合、症例の36パーセントしか確信していません。しかし、与えられたAIを持つAIの場合ペルソナ、それは装備されていました、いわば、それははるかに説得力がありました。 aの役割インターネットフィネンの若者AIは、テスターの73%を納得させました。

ChatGptが割り当てられた役割でうまく機能するという事実は、私たちがあなたのためにまとめたヒントの1つにすぎません。

ただし、大幅な改善を達成するために特定のプロンプトが必要であるため、これは古典的な意味でのチューリングテストではなく、拡張バージョンです。

それは私たちにとってどういう意味ですか?

チューリングテストは、多くの場合、人間のような知性のベンチマークとして使用されますが、多くの研究者はそれが不十分であると考えています。むしろ、彼はコミュニケーションスキルの側面を尋ねるだけです。たとえば、Ned Blockは1980年代にチューリングテストを批判しました。。

GPT-4.5などの言語モデルは、テキストのパターンを認識し、この点で説得力のある回答を定式化するように訓練されています。結果は必ずしも驚かされる必要はありません。

ただし、言語モデルのさらなる開発においてさらに大きなジャンプが可能であることを示しています。ChatGPTが現在ベースになっているOpenais GPT-4Oがテストされましたが、はるかに悪化しています。