Siriは、58のうち38が間違っているスーパーエイジーなスーパーボウルテストに失敗しました

から

1月 24, 2025

AppleのコメンテーターであるJohn Gruberは昨日、Siriの現在のパフォーマンスを「面倒な冗談、「スーパーボウル13の勝者に正しく名前を付けることができないことは、これが米国のチャットボットが答えることができるはずの基本的なクエリであることに注意してください。

それは完全にランダムな例ではありませんでした。スーパーボウル1〜60の包括的でSiriをテストすることを決めた友人のPaul Kafasisによって促されました。結果は良くありませんでした…

Kafasisは結果を共有しましたブログ投稿。

それで、Siriはどのようにしましたか？絶対的な慈善解釈により、Siriは、プレイされた58のスーパーボウルのうち20人の勝者を正しく提供しました。これは、完全に極悪な34％の完了率です。 Siriがクォーターバックだった場合、NFLからドラムされます。

Siriはかつて4年連続で正しいこと（スーパーボウルIXからXIIまで）を取得しましたが、間違った理由で正しい答えを提供することでクレジットを与えた場合のみです。より現実的には、3回連続して3回回答しました（Super Bowls V 〜VII、XXXVからXXVII、LVIIを介してLVII）。最悪の場合、それは驚くべき15連続で間違っていました（XXXIIからスーパーボウルXVII）。

Siriはイーグルスの大ファンのようです。

最も面白いことに、それはフィラデルフィアイーグルスに驚くべきものであると信じています 33スーパーボウルが勝ちます 彼らは、彼らが持っている1つと一緒に行くために獲得していません。

「間違った理由のための正しい答え」の部分とは、SiriがスーパーボウルXの勝者に名前を付けるように求められることを指します。未知の理由で、SiriはスーパーボウルIXについての長い返信で応答することにしました。。

時々、Siriは完全にオフピステになり、関連するWikipediaのエントリを引用して、質問を完全に無視しました。

「スーパーボウル23に勝ったのは誰ですか？」
ビル・ベリチックは、個人が最もスーパーボウルの勝利（8）と出演（12：9倍のヘッドコーチとして、1回のヘッドコーチとして、2倍の守備コーディネーターとして）の記録を所有しています。

しかし、おそらくローマの数字は混乱を引き起こし、他のAIシステムも同じくらい苦労していますか？ Gruberは、いくつかのスポットチェックを実行することにしました。

私は怠け者であるため、スーパーボウル1〜60から包括的なテストを実行していませんが、その範囲のいくつかの乱数のスポットチェックは、他のすべての質問を求めていることを示しています。個人的に使用すると、それらはすべて正しいです。

ChatGpt、Kagi、Duckduckgo、Googleを試してみました。これらの4つは、まだプレイされていないスーパーボウル59と60の勝者に関する間違いなくトリックの質問でうまくいくことさえあります。たとえば、スーパーボウル59の勝者に尋ねられたKagiの「クイックアンサー」が始まります。。」

スーパーボウルの受賞者は、「2004年のノースダコタ高校の少年のバスケットボール選手権で誰が優勝したのか」と尋ねるなど、あいまいなトピックではありません。 – 私はちょうど私のお尻から完全に引き出した質問ですが、驚くべきことに、カギは正しく答えましたクラスAの場合 ChatGptは正しく答えましたのためにクラスAとクラスbの両方、およびへのリンクを提供しました YouTubeでのクラスAチャンピオンシップゲームのこのビデオ。

それは素晴らしいです！私はあいまいな状態（ダコタン、北、南への攻撃はありません）を選びました。そして、KagiとChatgptの両方がそれを正しくしました。（私はKagiにAを与え、両方のクラスのチャンピオンに名前を付けるためにA+をチャットし、YouTubeリンクのA+の上に追加クレジットを提供します。）

Gruberは、Macos 15.1.1の古いSiriは実際にはより良いことを指摘しています。確かに、それはその古典的な「ここに私がWebで見つけたものです」の応答を与えたので、それはあまり能力がありませんが、少なくともそれは正解へのリンクを与えます。新しいSiriはそうではありません。

新しいsiri – chatgpt統合を有効にしたApple Intelligence™を搭載した – は完全に答えを取得しますが、もっともらしいと間違っています。最悪それを間違える方法。それもそうです 一貫性がない 間違っています – 私は同じ質問を4回試しましたが、毎回それらのすべてが間違っていると異なる答えが得られました。それは完全な失敗です。

写真by カレブ・ウッズの上解釈

FTC：収入獲得自動車アフィリエイトリンクを使用しています。 もっと。