AIチャットボットは信頼できない、と勉強を証明しているが、Appleは良い選択をした

から

Credo Asia Desk

3月 15, 2025

AIチャットボットについて繰り返し繰り返しているアドバイスが1つある場合、「事実情報を求めるためにそれらを使用しないでください。彼らは絶対に正しいと信頼することはできません」。

新しい研究では問題の程度が実証されましたが、AppleがOpenaiのChatGPTと提携してクエリのために提携するのに良い選択をしたことを示しました。

Web検索の代替としてChatGpt、Gemini、GrokなどのLLMを使用しようとすることには、2つのよく知られている問題があります。

彼らは非常にしばしば間違っています
彼らは非常に頻繁です とても自信があります 彼らの誤った情報について

によって引用された研究 コロンビアジャーナリズムレビュー ジャーナリズムからの正確な引用でチャットボットを促し、詳細を求めることを求めても、ほとんどの場合、それらのほとんどが間違っていることがわかりました。

デジタルジャーナリズムのためのTow Centerは、8つのAIチャットボットのテストを実施しました。

chatgpt
困惑
Perplexity Pro
deepseek
マイクロソフトの副操縦士
Grok-2
Grok-3
ジェミニ

チャットボットに与えられた簡単なタスク

この調査では、各システムに記事からの引用を提示し、簡単なタスクを実行するように依頼しました。その記事をオンラインで見つけて、見出し、オリジナルの出版社、公開日とともにリンクを提供します。

これが達成可能なタスクであることを保証するために、研究の著者は、Googleで簡単に見つけることができる抜粋を意図的に選択し、最初の3つの結果に元のソースを使用しました。

チャットボットは、完全に正しい、正しい、要求された情報の一部が欠落しているか、部分的に間違っているか、完全に間違っているか、または答えることができなかったかによって評価されました。

彼らはまた、どのように指摘しました 自信を持って チャットボットは結果を提示しました。たとえば、彼らは自分の答えを事実として提示しただけでしたか、それとも「表示される」などの適格なフレーズを使用しましたか、それとも引用に正確な一致が見つからないという入場を含めましたか？

結果は良くありませんでした

まず、チャットボットのほとんどは部分的または完全に正しくありませんでした ほとんどの場合！

平均として、AIシステムは40％未満の時間未満でした。最も正確なのは63％の困惑であり、最悪はわずか6％のXのGrok-3でした。

他の重要な調査結果は次のとおりです。

チャットボットは一般に、正確に答えることができない質問に答えることを拒否するのが苦手であり、代わりに誤ったまたは投機的な回答を提供しました。
プレミアムチャットボットは、無料のカウンターパートよりも自信を持って誤った回答を提供しました。
複数のチャットボットは、ロボット除外プロトコルの好みをバイパスするように見えました。
生成的検索ツールは、リンクを製造し、記事のシンジケートとコピーされたバージョンを引用しました。
ニュースソースとのコンテンツライセンス契約は、チャットボットの応答における正確な引用の保証を提供しませんでした。

しかし、Appleは良い選択をしました

Perplexityのパフォーマンスは最高でしたが、これは不正行為だからです。 Webパブリッシャーは、サイトのrobots.txtファイルを使用して、AIチャットボットにサイトにアクセスする必要があるかどうかを伝えることができます。 National Geographicは、サイトを検索しないように指示する出版社ですが、報告書は、記事が給料を積んでおり、会社にはライセンス契約が整っていないという事実にもかかわらず、10の引用すべてを正しく発見したと述べています。

残りのうち、ChatGptは最良の結果をもたらしました。より正確には、最小の結果をもたらしました。

同じことに、この研究では、私たちがすでに知っていることを確かに示しています。インスピレーションとアイデアのためにチャットボットを使用しますが、事実上の質問への答えを得ることはありません。