人工知能をめぐる新たな日、新たな論争。今回、Metaは、Meta AIを強化する大規模言語モデル(LLM)Llamaのトレーニングにトレントの海賊版コンテンツを使用したとして告発された。この訴訟は、AIのトレーニングを目的としたテクノロジー企業に対して起こされた最初の著作権訴訟の1つであった。
メタAIが海賊版コンテンツで訓練されていたことが文書で明らかになった
報告によると 有線Metaは2023年、同社のLLMであるLlamaを海賊版コンテンツで訓練した疑いで訴訟に見舞われた。この事件は「カドリーらの事件」として知られるようになった。 v. メタ プラットフォーム」であり、メタが著作権で保護されたコンテンツを許可なく使用したと主張した小説家のリチャード カドリーとクリストファー ゴールデンによって提出されました。
これまでメタ社は編集された情報を含む文書を法廷に提出していたが、カリフォルニア北部地区連邦地方裁判所のビンス・シャブリア判事は元の文書を公開すべきだと命令し、それが現実となった。
この文書には、Meta AI と Llama に関する Meta 従業員間の会話が明らかにされています。会話の 1 つで、エンジニアは次のように述べています。 [Meta-owned] これは、同社が AI のトレーニングに海賊版コンテンツを使用していたことを裏付けています。別の会話では、「MZ」(マーク・ザッケバーグ)が海賊版資料の使用を許可していたことを示唆しています。
証拠は、Meta が海賊版の書籍、雑誌、学術論文の巨大なライブラリである LibGen のコンテンツを使用したことを示唆しています。 LibGen は 2008 年にロシアで設立され、それ以来、「著作権侵害ハブ」を実際に運営しているのが誰なのか誰も知らないにもかかわらず、それ以来複数の著作権訴訟に見舞われてきました。 Meta は、AI トレーニングに他の「シャドウ ライブラリ」のコンテンツも使用したと報告されています。
同社は、ケースバイケースで分析される特定の状況下で著作権で保護されたコンテンツを許可なく使用することを認める「フェアユース」の法理に基づいて公開素材を使用したと主張している。メタ氏はまた、「テキストを使用して統計的に言語をモデル化し、独自の表現を生成しているだけ」だとも主張している。
Apple インテリジェンスについてはどうですか?
大手テクノロジー企業が著作権で保護されたコンテンツを使用して AI モデルをトレーニングしたとして告発されるのはこれが初めてではない。昨年の調査により、Apple が作成した OpenELM モデルには 170,000 本を超える YouTube ビデオの字幕が含まれていたことが明らかになりました。
当初、これにより Apple が Apple Intelligence のトレーニングに著作権で保護されたコンテンツを使用していると人々が信じましたが、同社は後に OpenELM は研究目的で作成されたオープンソース モデルであり、そのデータベースは Apple Intelligence を強化するために使用されていないと説明しました。
Apple によると、iOS と macOS で利用できる AI 機能は、「特定の機能を強化するために選択されたデータや、当社の Web クローラーによって収集された公開データを含む、ライセンスされたデータ」に基づいてトレーニングされています。
注目に値するのは、次のような多くの大手出版社です。 ニューヨーク・タイムズ そして 大西洋 は、コンテンツを Apple Intelligence トレーニングと共有しないことを選択しました。