報道各社がWayback Machineを遮断、AI学習への警戒が歴史を削る

報道各社がWayback Machineを遮断、AI学習への警戒が歴史を削る

大手報道23社がInternet Archiveのクローラーを遮断している。AI学習への警戒が、Web全体の歴史的記録を削り始めた。NYTやUSA Today、Redditまで加わり、過去の記事を検証する足場が静かに失われている。


記事の書き換えを追える場所が消えていく

Internet Archiveが運営するWayback Machineに対し、大手報道機関が次々とアクセス遮断を始めている。Wiredが報じ、Tom's Hardwareが追った一連の記事が示すのは、AI学習データを巡る版元とテック企業の争いに、Web全体の歴史的記録が巻き込まれているという構図だ。

AI検出スタートアップOriginality AIの分析によれば、主要ニュースサイト23社が ia_archiverbot を遮断している。さらに範囲を広げると、9カ国241のニュースサイトがInternet Archive系クローラーのいずれかを明示的に拒否しており、その約87%はUSA Today Co.(旧Gannett)傘下だという。米国最大の新聞コングロマリットが、200を超える地方紙ごと過去記事の保存口を閉じているということだ。

ここで起きているのは、単なる著作権論争ではない。読者が「あの記事、本当はこう書かれていたはずだ」と検証する手段そのものが、版元の判断ひとつで消える世界に近づいているということだ。

Wayback Machineは1996年から稼働する非営利のWebアーカイブで、保存規模は数千億ページに及ぶ。過去の記事が改変・削除された際、改変前の姿を確認できる事実上唯一の公的手段として、報道の事実検証を支えてきた。

NYTの「ハードブロック」と、Guardianの見えにくい壁

The New York Timesの姿勢はとりわけ強硬だ。通常のrobots.txtで遠慮がちに拒否するのではなく、クローラーそのものを技術的に遮断する「ハードブロック」に踏み込んでいる。2025年末にはInternet Archiveの archive.org_bot をrobots.txtにも追加した。同社はアーカイブされた記事が「我々と直接競合する形で使われている」と主張しているが、具体的な侵害事例については明らかにしていない。

一方、英Guardianはもっと見えにくい手口を選んだ。クローラー自体はブロックせず、Internet Archive のAPIから自社コンテンツを除外し、Wayback Machineの検索インターフェイスからも記事をフィルタアウトしている。つまり、データは保存されているのに、一般読者は事実上たどり着けない。

Guardianの事業担当ディレクター、ロバート・ハーン氏は、クロールされた内容がAI企業に悪用される懸念についてInternet Archiveと協議していると説明している。

この二つの手法の違いは重要だ。ハードブロックは遮断が誰の目にも明らかだが、Guardian方式は見えない壁を作り出す。検証者はまず「記事が存在した」ことを知らなければ、辿り直そうとすら思わない。

USA Today Co.の広報担当ラーク=マリー・アントン氏はWiredに対し、この遮断はInternet Archiveを狙ったものではなく、スクレイピングボット全般をブロックする広い施策の一部だと説明したという。理屈としては筋が通っているが、結果として保存のインフラが削られる事実は変わらない。


「自社取材のネタ元を、自分で閉じる」という矛盾

この構図で最も奇妙なのは、報道機関自身がWayback Machineを日常的に取材で使っているという点だ。

Wayback Machineのディレクター、マーク・グラハム氏は、USA Today自身がICE(米移民税関捜査局)の収容統計の公表遅延を報じる際、Internet Archiveの保存データを使っていたと指摘している。つまり、自社の調査報道の足場にしている相手を、同じ会社の別の部門が締め出しているわけだ。

「彼らは取材調査をまとめる際にWayback Machineを使える。それと同時に、アクセスを遮断している」とグラハム氏はWiredに語った。

この矛盾は、単なる社内連携のミスでは片付けられない。ビジネスサイドとニュースルームの力関係が、後者の取材基盤を侵食し始めているという症状だ。AIによる既存記事の再利用が怖いという感情は理解できる。ただ、記者自身の武器を奪っている構造に、経営判断が追いついているとは思えない。

過去の具体例を見ればこの意味はさらに重い。2016年、Internet ArchiveはNYT自身によるバーニー・サンダース関連記事の書き換えを静かに記録していた。紙面ではなくWebで発行されるニュースは、いつでも上書きできる。第三者によるアーカイブが機能しなくなれば、改稿の痕跡は版元の良心にしか委ねられなくなる。


「AIに食わせない」は本当にAIに効くのか

版元の主張の核心は、AI企業がWayback Machineを経由して過去記事を合法的にスクレイピングし、学習データに流用しているのではないか、という疑念だ。この懸念は抽象的な心配ではない。過去には、他の大規模コーパスが実質的な学習源として利用されていた事例も報じられている。

しかし、ここで冷静に問うべきことがある。遮断して困るのは誰か、という問いだ。

潤沢な資金を持つ大手AI企業は、記事本体を直接スクレイピングする手段を多数持っている。ライセンス契約を結ぶルートもあれば、有料データセットを買うルートもある。Wayback Machineを閉じたところで、彼らが学習データを失うわけではない。

一方で、失うものが明確な側がいる。過去記事を検証したい独立系記者、裁判で過去の報道を証拠として使いたい弁護士、一次史料として参照したい研究者、そして「あの発言、前はこう書かれていなかったか」と疑問を持つ一般読者。彼らに代替手段はない。電子フロンティア財団EFF)はこの点を簡潔に指摘している。

EFFは、検索可能なインデックスを構築するには原資料の複製が避けられず、その複製は発見・研究・新たな知見の獲得という変容的な目的に資すると指摘し、Internet Archiveの活動はフェアユースの範囲にあるとの立場を示している。

グラハム氏自身、Internet Archiveを「自分たちが始めたわけではない著作権戦争の巻き添え」と表現している。この言葉は正確だ。


公的な代替が存在しないという構造的な穴

ここで最も深刻なのは、Wayback Machineに比肩する公的な代替手段が存在しないという事実だ。

archive.todayのような類似サービスは存在するが、規模も運営の透明性も比較にならない。図書館や大学が個別に部分的なアーカイブを維持してはいるが、横断検索も、世代を越えた参照も、Wayback Machineなしでは成立しない。

この構造的な穴を、商業メディアの個別判断が広げている。版元各社にそれぞれの事情があるのは事実だ。ただ、それぞれの事情の合計が、結果としてWeb全体の記憶装置を削っているなら、どこかで誰かが立ち止まる必要がある。レイチェル・マドーを含む100人以上のジャーナリストが支持の書簡に署名したのも、この手遅れ感への反応だ。

グラハム氏は現在、遮断している報道各社と個別に交渉を続けていると報じられている。折り合いがつく余地はまだ残されているが、AI著作権戦争そのものが激しさを増している現状では、楽観できる材料は多くない。

紙の新聞が束ねられて図書館の地下に積まれていた時代、過去の報道を検証する権利は公的空間に属していた。その権利を、今、誰が、どの条件で差し出すのか。問いはそこに戻ってくる。


参照元

他参照

関連記事

Read more

RTX 5060 Ti/5060に9GB版の噂、帯域幅は25%削減へ

RTX 5060 Ti/5060に9GB版の噂、帯域幅は25%削減へ

NVIDIAがGeForce RTX 5060 TiとRTX 5060に「9GB GDDR7」の新バリアントを準備していると報じられている。容量は1GB増える。代わりに、メモリ帯域幅は25%削られる。 中途半端な「9GB」という数字の正体 発端は中国のBoard Channelsというフォーラムに投稿された内部情報だ。VideoCardzとWccftechがそれぞれ日本時間の4月14日に報じた。発売時期は5月下旬から6月上旬と見られている。 9GBという端数の容量には、ちゃんと理由がある。GDDR7の3GBチップを3枚搭載する構成だ。これまで主流だった2GBチップを4枚積む「4チップ128-bit」から、3GBチップ3枚の「3チップ96-bit」へと設計が変わる。掛け算の結果、容量は8GBから9GBへとわずかに増える。 3GB×3=9GB。この単純な掛け算が、RTX 50シリーズのメモリ構成を静かに書き換えようとしている。 RTX 5060 Ti / RTX 5060 : 現行版と噂の9GB版 RTX 5060 Ti RTX 5060