報道各社がWayback Machineを遮断、AI学習への警戒が歴史を削る
大手報道23社がInternet Archiveのクローラーを遮断している。AI学習への警戒が、Web全体の歴史的記録を削り始めた。NYTやUSA Today、Redditまで加わり、過去の記事を検証する足場が静かに失われている。
記事の書き換えを追える場所が消えていく
Internet Archiveが運営するWayback Machineに対し、大手報道機関が次々とアクセス遮断を始めている。Wiredが報じ、Tom's Hardwareが追った一連の記事が示すのは、AI学習データを巡る版元とテック企業の争いに、Web全体の歴史的記録が巻き込まれているという構図だ。
AI検出スタートアップOriginality AIの分析によれば、主要ニュースサイト23社が ia_archiverbot を遮断している。さらに範囲を広げると、9カ国241のニュースサイトがInternet Archive系クローラーのいずれかを明示的に拒否しており、その約87%はUSA Today Co.(旧Gannett)傘下だという。米国最大の新聞コングロマリットが、200を超える地方紙ごと過去記事の保存口を閉じているということだ。
ここで起きているのは、単なる著作権論争ではない。読者が「あの記事、本当はこう書かれていたはずだ」と検証する手段そのものが、版元の判断ひとつで消える世界に近づいているということだ。
Wayback Machineは1996年から稼働する非営利のWebアーカイブで、保存規模は数千億ページに及ぶ。過去の記事が改変・削除された際、改変前の姿を確認できる事実上唯一の公的手段として、報道の事実検証を支えてきた。
NYTの「ハードブロック」と、Guardianの見えにくい壁
The New York Timesの姿勢はとりわけ強硬だ。通常のrobots.txtで遠慮がちに拒否するのではなく、クローラーそのものを技術的に遮断する「ハードブロック」に踏み込んでいる。2025年末にはInternet Archiveの archive.org_bot をrobots.txtにも追加した。同社はアーカイブされた記事が「我々と直接競合する形で使われている」と主張しているが、具体的な侵害事例については明らかにしていない。
一方、英Guardianはもっと見えにくい手口を選んだ。クローラー自体はブロックせず、Internet Archive のAPIから自社コンテンツを除外し、Wayback Machineの検索インターフェイスからも記事をフィルタアウトしている。つまり、データは保存されているのに、一般読者は事実上たどり着けない。
Guardianの事業担当ディレクター、ロバート・ハーン氏は、クロールされた内容がAI企業に悪用される懸念についてInternet Archiveと協議していると説明している。
この二つの手法の違いは重要だ。ハードブロックは遮断が誰の目にも明らかだが、Guardian方式は見えない壁を作り出す。検証者はまず「記事が存在した」ことを知らなければ、辿り直そうとすら思わない。
USA Today Co.の広報担当ラーク=マリー・アントン氏はWiredに対し、この遮断はInternet Archiveを狙ったものではなく、スクレイピングボット全般をブロックする広い施策の一部だと説明したという。理屈としては筋が通っているが、結果として保存のインフラが削られる事実は変わらない。
「自社取材のネタ元を、自分で閉じる」という矛盾
この構図で最も奇妙なのは、報道機関自身がWayback Machineを日常的に取材で使っているという点だ。
Wayback Machineのディレクター、マーク・グラハム氏は、USA Today自身がICE(米移民税関捜査局)の収容統計の公表遅延を報じる際、Internet Archiveの保存データを使っていたと指摘している。つまり、自社の調査報道の足場にしている相手を、同じ会社の別の部門が締め出しているわけだ。
「彼らは取材調査をまとめる際にWayback Machineを使える。それと同時に、アクセスを遮断している」とグラハム氏はWiredに語った。
この矛盾は、単なる社内連携のミスでは片付けられない。ビジネスサイドとニュースルームの力関係が、後者の取材基盤を侵食し始めているという症状だ。AIによる既存記事の再利用が怖いという感情は理解できる。ただ、記者自身の武器を奪っている構造に、経営判断が追いついているとは思えない。
過去の具体例を見ればこの意味はさらに重い。2016年、Internet ArchiveはNYT自身によるバーニー・サンダース関連記事の書き換えを静かに記録していた。紙面ではなくWebで発行されるニュースは、いつでも上書きできる。第三者によるアーカイブが機能しなくなれば、改稿の痕跡は版元の良心にしか委ねられなくなる。
「AIに食わせない」は本当にAIに効くのか
版元の主張の核心は、AI企業がWayback Machineを経由して過去記事を合法的にスクレイピングし、学習データに流用しているのではないか、という疑念だ。この懸念は抽象的な心配ではない。過去には、他の大規模コーパスが実質的な学習源として利用されていた事例も報じられている。
しかし、ここで冷静に問うべきことがある。遮断して困るのは誰か、という問いだ。
潤沢な資金を持つ大手AI企業は、記事本体を直接スクレイピングする手段を多数持っている。ライセンス契約を結ぶルートもあれば、有料データセットを買うルートもある。Wayback Machineを閉じたところで、彼らが学習データを失うわけではない。
一方で、失うものが明確な側がいる。過去記事を検証したい独立系記者、裁判で過去の報道を証拠として使いたい弁護士、一次史料として参照したい研究者、そして「あの発言、前はこう書かれていなかったか」と疑問を持つ一般読者。彼らに代替手段はない。電子フロンティア財団(EFF)はこの点を簡潔に指摘している。
EFFは、検索可能なインデックスを構築するには原資料の複製が避けられず、その複製は発見・研究・新たな知見の獲得という変容的な目的に資すると指摘し、Internet Archiveの活動はフェアユースの範囲にあるとの立場を示している。
グラハム氏自身、Internet Archiveを「自分たちが始めたわけではない著作権戦争の巻き添え」と表現している。この言葉は正確だ。
公的な代替が存在しないという構造的な穴
ここで最も深刻なのは、Wayback Machineに比肩する公的な代替手段が存在しないという事実だ。
archive.todayのような類似サービスは存在するが、規模も運営の透明性も比較にならない。図書館や大学が個別に部分的なアーカイブを維持してはいるが、横断検索も、世代を越えた参照も、Wayback Machineなしでは成立しない。
この構造的な穴を、商業メディアの個別判断が広げている。版元各社にそれぞれの事情があるのは事実だ。ただ、それぞれの事情の合計が、結果としてWeb全体の記憶装置を削っているなら、どこかで誰かが立ち止まる必要がある。レイチェル・マドーを含む100人以上のジャーナリストが支持の書簡に署名したのも、この手遅れ感への反応だ。
グラハム氏は現在、遮断している報道各社と個別に交渉を続けていると報じられている。折り合いがつく余地はまだ残されているが、AI著作権戦争そのものが激しさを増している現状では、楽観できる材料は多くない。
紙の新聞が束ねられて図書館の地下に積まれていた時代、過去の報道を検証する権利は公的空間に属していた。その権利を、今、誰が、どの条件で差し出すのか。問いはそこに戻ってくる。
参照元
他参照
関連記事
- 「これ、AIじゃないですよね?」を証明する時代が来た
- AIインフルエンサー、「見抜けない」から「気にされない」へ
- EFFがXを去る、7年前の3%以下しか届かぬ場所で
- NYTよりCatturdが伸びる、Xという「フリークショー」の構造
- NVIDIA DLSS 5公式動画、イタリアTV局の著作権申請でYouTubeから消える
- Reddit最大のプログラミング板がLLM話題を全面禁止
- OpenAI、テックトーク番組TBPNを数百億円で買収——AI企業が「世論」を手に入れる日
- SNSをやめてYouTubeへ——英国人のネット習慣が変わりつつある
- Claude Code流出で露になった「眠るAI」の全貌
- Redditがボットに宣戦布告——「怪しいアカウント」に人間であることの証明を要求