新規ウェブの3分の1がAI生成、ネットは肯定的に書き換わる

インターネットアーカイブのデータをスタンフォードとインペリアル・カレッジ・ロンドンが分析した。2025年半ばまでに新規公開ウェブの約35%がAI生成・支援になっていた。ChatGPT登場前はゼロだった割合が、わずか3年でこの水準に達している。

新規ウェブの3分の1がAI生成、ネットは肯定的に書き換わる

インターネットアーカイブのデータをスタンフォードとインペリアル・カレッジ・ロンドンが分析した。2025年半ばまでに新規公開ウェブの約35%がAI生成・支援になっていた。ChatGPT登場前はゼロだった割合が、わずか3年でこの水準に達している。


ゼロから35%へ、3年で起きた書き換え

論文「The Impact of AI-Generated Text on the Internet」を発表したのは、インペリアル・カレッジ・ロンドンの研究者ヨナーシュ・ドレジャル(Jonáš Doležal)、インターネットアーカイブのサウード・アラム氏とマーク・グラハム氏、そしてスタンフォード大学の学生研究者マティ・ボハチェク(Maty Bohacek)の共同チームだ。彼らはインターネットアーカイブのウェイバックマシンから2022年8月から2025年5月までの33ヶ月分のスナップショットを引き出し、新規公開された膨大なウェブページのテキストをAI検出器にかけている。

検出に使われたのはPangram v3だ。研究チームはこれ一つに絞ったわけではなく、Binoculars、Desklib、DivEye、Pangram v3の4つを比較し、テキストの長さ・HTMLと素のテキスト・モデル系列・モデルバージョン・言語の5次元で揺さぶりに耐えるかを試した上で最も安定した結果を出したものを採用したと述べている。検出器単体の精度ではなく頑健性で選んだ点が、この研究の慎重さを示している。

そして出てきたのが、ChatGPT登場前は事実上ゼロだったAI生成・AI支援のウェブが、2025年半ばに約35%まで到達したという数字だった。404 Mediaの取材に応じたドレジャルは、自身の感覚を率直に語っている。「人間が何十年もかけて形作ってきたウェブの相当部分が、わずか3年でAIによって定義されるものに変わった」。

ウェブを巡る変化は、これまでの情報インフラの歴史と比べても突出して速い。AIに関わる側ですら、その速度に驚いている。

「死んだインターネット理論」を真面目に検証する

研究の出発点として論文が引いたのは「死んだインターネット理論(Dead Internet Theory)」だ。2021年にAgora Roadのフォーラム投稿から広まり、同年The Atlanticが取り上げたことで一気に世間に届いた仮説で、ネット上の活動の大半はすでにボットとAIで構成されていて人間の発信は脇に追いやられている、という主張のことを指す。

陰謀論の体裁を持っていたこの仮説を、論文は皮肉ではなく真面目に扱った。ChatGPTとその競合がネットをどう作り変えたか、定量的に追えるかどうかをまず確認する、という構えだ。一般に流布した6つの懸念――視点の縮小、虚偽情報の増加、文章の漂白化と過剰な明るさ、外部リンクを欠いた情報の閉鎖性、語数の肥大と意味密度の低下、文体の均質化――を一つずつ仮説として立て、データと突き合わせている。

結果は、むしろ世間の感覚を裏切るものになった。

6つの懸念のうち、確認されたのは2つだけ

論文によれば、統計的に確認されたのは「意味的多様性の縮小」と「肯定化への偏り」の2つのみだ。残りの4つ、つまり虚偽情報の増加、外部リンクの希薄化、長文化と意味密度の低下、文体の単調化については、有意な相関が見つからなかった。

しかも検証された2つのうち、より目を引くのは肯定化への偏りのほうだ。AI生成と判定されたサイトは、人間が書いたサイトと比べてポジティブなセンチメントスコアが 107%高い (0.7042対0.3400)と報告されている。AI支援で書かれた文章は、平均的な人間の文章の倍以上「明るく、前向き」になっているということだ。

数字としての107%は無味乾燥に見える。だが日々ブラウザで触れる文章の手触りが「漂白された」という違和感の正体は、ここに数値で表れている。

意味的多様性の指標である平均ペアワイズ・コサイン類似度では、AI生成サイトは非AI生成サイトに比べて33%高い類似度を示した。表現が同じ方向に寄っていく現象は、確かに起きている。AIが「明るく、似通った言い回しで」ウェブを覆っていく――この姿は、2025年に多くの人がうっすら感じていた違和感と一致する。

公衆の信念と実証のずれ

論文がもう一つ提示するのは、AIに対する一般の認識と、実証データの食い違いだ。研究チームは並行して米国の成人853人に対する層化サンプリング調査を行い、6つの懸念それぞれをどの程度信じているかを聞いた。

結果は、米国の成人の多数が6つすべてを「ある」と感じていた。とくに文体の均質化については回答者の83.0%が同意し、虚偽情報の増加についても75.1%が信じていた。だが、実際のデータがこれらを支持しなかった。

ここに研究の鋭さがある。ドレジャルはコメントで控えめに言葉を選んでいる。「最も意外だったのは、Truth Decay仮説が支持されなかったことだ。検証可能な誤りの増加に絞って測ったわけだが、AIが検証しにくい主張の量を静かに増やしている可能性は残る」。つまり、ファクトチェック可能な明確な「ウソ」は増えていないかもしれないが、検証ツールから漏れる微妙な不確かさが増えているかどうかは、この研究の射程外だ、という慎重な留保だ。

公衆が信じている「AIによる劣化」と、データが示す「AIによる劣化」は、同じ形をしていない。

ネットが「優しすぎる」という別種の劣化

事実誤りや文体崩壊のような派手な劣化は、まだ大規模には起きていない。代わりに進んでいるのは、もっとつかみどころのない変化だ。視点が狭まり、文章が均一に明るくなる。読み口が滑らかで、引っかかりがない。サイトの一つ一つが個別の体温を失い、似た温度の声が無数に並ぶ。長く触れるほどに体の芯まで沁みていく、低温の劣化だ。

ドレジャルはこの変化を「衛生的に整えられた、繰り返しのウェブ」と表現していた。AIに完璧な無摩擦を強要するのではなく、もっと独自の人格や違和感を持たせたほうが、人間の声を置き換える存在ではなく創造の相手になれるのではないか、と提案している。これは技術論というより、ネット文化の設計論だ。

AIに完全な順応性を求めるのではなく、もう少し人格や摩擦を許したほうがいい。そのほうが、人間の声を置き換える存在ではなく創造のパートナーになれる。

研究チームはインターネットアーカイブと組んで、この調査を一回切りの論文ではなく継続的なシグナルとして提供する仕組みに変えていく計画も進めているという。スナップショットではなく時系列で、ネットの「明るさ」と「均質さ」を追跡し続ける、というわけだ。

ボットの陰謀論ではなく、書き手の選択の集合

死んだインターネット理論は元々「誰かが企んでいる」という陰謀論として広がった。けれど今回の研究が描くのは、もっと退屈で、もっと避けられない景色だ。書き手一人ひとりが、面倒を減らすためにAIで下書きを整え、ぎこちなさを除き、もう少し丁寧に響くよう書き直す。その小さな選択が3年積み重なった結果、ネット全体が35%だけAIに塗り替わり、明るさと類似度が増した。

陰謀ではなく、習慣の総和。だからこそ巻き戻しは難しい。誰かが悪意で押し付けたわけではなく、便利さが書き手を選んだ結果だからだ。

ChatGPTのリリースから3年あまりで、人類は自分たちが何十年もかけて作ってきた共有の言語空間に、別の声を半ば自然に流し込んでしまった。それが取り返しのつくものなのか、戻る必要すらないのか。「AIで何が起きているか」を測る物差しは、いま一本据えられたところだ。


参照元

他参照

関連記事

Read more

人口7000人の町に東京ドーム18個分のAIデータセンター

人口7000人の町に東京ドーム18個分のAIデータセンター

ペンシルベニア州の人口7000人の小さな町に、6つのAIデータセンター群が建設されようとしている。51棟の倉庫はそれぞれウォルマート級。住民の反発で町議会7人のうち4人が辞任した。AI需要が地方自治を物理的に押しつぶしている。 元炭鉱の町に、51のウォルマートが降ってくる アーチボルド(Archbald)はペンシルベニア州北東部、ポコノ山脈のふもとにある人口7000人ほどの町だ。20世紀初頭に石炭産業が衰退してからは、森と住宅地が広がる静かなコミュニティになっていた。 その町に今、5社のデベロッパーが計6つのAIデータセンター群を建設しようとしている。51棟のデータ倉庫、1棟あたりウォルマート・スーパーセンター級、町の17平方マイルの土地のうちおよそ14% を占める規模。合計の延床面積は東京ドーム約18個分に達する。 「ウォルマートが51軒できる町」と言われて、それを歓迎する住民はまずいない。 住民は、開発の規模を見て言葉を失った そもそもデータセンターは、住宅街の隣に建つような建物ではない。屋根の下にずらりと並んだサーバーラックを24時間冷却し続ける必要があり、巨大な