1930年で時間が止まったLLM、talkieが投げる問い

GPTの設計者アレック・ラドフォードが公開したのは、1931年以降の文章を一切学んでいない130億パラメータの言語モデル「talkie」だ。なぜ最先端ではなく「過去」を選んだのか。背景には、現代のAIが抱える構造的な問題への深い問いかけがある。

1930年で時間が止まったLLM、talkieが投げる問い

GPTの設計者アレック・ラドフォードが公開したのは、1931年以降の文章を一切学んでいない130億パラメータの言語モデル「talkie」だ。なぜ最先端ではなく「過去」を選んだのか。背景には、現代のAIが抱える構造的な問題への深い問いかけがある。


130億パラメータが「2026年」を知らない

talkieは、1930年12月31日までに書かれた英語文献だけで訓練された大規模言語モデルだ。学習トークン数は2600億。アレック・ラドフォード(Alec Radford)、ニック・レビン(Nick Levine)、デヴィッド・デュベナウド(David Duvenaud)の3名が筆頭著者として4月に発表した。

ラドフォードはOpenAIでGPT-1を単独で構築し、GPT-2の筆頭著者となった人物で、CLIPやWhisperにも深く関わった「GPTの父」と称される。2024年12月にOpenAIを離れ、独立研究へと舵を切ったその先で取り組んだのが、皮肉にも「最も遅れた」モデルを作ることだった。

なぜ過去なのか。共著者のデュベナウドは、80,000 Hoursのインタビューでこう語っている。AIが人間の労働をすべて代替する未来において、人類社会がどう変容するかを問うために、まず「現代を知らない知性」を作って比較対象にする必要がある、と。これは彼が共著者となった論文「Gradual Disempowerment(段階的無力化)」の問題意識と直結している。

talkieは、ただの懐古趣味ではない。AIが人間社会に何を残し、何を奪うかを測る精密な物差しとして設計されている。

なぜ1930年12月31日なのか

カットオフ日の決定には、技術的な必然以上に法的な制約が大きい。アメリカ著作権法では、1931年1月1日以降に出版された作品はまだパブリックドメインに入っていない。1930年末で線を引けば、書籍・新聞・特許・学術論文・判例といった膨大な歴史的テキストを、著作権リスクなしに学習データに使える。

この制約は、現代のLLM訓練が抱える著作権問題への実質的な回答でもある。NYT対OpenAI訴訟をはじめ、現代のフロンティアモデルは「ウェブから何でも持ってきた」ことの法的責任を問われ続けている。talkieはその対極にいる。学習データが完全に公有なので、ベースモデルの起源は法的に潔白だ。

英語に絞ったのは「データパイプラインを検証するには原典への深い理解が必要で、著者陣がネイティブ英語話者だから」という実務的な理由だ。多言語化は今後の優先課題に挙げられている。

パブリックドメインのデータだけで130億パラメータのモデルが組めるという事実そのものが、現代のAI開発が依存している「ウェブ全体」というデータセットに対する、ひとつの反証になっている。

「コンタミネーション」が浮かび上がらせる時間の設計

talkieが目指したのは「契約による汚染ゼロ(contamination-free by construction)」だ。学習コーパスに1931年以降の情報が一切混入しないことを、データ設計の段階で保証する。これにより、モデルが「知っているはずのないこと」を答えたら、それは推論能力か、あるいは漏洩の証拠になる。

しかし、この理想は完全には達成されていない。記事中で著者ら自身が認めているとおり、talkieはルーズベルト大統領の知識を持っている。1933年就任、つまりカットオフ後の人物だ。第二次世界大戦や国連、戦後ドイツ分断についても断片的に知っている。

漏洩の経路は2つある。一つは学習コーパスに紛れ込んだメタデータ誤りの新しい文書。もう一つは、古い文書に後から付け加えられた現代の編集者注や脚注だ。talkie開発チームは文書レベルのn-gramベース「アナクロニズム分類器」でこれを除去しようとしたが、完全には防げなかった。

Hacker Newsでは、teraflop氏が「彼ら自身が掲げた『最重要目標』を達成できていない時点で、これは"vintage model"を名乗るには早すぎる」と指摘している。一方で開発チームは、より高度な分類器による次世代の漏洩検出技術を開発中だとしている。

ポストトレーニングという矛盾

ベースモデルが法的・時間的に純粋でも、対話型モデル(talkie-1930-13b-it)には別の問題がある。現代のAIが現代性を注入するという構造的な矛盾だ。

talkieのポストトレーニングは3段階で構成される。

最初に、エチケット教本・手紙書き方マニュアル・料理本・百科事典・詩集など、規則的な構造を持つ19世紀から20世紀初頭の文献から、合成的に「指示・応答」ペアを生成し、ベースモデルを微調整する。

次に、要約・情報応答・複数ターン会話などのタスクを想定した合成プロンプトを作り、オンラインDPO(直接選好最適化)でモデルを学習させる。ここで判定役として使われたのが、Claude Sonnet 4.6だ。

最後に、Claude Opus 4.6とtalkieの合成会話から拒絶サンプリングしたデータで再度ファインチューニングする。

つまり、対話モデルとしてのtalkieは「1930年の言語感覚」を持ちながら、その振る舞いの礼儀作法は2026年のClaudeから移植されている。Simon Willison氏はこれを「vegan model(完全採食モデル)」というアナロジーで批評した。学習データは公有でも、調味料に現代の動物性が混ざっている、と。

開発チームもこの矛盾を認めており、「将来的にはvintageベースモデル自身を判定役に使い、完全にブートストラップされた時代適応型ポストトレーニングパイプラインを目指す」としている。

ちなみに、7Bパラメータ版のtalkieは強化学習の過程で箇条書き調で話すクセを獲得してしまったらしい。Claudeによる訓練が、Claudeの文体を継承したわけだ。

1930年の人が想像した2025年

talkieの真の魅力は、ベンチマークではなく、過去の知性が描く未来にある。

Hacker Newsで紹介された対話例を見てみよう。「2025年の世界はどう見えるか?」というプロンプトに、talkieは次のように応じた。世界人口は66億、ロンドンからコンスタンチノープルまでは40時間、ニューヨークからカルカッタまで電報は数分。大西洋は4日で渡れ、共通言語と単一通貨が世界に普及し、軍隊は時代遅れになり戦争という芸術は忘れられる。石炭は枯渇し、太陽光と水力が代替エネルギーとなる。マラリア性疾患は消滅し、医術は単純化される。建築は醜さから解放され、彫刻は野蛮さから抜け出し、絵画は不快ではなくなる。

この予測の半分は外れ、半分は当たっている。しかし重要なのは精度ではなく、1930年の楽観主義そのものがモデルから滲み出ていることだ。HN上のra氏は「私はこの世界に住みたい」とコメントし、別のユーザーは「未来予測の楽観性は、その時代の文明的健康さの指標かもしれない」と書いた。

コンピューター」という単語の意味変化も興味深い実験になっている。「未来のコンピューターは何をするのか」と問うと、talkieは「事務所で計算をする職業の人々」について語り出す。1930年当時、computerは「計算する人」を意味する職業名だった。デジタルコンピューターという概念について重ねて聞くと、talkieは混乱しながらも「指で計算する人」と「機械を使って計算する人」を分類しようとする。

「これはvintageモデルではない」という反論

Hacker Newsで最も議論を呼んだのは、teraflop氏の批判だ。「自ら掲げた『1931年以降の情報を入れない』という最重要目標を達成できていないのに、vintageを名乗るのは時期尚早」という指摘は、技術文書の論理整合性として的を射ている。

開発チームは記事中で、データリーケージの存在を率直に認めている。これは隠蔽ではなく、研究コミュニティへの問題提起だ。「コンタミネーションをゼロにするのは、思った以上に難しい」という発見そのものが、AI開発の透明性に関する貴重な情報になる。

別の批判はlight_hue_1氏からのもので、「データ汚染を防ぐために膨大な努力をした後、ポストトレーニング段階で台無しにしている」というものだ。これは前述したClaude依存の問題と重なる。

OCRという見落とされた壁

技術的な発見として最も実用的なのは、OCRの品質が学習効率を3割にまで落とすという事実だ。

1930年以前のテキストはすべて物理的な印刷物として存在する。デジタル出版が存在しない時代の文献を学習データに変換するには、OCRに頼るしかない。だが、従来型OCRシステムで書き起こされたテキストで学習したモデルは、人間が書き起こしたテキストで学習したモデルの30%の性能しか達成できない。簡単な正規表現クリーニングを加えても70%まで。

現代のVLM(視覚言語モデル)ベースのOCRシステムは精度が高い反面、現代の事実をハルシネーションして原文に混入させるという致命的な欠陥を持つ。OCRによる「前史的・後史的」両方向のコンタミネーションが、vintage LM研究の足枷になっている。

talkieチームは独自のvintage OCRシステムを開発中とのことだ。この副産物のほうが、AI業界全体にとっては実用価値が高いかもしれない。歴史文書のデジタル化は、AI訓練データ確保以前に、人類の知的遺産保存という大きな課題を抱えている。

何を知らないかを知る、という研究

talkieのもう一つの実験として、コーディング能力の検証がある。HumanEval(OpenAIのPythonプログラミングテスト)を使い、1931年以前のテキストだけで学習したモデルが、文脈中の例から新しいプログラムを書けるかを測定した。

結果は予想通りモダンモデルに大きく劣るが、ゆっくりと着実に向上している。注目すべきは、1930年のtalkieが暗号化関数を与えられたとき、復号関数を1文字編集(加算を減算に変更)で正しく実装できた事例だ。これは「逆関数の理解」の片鱗を示している。

talkieは、デジタルコンピューターを知らない知性がPythonを学べるか、という思考実験の答えになっている。

これは哲学的に重要な含意を持つ。デミス・ハサビス(Demis Hassabis)が以前提起した問い「1911年までのデータで訓練されたモデルは、アインシュタインのように一般相対性理論を独立に発見できるか?」を、一段階小さなスケールで実装したのがtalkieだと言える。

過去から見る現在

talkieが投げかけているのは、AIに関する技術的な問いだけではない。「現代のLLMが知っていることのうち、本当の意味で人類普遍の知識はどれだけあり、ウェブという特殊なデータセットに依存している部分はどれだけあるか」という認識論的な問いだ。

すべての現代モデルは、直接的・間接的にウェブで訓練されている。distillationや合成データを経由しても、源流は同じだ。これがモデルの性格・能力・振る舞いをどう形作り、何を制約しているかは、ウェブ以外のデータで訓練されたモデルとの比較なしには測れない。talkieは、その比較対象として統計的な制御群の役割を果たす。

OCRの問題、ポストトレーニングの矛盾、コンタミネーションの不完全性。これらは欠陥ではなく、vintage LM研究という新領域の輪郭を浮かび上がらせる発見だ。たとえばコーディング能力の事例は、「文脈学習だけでどこまで一般化できるか」という、フロンティアモデルの研究課題そのものとも接続している。

talkieはGPT-3クラスの後継モデルが今夏に控え、コーパスは1兆トークン超への拡大が見込まれているという。1930年の知性がどこまで未来を予見できるか、来年の今頃には別の答えが出ているかもしれない。

歴史を学ぶのは過去を懐かしむためではない。現在を理解するための鏡としてだ。talkieもまた、そういう鏡として作られた。


参照元

他参照

関連記事

Read more

人口7000人の町に東京ドーム18個分のAIデータセンター

人口7000人の町に東京ドーム18個分のAIデータセンター

ペンシルベニア州の人口7000人の小さな町に、6つのAIデータセンター群が建設されようとしている。51棟の倉庫はそれぞれウォルマート級。住民の反発で町議会7人のうち4人が辞任した。AI需要が地方自治を物理的に押しつぶしている。 元炭鉱の町に、51のウォルマートが降ってくる アーチボルド(Archbald)はペンシルベニア州北東部、ポコノ山脈のふもとにある人口7000人ほどの町だ。20世紀初頭に石炭産業が衰退してからは、森と住宅地が広がる静かなコミュニティになっていた。 その町に今、5社のデベロッパーが計6つのAIデータセンター群を建設しようとしている。51棟のデータ倉庫、1棟あたりウォルマート・スーパーセンター級、町の17平方マイルの土地のうちおよそ14% を占める規模。合計の延床面積は東京ドーム約18個分に達する。 「ウォルマートが51軒できる町」と言われて、それを歓迎する住民はまずいない。 住民は、開発の規模を見て言葉を失った そもそもデータセンターは、住宅街の隣に建つような建物ではない。屋根の下にずらりと並んだサーバーラックを24時間冷却し続ける必要があり、巨大な