GitHub Copilotが個人ユーザーのコードをAI学習に使う──4月24日から
あなたのコードが、知らないうちにAIの教材になろうとしている。GitHubが発表したCopilotの新しいデータ利用ポリシーは、個人開発者にとって見過ごせない内容だ。
あなたのコードが、知らないうちにAIの教材になろうとしている。GitHubが発表したCopilotの新しいデータ利用ポリシーは、個人開発者にとって見過ごせない内容だ。
GitHub Copilotの学習データ方針が変わる
GitHub Copilotの利用規約が、2026年4月24日(現地時間)から大きく変わる。Free、Pro、Pro+プランのユーザーがCopilotとやり取りした内容が、AIモデルの学習データとして使用されるようになる。デフォルトは「オン」。つまり、何もしなければあなたのコードは学習に回る。
GitHubのCPO(最高プロダクト責任者)マリオ・ロドリゲスが3月25日(現地時間)に公式ブログで発表した。収集対象は広範囲にわたる。Copilotが提案したコードの受け入れ・修正履歴、入力したプロンプト、カーソル周辺のコード文脈、コメントやドキュメント、さらにはファイル名やリポジトリ構造、ナビゲーションパターンまで含まれる。
端的に言えば、Copilotを使って書いたものはほぼすべてが収集対象だ。
一方で、BusinessプランとEnterpriseプランのユーザーはこの変更の影響を受けない。企業向け契約がデータ利用を禁じているためだ。ここに、今回のポリシー変更の本質的な問題が透けて見える。
なぜ「オプトイン」ではなく「オプトアウト」なのか
GitHubは今回の変更を「業界標準に沿ったもの」と説明している。社内テストでは、Microsoft社員のインタラクションデータを使って学習させたモデルが、複数のプログラミング言語で提案の採用率を向上させたという。実際のコーディングパターンを学習に反映させれば、Copilotの精度は上がる。理屈としては筋が通っている。
しかし、問題は手続きの設計だ。なぜオプトイン(明示的な同意)ではなく、オプトアウト(明示的な拒否)なのか。
GitHub Communityのディスカッションには、発表から数時間で批判的なコメントが並んだ。「あなたのコードやアイデアをLLMで他人に渡すことを勝手に決めないでほしい」「これは信頼の大きな毀損だ」という声がある。EUのGDPR(一般データ保護規則)との整合性を疑問視する声も根強い。GitHub側はEEAおよびUKのユーザー向けに「正当な利益」を法的根拠として挙げているが、これが個人の権利を上回るかどうかは議論の余地がある。
率直に言って、オプトアウト方式を選んだ最大の理由は明白だ。オプトインにすれば、大半のユーザーは何もしない。つまりデータが集まらない。GitHubはそれを避けたかった。透明性があるのは良い。だが、透明性と公正さは別の話だ。
「保存データは使わない」の落とし穴
GitHubは繰り返し、プライベートリポジトリの「保存データ」は学習に使わないと強調している。公式ブログでもわざわざ「at rest」という表現を使い、保存されたソースコードそのものは対象外だと線引きした。
だが、ここには巧妙なグレーゾーンがある。Copilotを使っている最中に処理されたコード——つまりプロンプトに含まれるコード断片や、カーソル周辺のコンテキスト——は「インタラクションデータ」として収集対象になる。プライベートリポジトリで作業していても、Copilotを起動した瞬間にそのコードの一部は「動いているデータ」として扱われるのだ。
保存データは守ります。でも使っている最中のデータは別です。この区分は、法的には正確かもしれない。だが、プライベートリポジトリで独自のコードを書いている開発者にとって、その区別はどれほどの安心材料になるだろうか。
企業ユーザーだけが守られる構図
今回の変更で最も際立つのは、個人と企業の扱いの非対称性だ。
Copilot Proは月額10ドル(約1,600円)の有料プランだ。お金を払っている個人ユーザーのデータは学習に使われる。一方、Business(月額19ドル/ユーザー)やEnterprise(月額39ドル/ユーザー)の企業ユーザーは、契約によって完全に除外される。
GitHubのFAQには「なぜ企業は除外で個人は対象なのか?」という質問が用意されている。答えは端的だ。「企業向け契約がデータ利用を禁じているから」。個人ユーザーには、そのような契約がない。オプトアウトする権利はあるが、契約上の保護は存在しない。
学生や教員向けの無料Copilot Proは対象外だと明記されている点は、せめてもの救いだろう。だが、フリーランスの開発者、個人でオープンソースに貢献する人々、小規模な開発チーム——彼らは「企業ではない」という理由だけで、デフォルトで学習データの提供者になる。
収集されたデータはMicrosoftを含むGitHubの関連企業と共有される可能性がある。サードパーティのAIプロバイダーへの提供はしないとGitHubは明言しているが、MicrosoftとOpenAIの関係を考えると、「関連企業」の境界線がどこまで実質的な壁になるのかは注視が必要だ。
オプトアウトの手順と、その前に考えるべきこと
拒否したいユーザーは、GitHubの設定画面(Settings → Copilot → Privacy)から「Allow GitHub to use my data for AI model training」を無効にすればいい。以前からデータ収集をオプトアウトしていた人は、その設定が引き継がれる。
GitHubによれば、APIキーやパスワード、トークン、個人情報を検出・除去する自動フィルタリングを実装しているという。アクセスできるのはモデル改善と安全性に携わる認定スタッフのみで、アクセスログと監査も行われるとしている。
ただし、オプトアウトは施行後も「いつでも可能」とされているが、それまでに収集されたデータがどう扱われるかについての説明は曖昧だ。オプトアウトした時点から収集を停止するとは書いてある。しかし、それ以前に収集済みのデータの削除については明確な言及がない。
開発者のコードが支えるAIの未来
あらゆるAIコーディングツールは、人間が書いたコードなしには存在できない。GitHubが公開リポジトリのコードでCopilotを学習させたときも、ライセンス問題で激しい批判を浴びた。GPL(GNU一般公衆利用許諾)のコードで学習したモデルが、商用利用向けのコードを生成する。これはオープンソースの精神を「ロンダリング」しているのではないか、という問いは今も解決していない。
今回の変更は、その延長線上にある。違いは、今度は開発者が「能動的にCopilotを使っている最中のデータ」が対象になったことだ。公開コードの無断学習から、ユーザーのリアルタイムな開発行動の学習へ。GitHubは段階的に、開発者とAIの関係を書き換えている。
4月24日(現地時間)まで、あと1ヶ月もない。設定を確認する時間はある。だが本当に考えるべきは、設定のトグルではなく、自分のコードが誰のために何に使われるのか、という問いそのものだろう。
参照元
#GitHubCopilot #AI学習データ #GitHub #プライバシー #オープンソース #Microsoft #AI #開発者 #情報の灯台