PRテック企業の株式会社トドオナダ(本社:東京都台東区、代表取締役:松本 泰行、以下「当社」)は、当社が提供するPR効果測定サービス「Qlipper(クリッパー)」に搭載されているLLMフレンドリーチェック機能を用いて、国内主要3,166媒体を対象に、生成AI(LLM)の事前学習データパイプラインを通過できる媒体がどの程度存在するかを定量調査いたしました。 その結果、LLMの事前学習データに「通過見込み」で採用される国内媒体はわずか10.0%(317件)、「条件付き通過」を含めても33.6%(1,063件)にとどまることが明らかになりました。さらに、伝統メディア(全国紙・地方紙・通信社)はrobots.txtによる完全遮断で、主要ポータル・ネットニュース系はコンテンツ構造側の問題で、それぞれ別の理由でLLMから排除されているという二層構造が初めて定量化されました。また、広報担当者が頼りとしてきたプレスリリース配信(ワイヤーサービス)も、robots.txtを完全開放しているにもかかわらず約3割が「即捨て」と判定され、配信先サイトの構造そのものがLLM到達率の壁となっている実態が明らかになりました。 ■ 調査背景:LLM事前学習データパイプラインとは ChatGPT、Claude、Geminiなどの生成AI(LLM)は、Web上の膨大な文書を学習素材として取り込むことで言語能力を獲得しています。しかし、Web上のすべてのコンテンツが学習に使われているわけではなく、各社AIベンダーは概ね以下のような多段フィルタパイプラインを経て学習データを選別しています。 段階 内容 落ちる原因 ① クロール許諾判定(robots.txt層) サイトのrobots.txtを参照し、AIクローラの巡回が許可されているかを確認。robots.txtは「紳士協定」であり、強制力はない robots.txtで該当クローラがブロックされている ② コンテンツ取得(UA判定/WAF層) クローラが実際にサイトへリクエストを送信。サーバー・CDN・WAFがUser-Agent文字列を見て応答可否を判断 UA判定でAIクローラを拒否(403/429返却)、Cloudflare等のWAFがAIボットを自動遮断、JavaScript描画が前提のサイトで本文が空 ③ クレンジング(本文抽出) 取得HTMLからナビ・広告・スクリプトを除去し、本文部分を抽出 本文が極端に少ない、広告・装飾要素過多、テンプレート由来のテキスト過多 ④ 品質スコアリング 抽出された本文が学習に値する品質かを判定 短文の量産記事、定型文の繰り返し、本文比率不足 ⑤ 重複排除・最終選別 重複コンテンツの除去 他媒体からの転載・自社内重複 特に重要なのは①と②が独立した二層になっている点です。robots.txtで許可していても、サーバー側でAIクローラのUser-Agentを判定して拒否するケースが近年急増しており、CDN大手のCloudflareは2024年に「AIボットをデフォルトでブロックする」機能を提供開始しました。 robots.txtで「許可」していても、実際にはサーバー・CDN・WAFの層で遮断されているサイトが多数存在する 本調査は①robots.txt層と③④クレンジング/品質層を測定対象としており、②のUA判定層によるさらなる脱落は本調査の数値の「外側」に追加で存在します。実際の生成AIへの到達率は、本調査の通過見込み率(10.0%)よりさらに低い可能性が高いと考えられます。 つまり、「サイトがWeb上に存在している」ことと、「LLMに学習素材として届く」ことは全く別物であり、PR広報業界がこれまで前提としてきた「掲載=露出」という効果測定の枠組みは、生成AI時代にはそのまま機能しないことを意味します。 ■ 調査概要 項目 内容 調査ツール PR効果測定サービス「Qlipper」搭載のLLMフレンドリーチェック機能 調査対象 Qlipperに登録されている国内主要ニュース媒体・専門メディア 3,166サイト 調査内容 ①各サイトのrobots.txtを取得し、5種の主要LLMクローラ(GPTBot/CCBot/ClaudeBot/Google-Extended/PerplexityBot)の許諾状況を判定 ②各サイトから記事URLを最大3件取得し、業界標準のクレンジングパイプライン(C4/Gopher/RedPajama準拠)に基づいて本文抽出後の生存性スコアを算出 調査実施日 2026年6月28日 スコア区分 通過見込み(0.6以上)/条件付き通過(0.4〜0.6)/通過困難(0.2〜0.4)/即捨て(0.2未満) 測定範囲の注記 本調査はLLM事前学習パイプラインのうち①