AI検索で引用される準備は整っているか?診断1,287サイトのcitationスコア集計

AI検索で引用される準備は整っているか?診断1,287サイトのcitationスコア集計

AI検索(ChatGPT、Gemini、AI Overviewsなど)の普及で、「検索結果に出る」ことの意味が二層に分かれました。ひとつはコンテンツが回答の根拠として引用される(retrieval)こと。もうひとつは、回答の本文でブランド名が想起される(recall)ことです。この2つはしばしば一致しません。コンテンツが根拠として引用されているのに、推奨されるのは競合で、自社のブランド名は本文に登場しないという状態が現実に起こります。

SEGOの診断データを見ると、多くのサイトでこの「想起される側の準備」が手つかずのまま残っていました。本記事では、SEGO診断を実施した1,287サイトのスコアを集計し、引用準備(citation)が技術面とどれだけ乖離しているかを項目別に確認します。

AI検索への対応を体系的に把握したい方は、AI検索で自社は表示されている?ChatGPT・Gemini・Perplexityでの確認方法と改善策もあわせてご覧ください。

引用と「ブランド想起」は別の問題

大規模言語モデルが回答を生成するとき、ブランド名は多くの場合、学習済みの内部知識(パラメトリックメモリ)から先に決まります。そのうえで、選んだ内容を裏付けるソースを後から検索して引用する、という順序を取りやすいことが知られています。引用は「結論を出したあとの参考文献」に近く、ブランドが選ばれる工程そのものではありません。

この構造が意味するのは、検索でヒットする(retrievalを通過する)技術的な準備と、ブランドとして想起される準備は、別々に整える必要があるということです。後者を支えるのは、第三者からの言及、著者や運営主体の明示、外部での被引用といった「エンティティとしての信号」になります。SEGO診断ではこれらをcitationカテゴリとして評価しています。

LLMが回答を生成するまでの流れ

なぜ「引用される」ことと「想起される」ことが食い違うのか。大規模言語モデルが回答を組み立てる順序を分解すると見えてきます。ユーザーの質問が入ってから回答が返るまでには、おおむね次の流れをたどります。

LLMが回答を生成する流れと、2つの分岐点 1 ユーザーの質問を受け取る 例:「〇〇におすすめのツールは?」 2 パラメトリック記憶からブランド候補を選ぶ 学習済みの知識から「この分野といえば」を想起 ← ここで「想起されるか」が決まる(recall) 3 選んだ内容を裏付けるソースを検索する 関連性の高いページを集めて根拠にする(retrieval) ← ここで「引用されるか」が決まる 4 引用を付けて回答を生成する 本文でブランドを挙げ、出典リンクを添える ゴースト引用が起きる仕組み ステップ3を通過(=コンテンツは引用される)しても、ステップ2で選ばれて いなければ、本文にブランド名は登場しない。引用と想起は別の分岐点で決まる。

ポイントは、ブランドが選ばれるか(ステップ2)と、コンテンツが引用されるか(ステップ3)は、別々の分岐点で決まることです。技術的な準備(クロール可能性やマークアップ)はステップ3の通過率を上げますが、ステップ2でブランドが想起されるかには直接効きません。

その結果として起こるのが「ゴースト引用」です。コンテンツがステップ3で根拠として拾われても、ステップ2でブランドが想起されていなければ、推奨されるのは競合で、引用されるのは自社の記事、しかし本文に自社名は出ない——という状態になります。引用準備(citation)は、このステップ2で選ばれる確度を高めるための対策にあたります。

診断1,287サイトのスコア分布

citation診断を実施した1,287サイトについて、各サイトの最新診断1件に絞ってカテゴリ平均スコアを集計しました(0〜100点)。結果は以下のとおりです。

カテゴリ別 平均スコア(n=1,287サイト) 技術 92.6 AI検索 57.5 引用準備 6.4 技術(92.6)と引用準備(6.4)の差:約86ポイント

技術スコアは92.6で、サイトの土台(クロール可能性や基本的なマークアップなど)はおおむね整っています。一方で引用準備は6.4と極端に低い。retrievalを通過する準備はできているのに、想起されるための準備がほぼ存在しないという、冒頭で述べた構造がそのまま数字に表れています。

citation項目別の実装状況

citationカテゴリの内訳を項目別に見ると、低スコアの原因がどこにあるかがわかります。各項目について、1,287サイトのうち合格判定となった割合(通過率)を集計しました。

citation項目別 通過率(n=1,287サイト) 横軸:0〜20% 著者情報の明示 1.6% コミュニティ言及 2.1% 引用元の権威性 2.5% 引用元の多様性 9.8% 被引用数 16.9% ブランド露出 19.3% いずれの項目も通過率は2割未満。最も低いのは著者情報の明示(1.6%)。

通過率が最も低いのは著者情報の明示で、1,287サイトのうち合格はわずか1.6%でした。誰が書き、運営しているコンテンツなのかが、機械可読な形で示されていないサイトがほとんどということになります。続いてコミュニティ言及(2.1%)、引用元の権威性(2.5%)が低く、比較的高いブランド露出でも19.3%にとどまり、すべての項目が2割未満に収まっています。

データが示すもの

技術スコア92.6と引用準備6.4の差は、「やることが多すぎて手が回らない」というより、そもそも引用準備が対策対象として認識されていない状況を示していると読めます。クロール可能性やマークアップは整備が進む一方、ブランドがエンティティとして認識されるための信号は、まだ多くのサイトで空白のままです。

項目の傾向も示唆的です。最下位の著者情報の明示は、外部に頼らず自サイトで完結できる対策であるにもかかわらず通過率が最も低い。着手できる余地が大きい領域が、最も手つかずになっています。

想起される側の準備を進めるには

引用準備を構成する信号は、おおまかに「自サイトで整えられるもの」と「外部の積み上げが必要なもの」に分かれます。今回のデータからは、まず前者から着手する余地が大きいことが読み取れます。

自サイト側で整えられるものとしては、運営主体・著者を機械可読にする対応があります。Organization構造化データの整備、運営者と著者の明示、それらを外部の同一エンティティ情報と結びつける記述などです。構造化データの具体的な実装は構造化データとは?【JSON-LD】SEOとAI検索に効く5つのスキーマを参照してください。外部の積み上げが必要なものとしては、第三者メディアや関連コミュニティでの言及、被引用の獲得が挙げられます。これらは時間がかかりますが、ブランドが想起される確度を底上げする土台になります。

順序としては、通過率が最も低く、かつ自サイトで完結できる著者・運営主体の明示から着手し、そのうえで外部言及を積み上げていくのが現実的です。

集計方法と前提

本記事の数値は、SEGO診断ツールでcitation診断を実施したサイトのうち、各URLの最新診断1件に絞り込んだ1,287サイトを母集団として集計しました。SEGO全体の累計診断数(約2,667回/1,490サイト)とは集計範囲が異なります。スコアおよび通過率はSEGOの評価基準にもとづくもので、母集団は当ツールを利用したサイトに偏っている点に留意してください。中小規模のサイトが多く含まれるため、引用準備系の通過率は一般的な母集団より低めに出ている可能性があります。

自社サイトの引用準備が今どの水準にあるかは、URLを入力するだけで無料診断できます。現状を把握したい方はぜひご活用ください。

SEGOで無料診断を試す

LINEで無料資料を受け取る

プロに相談してみませんか?

SEGOの診断結果をもとに、改善の方向性を無料でお伝えします。30分のオンライン相談で、あなたのサイトの次のステップが見えてきます。

無料30分相談を申し込む

この記事を書いた人

岡 拓馬

岡 拓馬(おか たくま)

外資系SEOスペシャリスト / SEGO開発者

約10年の国際SEOコンサルティング経験

航空自衛隊で航空機整備員として勤務した後、2015年にフリーランスのWebライター・SEOコンサルタントとして独立。以来、アジア各国を拠点に海外ノマドワーカーとして活動。フィリピンの外資系企業でSEOスペシャリストとして従事した後、約10年の国際SEOコンサルティング経験をもとにSEO×AI検索の診断ツール「SEGO」を開発。著書に『AI時代のテクニカルSEOの教科書』(Kindle)、Udemy講座『AI時代のコンテンツSEOの教科書』がある。

執筆プロセス:本記事はAI(Claude Sonnet)による下書きを、岡拓馬が一次データ追加・実例追記・文意確認を行ったうえで公開しています。内容の最終責任は筆者(岡拓馬)が負います。