Googleはキーワードの重要度をどう判断しているか

GoogleはTF-IDFという方法を使って、コンテンツにおいての重要キーワードはなにかを計測しています。

TF(単語の出現頻度)…文書内の特定の単語の出現回数を、文書内の全ての単語の出現回数の合計で割ったもの

IDF(逆文書頻度)…全ての文書の数を、特定キーワードが出てくる文書の数で割り対数をとったもの

TF値はキーワードの重要度、逆にIDF値はキーワードが他の文書でどれだけ使われているか(単語のレア度)を表すものになります。(TF値の高いキーワードは重要、IDF値の低いキーワードは重要ではない)

たくさん出てくる単語が重要なのは当たり前ですね。ある文章の中で何回も使われている単語があったら、それについて伝えたい記事なんだと私たちが思うように、Googleもそれによって判断するわけです。

私はこの記事で『TF-IDF』について述べたいため、『TF-IDF』というキーワードを多く使っています。

逆に『それ』や『この』などといった指示語などは、この記事に限ってではなく、いろんな文章で使われます。このようなワードは、IDF値が低くレアではないため、Googleは評価しない単語となります。

要は『他の記事ではあまり出てこないレアなキーワードなのに、それが特定の記事の中に何回か出てきたら、Googleはそれを重要なキーワードと判断しますよ。』ということです。

じゃあレアなキーワードを詰め込みまくったコンテンツを作れば、検索結果が上がるんじゃね!!

って考えてしまうかもしれません。しかしそれをやっちゃうとアウトです。

Googleは自然な文章のなかでは、どれだけ重要なキーワードであってもTF値は5%以下になると考えています。

そのため、色々な文章で出てくるIDF値の低いキーワードにフィルタをかけ、残った重要キーワードごとTF値を計算しています。

ポンポンとレアなキーワードを乱用した、高過ぎるTF値が存在する不自然な記事は、Googleからの評価が悪く、SEO的にもユーザビリティとしても良いものではないでしょう。。

閲覧者のことを考えた、自然で読みやすい記事を作る事を心がけましょう!

TF-IDFの欠点

TF値は一つの文章内で出てくるキーワードの重要度の比較であり、計測する記事の総単語量や長さなどによって変わってくるものです。

出現回数が同じでも、記事が長ければTF値は低くなり、短い記事だと高くなります。

つまり、ひとつの記事内での評価には役立ちますが、他の記事で出てくる重要キーワードとの比較に使うことはできません。

そこで紹介したいのが Okapi BM25という手法です。

Okapi Bm25は記事の長さによる影響を無くすために、全ての記事の総単語数の平均というパラメータを含んでいます。

そのため、TF-IDFより単語の重要度を測るうえで良い手法とされています。

ここではざっくりたした説明になりましたが、SEOの分野では知っておいても損のない情報だと思い紹介させて頂きました。

written by カメダックス