Envisionでジップの法則

Envisionでジップの法則

アメリカの言語学者ジョージ・キングズリー・ジップが英語の単語の出現頻度と順位の間に成り立つ関係として見出したことに由来する「ジップの法則」という経験則があります。ランクの順位をnとしたとき、そこに属する単語の出現頻度が1/nに比例するという法則です。ランクが上位の単語の出現頻度に比べ、ランクを降るにつれて急激に出現頻度が下がることは経験的に予想できますが、この現象をシンプルな式で表現できることが驚きです。また言語の研究から導きだされたこの法則が、世の中のさまざまな現象、たとえばウェブページのアクセス頻度のランキングなどにとてもよく当てはまることが知られています。

クリスマスが近づいていますのでチャールズ・ディケンズの小説「クリスマス・キャロル」でこのジップの法則を確かめました。

この小説に登場する単語の出現頻度を数えたところランク1位となったのは「the」で、2位の「and」のおよそ1.6倍の出現頻度となりました。3位の「of」以降、しばらくは冠詞、前置詞、代名詞などが続きます。そして主人公の「Scrooge」が目を引く単語として最初に現れます。

ここでsolidThinkingが今年リリースしたクラウドBI「Envision」で可視化した①ランキングチャートを実際にご覧ください。ランキングチャートのスクロールバーを上下することができますので、気になる単語を探してみてください。

②はジップの法則との比較です。水色のグラフが実際のカウントです。ジップの法則はランク、頻度を対数に変換すると、傾きマイナス1の右下がりの直線(オレンジ)になることを予想しますが、おおむね近い結果と言えるのではないでしょうか。

③はワードクラウドです。単語「Christmas」も上位にランクインしています。どこにあるか探してみてください。

0 0 votes
Article Rating

カテゴリー: 事例

Subscribe
Notify of
0 Comments
Inline Feedbacks
View all comments