Yaleで、遊んで学ぶ日々。
Yaleで、遊んで学ぶ日々。
囲碁、ときどきプログラミング、ところにより経済。
×
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
何でもランキングが出るとすぐにグラフを描きたくなるのは、職業病のようなものだ。仕事柄、混沌たるデータの中に一筋の秩序を見つけることを常に要求されるのだが、順位データは規則性が比較的見つかりやすく、気持ちいいのが特徴だ。
今夜は、ついさっき発表された第3回AKB48選抜総選挙の結果を少し眺めてみよう。数値はこのページから取得した。データはこちら。
下の2つの図はどちらも上位40名の得票数を上から並べて棒グラフにしたものだが、近似曲線の描き方だけが異なっている。1つ目はべき関数、2つ目は指数関数で近似している。決定係数はどちらも0.9を越えて優秀だが、若干指数近似の方が値が高い。どちらの近似曲線がより「正しそう」か、もう少し見てみよう。
早稲田大学の西原先生は、微分方程式のゼミで、「人の目では直線くらいしか判断がつかない」と言っていた。曲線を見てそれがべき関数なのか指数関数なのかを判断するのは、人の知覚能力では困難だという教えだ(Yaleの同級生である戸田アレクシ哲が、あるグラフを見て「一目で双翼の指数分布だと気づいた」と言った時にはそのセンスに驚愕した)。非線形な関係にあるグラフを視覚的に判断するには、線形(ここではlinearではなくaffineの意)になるように上手いこと軸のスケールを変えるのが常用手段だ。
べき関数は、
y = a * x^r
という関係なので、両辺に対数を取ると
log(y) = C + r log(x)
C=log(a)
となる。そこで、x, yの両軸を対数にしたのが下図。
一方、指数近似では
y = a * b^x
という式に当てはめているので、
log(y) = C + D x
C =log(a), D=log(b)
つまり、片対数で直線になる。そこで下図ではy軸のみ対数にしてある。
上の2つのグラフを比べれば、後者の近似がかなり有力であることは明らかだろう。ただし、上位2名(つまり、前田淳子と大島優子)は近似直線から大きくずれている。外れ値というやつだ。そこで、この2人を除いた3位から40位で改めて指数関数に当てはめてみよう。下図の通り、決定係数はさらに上がり、視覚的にもほぼ完璧に直線の上にデータが乗っている。
結論:第3回AKB48選抜総選挙の得票数は、順位の指数関数である。ただし、上位2人は外れ値。
上位2人だけが大きく外れる理由ははっきりとは分からないが、センターポジションに特別な意味があるということだろうか。
【つづき】
【追記】
昨年のデータで同じことをやったところ、同様に指数関数の当てはまりが極めて良く、かつ上位2人はやや外れ値だった。2回連続でこれなら偶然ではなさそうだ。何か、こういう分布を生じさせるメカニズムが存在すると見て間違いない。データはこちら。
今夜は、ついさっき発表された第3回AKB48選抜総選挙の結果を少し眺めてみよう。数値はこのページから取得した。データはこちら。
下の2つの図はどちらも上位40名の得票数を上から並べて棒グラフにしたものだが、近似曲線の描き方だけが異なっている。1つ目はべき関数、2つ目は指数関数で近似している。決定係数はどちらも0.9を越えて優秀だが、若干指数近似の方が値が高い。どちらの近似曲線がより「正しそう」か、もう少し見てみよう。
早稲田大学の西原先生は、微分方程式のゼミで、「人の目では直線くらいしか判断がつかない」と言っていた。曲線を見てそれがべき関数なのか指数関数なのかを判断するのは、人の知覚能力では困難だという教えだ(Yaleの同級生である戸田アレクシ哲が、あるグラフを見て「一目で双翼の指数分布だと気づいた」と言った時にはそのセンスに驚愕した)。非線形な関係にあるグラフを視覚的に判断するには、線形(ここではlinearではなくaffineの意)になるように上手いこと軸のスケールを変えるのが常用手段だ。
べき関数は、
y = a * x^r
という関係なので、両辺に対数を取ると
log(y) = C + r log(x)
C=log(a)
となる。そこで、x, yの両軸を対数にしたのが下図。
一方、指数近似では
y = a * b^x
という式に当てはめているので、
log(y) = C + D x
C =log(a), D=log(b)
つまり、片対数で直線になる。そこで下図ではy軸のみ対数にしてある。
上の2つのグラフを比べれば、後者の近似がかなり有力であることは明らかだろう。ただし、上位2名(つまり、前田淳子と大島優子)は近似直線から大きくずれている。外れ値というやつだ。そこで、この2人を除いた3位から40位で改めて指数関数に当てはめてみよう。下図の通り、決定係数はさらに上がり、視覚的にもほぼ完璧に直線の上にデータが乗っている。
結論:第3回AKB48選抜総選挙の得票数は、順位の指数関数である。ただし、上位2人は外れ値。
上位2人だけが大きく外れる理由ははっきりとは分からないが、センターポジションに特別な意味があるということだろうか。
【つづき】
【追記】
昨年のデータで同じことをやったところ、同様に指数関数の当てはまりが極めて良く、かつ上位2人はやや外れ値だった。2回連続でこれなら偶然ではなさそうだ。何か、こういう分布を生じさせるメカニズムが存在すると見て間違いない。データはこちら。
PR
Calender
12 | 2025/01 | 02 |
S | M | T | W | T | F | S |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Search in This Blog
Latest Comments
[03/30 川内のばば山田]
[03/30 川内のばば山田]
[08/06 Aterarie]
[07/05 Agazoger]
[07/01 Thomaskina]
Latest Posts
(11/16)
(04/28)
(04/16)
(04/11)
(04/05)
Latest Trackbacks
Category
Access Analysis