Yaleで、遊んで学ぶ日々。
Yaleで、遊んで学ぶ日々。
囲碁、ときどきプログラミング、ところにより経済。
×
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
AKB48得票数分析の最終回。
前々回の記事では、第3回選抜総選挙の得票数と順位の関係について、指数近似のフィットがかなり良いことを示し、前回の記事では得票数が順位の指数関数となるのは、得票数がlog-uniform分布に従う時であることを導いた。
今回はまとめとして、第1回から第3回までのデータを用いて、rank-frequency plot をもう一度よく見直し、議論を一旦締める。
データはこちら。ソースはここ。
下図は、2011年のRank-frequency plotを4種類のスケールで描いたもの。lin-linは、両軸をそのままに、log-linはy軸を対数軸、lin-logはx軸を対数軸、log-logは両対数軸である。軸の取り方と得票数の分布の関係をまとめておくと
この図で比べてみると、やはりlog-lin(左下)の近似が一番良さそうに見える。
ただし、上位2名を除いて描き直してみると、結構難しいところ。これでも若干log-linが良さそうかな、と思う。
第1,2回ではさらに判断が難しい→2010年のグラフ, 2009年のグラフ。2010年ではlog-linとlin-logでともに綺麗な直線になっており、甲乙つけ難い。2009年では、むしろlog-logとlin-logがデッドヒートだ。総合すると、得票数の分布としてどれが一番有力であるかを視覚的に決めるのは難しい。統計的な検定をすることは理論的には可能だが、サンプルが30ないし40ではその力は限定的だろう。
実際のところ、1つの分布に限定する必要は必ずしもない。状況により、これらの分布の間を行ったり来たりするというのが答えかもしれない。たとえば、所得分布の研究では、高所得層ではパレート分布、中・低所得層では指数分布の当てはまりが良いことが知られている。ということは、何らかの要因でパレート分布に近くなったり指数分布に近くなったりする、というのもありそうな話だ。また、log-uniform分布とパレート分布は数学的には親戚関係にある。というのは、累積密度関数はそれぞれ
F(x) = a * log(x) + junk
F(x) = b * x^r + junk
であるので、これを微分して確率密度関数を求めると
f(x) ∝ x^(-1)
f(x) ∝ x^(r-1)
になる。つまり、パレート分布のパラメータ r をゼロに近づけていくと、だんだんとlog-uniform分布に近づいていくわけだ。
AKB48のことを調べて何になるかと言われれば全く何にもならないのだが、(AKBに限らず一般に)得票数の分布を真剣に分析した研究は少ないのではないかと思う。経済社会的な要因が政党の得票数にどう影響を与えるか、というのは政治経済学の王道トピックだが、得票数の分布に目を向けた話はあまり聞かない。もしかしたら、計量政治学の最も盛んな米国が二大政党制であるため、候補者数が2人の選挙が多くて分布も何もない、というのが原因かも(?)。他の国、例えば日本では政党数はそこそこあるし、小選挙区でも5人くらいの候補者がいる。知事選や地方議会選挙では数十人になることもある。するとそこには必然的に分布というものが発生するのである。
民主政治の根幹である「投票」について、分布から接近する手はないものか、とアイドルグループの人気投票を眺めながらそんなことを考えているのである。
【追記】
先行研究があった。1週間前の速報段階で全く同じことをやった人→YusukeMaedaさんのブログ。一年前の記事→ネット研。
前々回の記事では、第3回選抜総選挙の得票数と順位の関係について、指数近似のフィットがかなり良いことを示し、前回の記事では得票数が順位の指数関数となるのは、得票数がlog-uniform分布に従う時であることを導いた。
今回はまとめとして、第1回から第3回までのデータを用いて、rank-frequency plot をもう一度よく見直し、議論を一旦締める。
データはこちら。ソースはここ。
下図は、2011年のRank-frequency plotを4種類のスケールで描いたもの。lin-linは、両軸をそのままに、log-linはy軸を対数軸、lin-logはx軸を対数軸、log-logは両対数軸である。軸の取り方と得票数の分布の関係をまとめておくと
- lin-linで直線 ⇔ 一様分布
- log-linで直線 ⇔ log-uniform分布
- lin-logで直線 ⇔ 指数分布
- log-logで直線 ⇔ パレート分布
この図で比べてみると、やはりlog-lin(左下)の近似が一番良さそうに見える。
ただし、上位2名を除いて描き直してみると、結構難しいところ。これでも若干log-linが良さそうかな、と思う。
第1,2回ではさらに判断が難しい→2010年のグラフ, 2009年のグラフ。2010年ではlog-linとlin-logでともに綺麗な直線になっており、甲乙つけ難い。2009年では、むしろlog-logとlin-logがデッドヒートだ。総合すると、得票数の分布としてどれが一番有力であるかを視覚的に決めるのは難しい。統計的な検定をすることは理論的には可能だが、サンプルが30ないし40ではその力は限定的だろう。
実際のところ、1つの分布に限定する必要は必ずしもない。状況により、これらの分布の間を行ったり来たりするというのが答えかもしれない。たとえば、所得分布の研究では、高所得層ではパレート分布、中・低所得層では指数分布の当てはまりが良いことが知られている。ということは、何らかの要因でパレート分布に近くなったり指数分布に近くなったりする、というのもありそうな話だ。また、log-uniform分布とパレート分布は数学的には親戚関係にある。というのは、累積密度関数はそれぞれ
F(x) = a * log(x) + junk
F(x) = b * x^r + junk
であるので、これを微分して確率密度関数を求めると
f(x) ∝ x^(-1)
f(x) ∝ x^(r-1)
になる。つまり、パレート分布のパラメータ r をゼロに近づけていくと、だんだんとlog-uniform分布に近づいていくわけだ。
AKB48のことを調べて何になるかと言われれば全く何にもならないのだが、(AKBに限らず一般に)得票数の分布を真剣に分析した研究は少ないのではないかと思う。経済社会的な要因が政党の得票数にどう影響を与えるか、というのは政治経済学の王道トピックだが、得票数の分布に目を向けた話はあまり聞かない。もしかしたら、計量政治学の最も盛んな米国が二大政党制であるため、候補者数が2人の選挙が多くて分布も何もない、というのが原因かも(?)。他の国、例えば日本では政党数はそこそこあるし、小選挙区でも5人くらいの候補者がいる。知事選や地方議会選挙では数十人になることもある。するとそこには必然的に分布というものが発生するのである。
民主政治の根幹である「投票」について、分布から接近する手はないものか、とアイドルグループの人気投票を眺めながらそんなことを考えているのである。
【追記】
先行研究があった。1週間前の速報段階で全く同じことをやった人→YusukeMaedaさんのブログ。一年前の記事→ネット研。
PR
Calender
12 | 2025/01 | 02 |
S | M | T | W | T | F | S |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Search in This Blog
Latest Comments
[03/30 川内のばば山田]
[03/30 川内のばば山田]
[08/06 Aterarie]
[07/05 Agazoger]
[07/01 Thomaskina]
Latest Posts
(11/16)
(04/28)
(04/16)
(04/11)
(04/05)
Latest Trackbacks
Category
Access Analysis