Yaleで、遊んで学ぶ日々。
Yaleで、遊んで学ぶ日々。
囲碁、ときどきプログラミング、ところにより経済。
×
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
政治経済学のterm paperで使おうと思って日本の選挙のデータをザ・選挙というページからがっつりデータを落とした。Web-scraping作業だ。このページ、国政選挙に関しては8~9割、特に戦後についてはほぼ100%をカバーしている有難いwebsiteだが、半年くらいで閲覧できなくなるらしい。いずれ有用になるかもしれないので、ここで公開されているデータは一通り保存してしまうことにした。時間が空いたら全てデータにして一通りdata cleaningを施して、もし元ページの管理者の許可が下りたら公開しようと思う。秋ぐらいになるかなぁ。
今日は当面使いそうな衆・参議員選挙の結果をデータにまとめたのだけど、ところどころで(小さいながら)誤りが発見された。公式のデータじゃないわけだしある程度は仕方ないので(別に公式だって間違っている可能性はある)、ここからちまちまdata cleaningをする予定。ちなみに今日発見した誤りは、第37回衆議院選挙の秋田2区結果にある。定員4名のはずが3人までしか当選のマークがついていない。この場合いくつかの可能性が考えられる。
(1) 定員は実は3名。
(2) 実は4位の笹山さんも当選。
(3) 実は特別な理由があって実は5位以下の誰かが当選。
(4) その他、僕の想像の及ばない理由。
さて、正解は......
今日は当面使いそうな衆・参議員選挙の結果をデータにまとめたのだけど、ところどころで(小さいながら)誤りが発見された。公式のデータじゃないわけだしある程度は仕方ないので(別に公式だって間違っている可能性はある)、ここからちまちまdata cleaningをする予定。ちなみに今日発見した誤りは、第37回衆議院選挙の秋田2区結果にある。定員4名のはずが3人までしか当選のマークがついていない。この場合いくつかの可能性が考えられる。
(1) 定員は実は3名。
(2) 実は4位の笹山さんも当選。
(3) 実は特別な理由があって実は5位以下の誰かが当選。
(4) その他、僕の想像の及ばない理由。
さて、正解は......
PR
なかなか良い噂を耳にするので、Ubuntu9.04から9.10にupgradeしてみた。あんまり変わらなかった。wirelessは相変わらずつながらないしなー。誰か助けてくれ。
upgrade直後には日本語の入力が出来なくなったので、とりあえず解決方法を記録しておく。もとソースはUbuntu Forum。
【Ubuntu9.10 日本語入力】
Keyboard input method system: lBus
Language support installed: English, Japanese
日本語が入っていない場合はinstall/remove languageからインストールする。
System->Preferences-> lBus Preferencesを開き、以下を設定
Input Method: English iSpell, Japanese anthy
Use system keyboard layout: yes
最初はJapanese Anthyが入っていないので、Select an input methodから探してAdd。
その後restartが必要。
言語バーが出てこない場合はCTRL+spaceとしてみる。
【日本語のフォントを綺麗にする】
System -> Preferences -> Appearence
からフォントに限らず色々変更できる。特にデフォルトのwindowの色が藤木の唇みたいで気持ち悪かったので直ちに変更した。
Firefoxのフォント変更は、Edit->Preference->Contentより。
個人的には、VL Gothic というのが無難だと感じたので、システムもFirefoxもこれに設定してある。
以前書いた記事の続き。
Rスクリプト編集用のGeditプラグインが公開されていることを知ったのでインストールしてみる。
【方法】
Rgeditからダウンロードして、解凍したものをすべて/home/<USER名>/.gnome2/gedit/plugins
へコピー。pluginフォルダがなければ新しく作る。その後gedit上でedit->preferences->pluginsからR integrationを選択。
Windowsで使っていたデフォルトのRGUI程度には使える。コピペも出来るし。個人的にはエディタとコンソールは左右に並んでいる方が好きなのだがどうやら変更できなさそうなので我慢する。TerminalからRを起動していちいちsource("script.R")とか打ち込むよりは大分やりやすい。
ちなみにUbuntu9.10にupgradeしたときにR-commanderというのがついてきたのだが、今のところ機能は同じくらいのような気がする。それならR-commanderを使う方が賢いかも(だんだんGeditが重装備になっていくのがなんか嫌)。
Latex用のパッケージも発見した。Gedit Latex pluginからダウンロードできるらしいが、INSTALLというドキュメントによるとどうやら色々なソフトウェアが別途必要になるらしいので当面使わないことにした。
Kileっていうソフト(Synaptic Package Manager)がLatex編集に便利らしいのだけど、何だか動作があまり軽快じゃなかったのと、終了時になぜか「強制終了しました」的なエラーメッセージを出すのが嫌になったので使わないことにした。
とりあえずGedit + 自作シェル + スペルチェッカーで事足りそう。ちなみにスペルチェッカーはデフォルトのpluginリストの中にあるので、Edit->Preference->pluginsから選択すればいい。
Rスクリプト編集用のGeditプラグインが公開されていることを知ったのでインストールしてみる。
【方法】
Rgeditからダウンロードして、解凍したものをすべて/home/<USER名>/.gnome2/gedit/plugins
へコピー。pluginフォルダがなければ新しく作る。その後gedit上でedit->preferences->pluginsからR integrationを選択。
Windowsで使っていたデフォルトのRGUI程度には使える。コピペも出来るし。個人的にはエディタとコンソールは左右に並んでいる方が好きなのだがどうやら変更できなさそうなので我慢する。TerminalからRを起動していちいちsource("script.R")とか打ち込むよりは大分やりやすい。
ちなみにUbuntu9.10にupgradeしたときにR-commanderというのがついてきたのだが、今のところ機能は同じくらいのような気がする。それならR-commanderを使う方が賢いかも(だんだんGeditが重装備になっていくのがなんか嫌)。
Latex用のパッケージも発見した。Gedit Latex pluginからダウンロードできるらしいが、INSTALLというドキュメントによるとどうやら色々なソフトウェアが別途必要になるらしいので当面使わないことにした。
Kileっていうソフト(Synaptic Package Manager)がLatex編集に便利らしいのだけど、何だか動作があまり軽快じゃなかったのと、終了時になぜか「強制終了しました」的なエラーメッセージを出すのが嫌になったので使わないことにした。
とりあえずGedit + 自作シェル + スペルチェッカーで事足りそう。ちなみにスペルチェッカーはデフォルトのpluginリストの中にあるので、Edit->Preference->pluginsから選択すればいい。
計量経済学ではよくidentificationが問題になる。identificationというのは要するに、「僕はこれが正しいモデルだと思う」という主張をしたい時に、「でも実はこうかもしれない」という可能性をきちんと否定できるか、という問題だ。多くの場合に、経済学では完全なモデルの記述ではなくある重要なパラメータ(つまりモデルの1部分)のみを問題にするので、そういう場合はidentificationはそのパラメータの範囲で議論され、「僕はパラメータはこの値だと思う」という主張を「実は違う値かもしれない」という反論からきちんと守ることができるか、という問題になる。
どう主張を守るというと、それはデータだ。もし、パラメータの値が異なるときにデータの分布が異なるならば、無限に多くのデータを採取すればデータの分布からパラメータの値を逆算することができるので、「ほら、こっちの値だったでしょ」と言うことができる。これがもし、パラメータの値が違うのにデータの分布は変わらないのであれば、2つのパラメータは永遠に区別ができない(データに差が出ないので)。identification不可能というケースだ。このように、パラメータのidentificationは、データの分布との間の1対1関係により保持される。
見方を変えれば、identificationは要するに言い逃れの可否に関する問題だ。そこで、友人がよく約束の時間に遅れてくるときに、この人に寝坊の癖があるかどうかを特定できるか考えてみる。
「約束に遅れたな。寝坊したんだろう」
「電車が止まったんだ。寝坊はしてないよ」
寝坊でも電車の遅延場合でも同様に遅刻というデータが観測されるので、identificationできない。つまり、「この友人には寝坊の癖がある」というモデルと「この友人はよく止まる路線を利用している」というモデルは同じデータの分布を導くので、区別ができない。しかし
「今iPhoneで検索したところ、電車の遅延の事実がないことが分かった」
電車の遅延情報についてもデータとして得られるなら、電車が遅れて遅刻したのか寝坊で遅刻したのかを区別することができる。逆に、電車の遅延というデータを考慮にいれないと、パラメータの推計ができない。重要なデータが不足しているためにidentificationが不可能になることを、omitted variable biasという。
「約束に遅れたな。寝坊したんだろう。電車の遅れではないことは分かっているんだ」
「違うんだ。隣にいた妊婦が急に苦しみ出したので病院へ連れて行ったんだ。この前の遅刻は大きな荷物を抱えたおばあさんを送っていったせいだし、その前は迷子のお母さんを探していたんだ」
妊婦、おばあさん、迷子などの証言は得られないとすると、彼の主張を完全に否定することはできない。「この友人には寝坊の癖がある」というモデルは「この友人はよく困っている人に遭遇し、かこの友人はそういう人を放っておけない」というモデルから区別することができない(そんな人いる? 例えば一般に名探偵という類の人物は行く先々で事件に遭遇する傾向があるらしい)。これはidentification不可能なケースだ。
しかし現実にはそんな言い訳は通らない。
「そんなことが都合よく何度も起こるわけないだろう」
これをBayesian inferenceという。
どう主張を守るというと、それはデータだ。もし、パラメータの値が異なるときにデータの分布が異なるならば、無限に多くのデータを採取すればデータの分布からパラメータの値を逆算することができるので、「ほら、こっちの値だったでしょ」と言うことができる。これがもし、パラメータの値が違うのにデータの分布は変わらないのであれば、2つのパラメータは永遠に区別ができない(データに差が出ないので)。identification不可能というケースだ。このように、パラメータのidentificationは、データの分布との間の1対1関係により保持される。
見方を変えれば、identificationは要するに言い逃れの可否に関する問題だ。そこで、友人がよく約束の時間に遅れてくるときに、この人に寝坊の癖があるかどうかを特定できるか考えてみる。
「約束に遅れたな。寝坊したんだろう」
「電車が止まったんだ。寝坊はしてないよ」
寝坊でも電車の遅延場合でも同様に遅刻というデータが観測されるので、identificationできない。つまり、「この友人には寝坊の癖がある」というモデルと「この友人はよく止まる路線を利用している」というモデルは同じデータの分布を導くので、区別ができない。しかし
「今iPhoneで検索したところ、電車の遅延の事実がないことが分かった」
電車の遅延情報についてもデータとして得られるなら、電車が遅れて遅刻したのか寝坊で遅刻したのかを区別することができる。逆に、電車の遅延というデータを考慮にいれないと、パラメータの推計ができない。重要なデータが不足しているためにidentificationが不可能になることを、omitted variable biasという。
「約束に遅れたな。寝坊したんだろう。電車の遅れではないことは分かっているんだ」
「違うんだ。隣にいた妊婦が急に苦しみ出したので病院へ連れて行ったんだ。この前の遅刻は大きな荷物を抱えたおばあさんを送っていったせいだし、その前は迷子のお母さんを探していたんだ」
妊婦、おばあさん、迷子などの証言は得られないとすると、彼の主張を完全に否定することはできない。「この友人には寝坊の癖がある」というモデルは「この友人はよく困っている人に遭遇し、かこの友人はそういう人を放っておけない」というモデルから区別することができない(そんな人いる? 例えば一般に名探偵という類の人物は行く先々で事件に遭遇する傾向があるらしい)。これはidentification不可能なケースだ。
しかし現実にはそんな言い訳は通らない。
「そんなことが都合よく何度も起こるわけないだろう」
これをBayesian inferenceという。
家計簿つけ始めようと思います。どうもお金の減っていくスピードが尋常じゃない気がするので、その原因究明が目的です。買い物は大体デビットカードで支払うのでその履歴がweb上からダウンロードできはするのですが、それだと細かい品目までは分からないのでやはり出来る限りレシートを集めて記録していくことになると思います。そういうわけで、タイトルです。
僕がよく買い物へ行く店ベスト3は、
1. Stop & Shop
2. HongKong Grocery
3. J-Mart
とりあえずこの3件をきっちりカバーすればほぼ問題ないはず。
1位Stop&Shopのレシートはこちら↓↓
ポイント1:全ての商品に消費税がかかるわけではない。値段の横に 'T' とついているもののみが課税対象らしい。参考。
ポイント2:瓶ビールを買ったら、 Bottle Depositというのを30セント取られていた。知らなかった。これってつまり、瓶を返却したら戻ってくるってことかなぁ。
スーパーの食品が課税対象外だなんてまったく知らなかったな。1つ勉強になりました。
僕がよく買い物へ行く店ベスト3は、
1. Stop & Shop
1245 Dixwell Avenue
Hamden, CT 06514-4132
2. HongKong Grocery
67 Whitney Avenue
New Haven, CT 06510-1260
3. J-Mart
15 Orange Street
New Haven, CT 06510-3344
とりあえずこの3件をきっちりカバーすればほぼ問題ないはず。
1位Stop&Shopのレシートはこちら↓↓
ポイント1:全ての商品に消費税がかかるわけではない。値段の横に 'T' とついているもののみが課税対象らしい。参考。
ポイント2:瓶ビールを買ったら、 Bottle Depositというのを30セント取られていた。知らなかった。これってつまり、瓶を返却したら戻ってくるってことかなぁ。
スーパーの食品が課税対象外だなんてまったく知らなかったな。1つ勉強になりました。
Calender
12 | 2025/01 | 02 |
S | M | T | W | T | F | S |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Search in This Blog
Latest Comments
[03/30 川内のばば山田]
[03/30 川内のばば山田]
[08/06 Aterarie]
[07/05 Agazoger]
[07/01 Thomaskina]
Latest Posts
(11/16)
(04/28)
(04/16)
(04/11)
(04/05)
Latest Trackbacks
Category
Access Analysis