Yaleで、遊んで学ぶ日々。

囲碁、ときどきプログラミング、ところにより経済。

[20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30]

2026/03/31 (Tue)

[PR]

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2012/01/23 (Mon)

素敵な料理動画の紹介

ノリッチさんという人。結構前から投稿していたらしいけど、知ったのはごく最近。美味しそうだし、映像が綺麗な幸せ動画。

life Trackback() Comment(0)

2012/01/23 (Mon)

Kei is leaving Matsuoko in the dust!

錦織圭選手が大活躍みたいですね！ESPNで混合ダブルスの再放送を見ていたら、解説が錦織選手を松岡修造選手と比較していました。色々手元に資料があるんですかねぇ。なぐり書きの資料なのか、ずっと「マツオコ」と言っていましたが。

http://espn.go.com/watchespn/index/_/type/replay/channel/espn3/

ところどころ聞き取れなかったけど、大体こんな感じでしょうか・・・。

... he (Nishikori) is now officially the highest ranked Japanese man in history... Matsuoko got to the quarters of Wimbledon, so if he reaches the quarters, so equal the best result. But he first passed Matsuoko in ranking... Kei has reached 24, Matsuoko got to 46 in the world, so he is well above that...
He is leaving Shuzo in the dust. Remembering Matsuoko, he was a great hero during his career... big, massive icon...

"He is leaving Shuzo in the dust" というのは面白い表現ですね。「修造はもはやクズだ」と言っているのではなく、leave in the dust で「素早く抜き去る」とか「新しいものが古いものに取って替わる」という意味なんだそうです。松岡選手を表すのに使われている "icon" という単語も良い響きですね。「象徴的な人物」という意味です。

language Trackback() Comment(0)

2012/01/23 (Mon)

R, Stata: Robust standard errors

Stataで回帰分析するにはregコマンドを使う。

reg y x1 x2

デフォルトでは誤差項のhomoskedasticityを仮定して標準誤差が計算されるので、これをheteroskedasticity robustにするためには、robustオプションをつけて推計する。

reg y x1 x2, robust

これをRでどうやるかというと、まずlm関数がStataのregコマンドに対応する。

lm(y ~ x1 + x2, data = dat)

Rでは、Stataと違い複数のデータを同時に保持できるので（これがRのStataに対する大きなアドバンテージの1つ)、引数dataに使用するデータを指定する。

lm()関数はlmオブジェクトを返すので、変数に代入することができる。

obj <- lm(y ~ x1 + x2, data = dat)
summary(obj)

summary関数はlmオブジェクトに用いると、係数と標準誤差の表を表示する。仮説検定などもobjを通じて行う。

さて、heteroskedasticity robust 標準誤差の計算するには、以下のようにやる。

V <- sandwich(obj)
diag(V)^(1/2)

場合によっては、library(sandwich)としてsandwichパッケージを先に読み込む必要があるかもしれない。なにをやっているかというと、もとの回帰分析の結果を用いて、分散・共分散行列だけを計算し直しているわけだ（これはsandwich関数の仕事)。で、係数の標準誤差はその行列の対角要素の平方根ということ。

はじめは少し面食らうのだけど、要するに、Rでは推計を一からやり直すのではなく、その他の情報はそのままに、標準誤差だけを計算し直す。StataとRでのこの発想の違いに気づくまで、しばらく時間がかかった。

別に計算時間が節約できるわけでもないから、特にユーザーとしてのメリットはない。しかし、想像するに、これはオープンソースならではの仕組みではないだろうか。すでにlm関数があるところへ、誰かがその標準誤差だけを計算し直す関数を書き、公開する。別の修正方法が提案されればまた他の誰かが別の関数を書く・・・。この方法なら、もとのlm関数を書き直す必要がないから、多くの人が開発に参加しやすそうだ。

ちなみに、デメリットもないわけではない。Robust cluster standard errors というのがあるが、クラスターの定義がlmオブジェクトに含まれていないので、計算するには元データからクラスター定義を引っ張ってくる必要がある。
J Hardenさんがこれを計算する関数を書いているが（jjharden.web.unc.edu/archives/344)、この関数では欠損値がある場合にデータのサイズとクラスター定義のミスマッチが生じてエラーが生じる可能性がある。そもそもlmオブジェクトとは別に元データを引数に入れる時点で今ひとつスマートではない。どうもひと工夫必要そうである。

R, cran Trackback() Comment(0)

2012/01/23 (Mon)