Yaleで、遊んで学ぶ日々。
Yaleで、遊んで学ぶ日々。
囲碁、ときどきプログラミング、ところにより経済。
×
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
統計には主にRを使っている(数値シミュレーションの色が濃いときはMatlab. でも近いうちにフリーのOctaveに乗り換える予定)。Rではscan関数を使ってwebアクセスが可能。たとえば、
x <- scan("http://jiy.blog.shinobi.jp/", what="", sep="\n")
とすれば、このブログのトップページのHTMLソースが変数xに文字列ベクトルとして格納される。ただ、テキスト以外(XLS、PDF、画像 etc...)を適切に読み込む方法が分からなかった(できるのか?)。あと、パスワード認証やCookieの設定が必要な場合にはどうやればいいのか分からなかった(できるのか?)。
Rでのやり方を探すより、他のより適切な言語を使ったほうが速そう、ということでPythonを使ってみた。だいぶ良い。Pythonの基本については公式のチュートリアルで大体学べるので、そちらを参考に(日本語、英語)。Cookieやパスワード認証のやり方は目下勉強中だが、様々なファイルのダウンロードについてはurllibモジュールのurlretrieve関数でできる。
Pythonを用いて、かねてより検討していたmangahelpersからのダウンロードを自動で行うスクリプトを書くことができた(別にそれが目的だったわけではないけど)。寝ている間にプログラムを回して数十冊を落とすことも理論上は可能。
次回はmixiのフォトアルバムを一括ダウンロードする方法について。
x <- scan("http://jiy.blog.shinobi.jp/", what="", sep="\n")
とすれば、このブログのトップページのHTMLソースが変数xに文字列ベクトルとして格納される。ただ、テキスト以外(XLS、PDF、画像 etc...)を適切に読み込む方法が分からなかった(できるのか?)。あと、パスワード認証やCookieの設定が必要な場合にはどうやればいいのか分からなかった(できるのか?)。
Rでのやり方を探すより、他のより適切な言語を使ったほうが速そう、ということでPythonを使ってみた。だいぶ良い。Pythonの基本については公式のチュートリアルで大体学べるので、そちらを参考に(日本語、英語)。Cookieやパスワード認証のやり方は目下勉強中だが、様々なファイルのダウンロードについてはurllibモジュールのurlretrieve関数でできる。
Pythonを用いて、かねてより検討していたmangahelpersからのダウンロードを自動で行うスクリプトを書くことができた(別にそれが目的だったわけではないけど)。寝ている間にプログラムを回して数十冊を落とすことも理論上は可能。
次回はmixiのフォトアルバムを一括ダウンロードする方法について。
PR
ずーっと前に、ピタゴラスイッチを流し続けるスクリーンセーバーが欲しいなぁとmixiの日記に書いたのをふと思い出して、今日作ってみた。VideoSaverというフリーソフトを使ったら簡単にできた。必要なものはAVIかMPEG形式の動画のみ。使い方は付属のREADMEが細かいところまで説明してくれている。Windowsユーザーはお試しあれ。Ubuntuでスクリーンセーバーを作る方法はまだ知らないけど、すでにおしゃれなスクリーンセーバーが大量に入っているので必要性をあまり感じない。
【VideoSaverの使い方】
Windows限定。XP以外だと微妙に違うかもしれませんが適当に読み替えてください。
ステップ1:流したい動画 (AVI, MPEGなど。FLVやMP4は不可) を詰めたフォルダを作る。
ステップ2:VideoSaverというフリーソフトをダウンロードする。http://www.vector.co.jp/soft/win95/amuse/se121717.html
ステップ3:videosaver.scrというファイルをC:\WINDOWSに移動。
ステップ4:スタート→設定→コントロールパネル→画面を開き、スクリーンセーバーのタブを開く。スクリーンセーバーにvideosaverを選択。設定ボタンを開き、ムービーファイルのフォルダに1で作ったフォルダを指定。
【VideoSaverの使い方】
Windows限定。XP以外だと微妙に違うかもしれませんが適当に読み替えてください。
ステップ1:流したい動画 (AVI, MPEGなど。FLVやMP4は不可) を詰めたフォルダを作る。
ステップ2:VideoSaverというフリーソフトをダウンロードする。http://www.vector.co.jp/soft/win95/amuse/se121717.html
ステップ3:videosaver.scrというファイルをC:\WINDOWSに移動。
ステップ4:スタート→設定→コントロールパネル→画面を開き、スクリーンセーバーのタブを開く。スクリーンセーバーにvideosaverを選択。設定ボタンを開き、ムービーファイルのフォルダに1で作ったフォルダを指定。
バンキシャ!がオリンピックのフィギュアスケートの審判が採点している様を隠し撮りしたらしい。その放送内容はYoutubeにupされている。→動画へのリンク。
まず、隠し撮りはやるべきではなかったと思う。国際スケート連盟 (ISU) は、票の取引を行いにくくする目的で審査を匿名にしているわけで、審判の個人が特定できるような後姿を放送するのはISUのポリシーに反する。そもそも、キムヨナと浅田真央の評価点 (GOE) の差を見たいだけなら、Web上に公開されているのだからそっちを放送すればいい。→スコアへのリンク。隠し撮りを報道したのはただ単に映像のインパクトを大きくしただけにすぎない。そのために後姿を公開されてしまった審判が可哀想。
難度の高いトリプルアクセルにもっとGOEを与えるべきでは、というのが放送の趣旨のようだが、GOEはそもそも出来栄えを7段階評価するものなので、難度が高い技だからといって下駄を履かせるのは的外れだ。とはいえ、ルールが難度の高い技に挑戦する誘引を下げているというのもおそらく事実だと思う。評価方法についてのWikipediaを見ながらちょっと考えてみた。理解が間違えっていたら申し訳ない。
フィギュアスケートの総合得点は、技術点+構成点-ディダクションで計算されるらしい。このうち、技術点は基礎点+評価点で計算されて、そのうち基礎点は技の名前だけで決まり主観の入り込む余地はほとんどないらしい。今話題になっているのは評価点 (GOE) のつけ方だ。
評価点は技の出来栄えを7段階で評価したものだが、審判が '+2' をつけたからといってGOEが2点加算されるわけではない。技に応じて7段階評価からGOEへの変換は変わる。この変換表はICU rule 322 に載っているらしい。たとえば、アクセル以外の2回転ジャンプの場合、各評価に対するGOEは、
-1.0 -0.6 -0.3 +0.5 +1.0 +1.5
となる(それぞれ -3, -2, -1, +1, +2, +3 の時に対応)。
一方で、2回転アクセルでは
-2.5 -1.6 -0.8 +1.0 +2.0 +3.0
になっている。つまり、より難度の高い2回転アクセルを行うと、GOEの振れ幅が大きくなるようだ。基礎点については2回転アクセルで3.5, その他の2回転ジャンプは大体その半分くらい。このような、基礎点と、GOEの分散の正の相関は一般に当てはまるようだ。
しかし、3回点以上のジャンプについては、GOEは負の方に偏って大きくなる。アクセル以外の3回転ジャンプのGOEは
-3.0 -2.0 -1.0 +1.0 +2.0 +3.0
で、3回転アクセルでは
-4.2 -2.8 -1.4 +1.0 +2.0 +3.0
なので、プラス側では伸びないが、マイナス側だけ増えている。
難度の高い技への挑戦が割に合わないのは、このGOEへの変換式がミスに対して段々辛くなっていくからなんじゃないだろうか。一方で、良質の演技への加点は変わらない。難度の高いジャンプをもっと重視しろというのは、この表を改訂するべきだという主張に等しい。素人のにわか意見ですが。
まず、隠し撮りはやるべきではなかったと思う。国際スケート連盟 (ISU) は、票の取引を行いにくくする目的で審査を匿名にしているわけで、審判の個人が特定できるような後姿を放送するのはISUのポリシーに反する。そもそも、キムヨナと浅田真央の評価点 (GOE) の差を見たいだけなら、Web上に公開されているのだからそっちを放送すればいい。→スコアへのリンク。隠し撮りを報道したのはただ単に映像のインパクトを大きくしただけにすぎない。そのために後姿を公開されてしまった審判が可哀想。
難度の高いトリプルアクセルにもっとGOEを与えるべきでは、というのが放送の趣旨のようだが、GOEはそもそも出来栄えを7段階評価するものなので、難度が高い技だからといって下駄を履かせるのは的外れだ。とはいえ、ルールが難度の高い技に挑戦する誘引を下げているというのもおそらく事実だと思う。評価方法についてのWikipediaを見ながらちょっと考えてみた。理解が間違えっていたら申し訳ない。
フィギュアスケートの総合得点は、技術点+構成点-ディダクションで計算されるらしい。このうち、技術点は基礎点+評価点で計算されて、そのうち基礎点は技の名前だけで決まり主観の入り込む余地はほとんどないらしい。今話題になっているのは評価点 (GOE) のつけ方だ。
評価点は技の出来栄えを7段階で評価したものだが、審判が '+2' をつけたからといってGOEが2点加算されるわけではない。技に応じて7段階評価からGOEへの変換は変わる。この変換表はICU rule 322 に載っているらしい。たとえば、アクセル以外の2回転ジャンプの場合、各評価に対するGOEは、
-1.0 -0.6 -0.3 +0.5 +1.0 +1.5
となる(それぞれ -3, -2, -1, +1, +2, +3 の時に対応)。
一方で、2回転アクセルでは
-2.5 -1.6 -0.8 +1.0 +2.0 +3.0
になっている。つまり、より難度の高い2回転アクセルを行うと、GOEの振れ幅が大きくなるようだ。基礎点については2回転アクセルで3.5, その他の2回転ジャンプは大体その半分くらい。このような、基礎点と、GOEの分散の正の相関は一般に当てはまるようだ。
しかし、3回点以上のジャンプについては、GOEは負の方に偏って大きくなる。アクセル以外の3回転ジャンプのGOEは
-3.0 -2.0 -1.0 +1.0 +2.0 +3.0
で、3回転アクセルでは
-4.2 -2.8 -1.4 +1.0 +2.0 +3.0
なので、プラス側では伸びないが、マイナス側だけ増えている。
難度の高い技への挑戦が割に合わないのは、このGOEへの変換式がミスに対して段々辛くなっていくからなんじゃないだろうか。一方で、良質の演技への加点は変わらない。難度の高いジャンプをもっと重視しろというのは、この表を改訂するべきだという主張に等しい。素人のにわか意見ですが。
LinuxだとRのGUI版がないから、コマンドラインからRを起動する。GUIだとパッケージのインストールはメニューから行えて直感的だが、コマンドでやるには当然ながらコマンドを知っておく必要がある。
まずはRを起動。ターミナルで
$ R
でOK. Windowsのコマンドプロンプトと違って、大文字・小文字の区別があるのでちょっと戸惑った。
パッケージをインストールするにはR上で
> install.packages("xxx")
xxxはインストールしたいパッケージ名を適宜入力する。その後ダウンロード先を適当に選ぶと、インストールが完了する。CRANに登録されているものならインストールできる。
その他に、まずファイルを手動でダウンロードしてきて、Rを開かずにターミナルで
$ sudo R CMD INSTALL ファイル名
とする手もあるらしい。手間を考えると上の方法の方が楽かな。
ちなみに、インストールされたパッケージはHomeディレクトリのRというフォルダに保存されるようだ。ここへは一般のパスは通っていないが、おそらくRからの探索パスには入っているんだろう。
今日は、もしかしたらMarkov Chain Monte Carloに手を出すかもしれないので、MCMCpackというパッケージをインストールした。
まずはRを起動。ターミナルで
$ R
でOK. Windowsのコマンドプロンプトと違って、大文字・小文字の区別があるのでちょっと戸惑った。
パッケージをインストールするにはR上で
> install.packages("xxx")
xxxはインストールしたいパッケージ名を適宜入力する。その後ダウンロード先を適当に選ぶと、インストールが完了する。CRANに登録されているものならインストールできる。
その他に、まずファイルを手動でダウンロードしてきて、Rを開かずにターミナルで
$ sudo R CMD INSTALL ファイル名
とする手もあるらしい。手間を考えると上の方法の方が楽かな。
ちなみに、インストールされたパッケージはHomeディレクトリのRというフォルダに保存されるようだ。ここへは一般のパスは通っていないが、おそらくRからの探索パスには入っているんだろう。
今日は、もしかしたらMarkov Chain Monte Carloに手を出すかもしれないので、MCMCpackというパッケージをインストールした。
SPの結果、キム・ヨナ1位に浅田真央2位だそうで。スコアはちょっと離れているようですが、せっかくなので5時からテレビ観戦してやろうと思っていたら、開始時間はPST5時だそうで、うち(EST)では8時からでした。日本時間だと朝の10時。
先に終了した男子シングルスでは、プルシェンコがjudgeに文句を言っているそうで、興味を持って色々調べてみたら、先学期授業を取ったJohn Emersonが大分この分野(judgeのいるタイプのスポーツの評価)では有名な人だったらしい。そもそも、9人の審判のうち2人をランダムに除いて、残った7人のつけた点数で結果が決まるそうだ。知らなかった。Jayの引用:
つまり、コンピュータが違う審判を選んでいたらプルシェンコの金メダルもありえるかもしれなかったらしい。選手の視点からするとそれはどうなのだろうか。確かに人による審査にはランダムな部分は必ず残るので、不確実性を審査から取り除くことはできないわけだけど、コンピュータによる乱数というのとは受け止め方が違いそうな気がする。僕はアスリートではないですが。
参考:Emerson, John W. (2007). “Chance, On and Off the Ice.” Chance 20(2).
審判の国籍の問題も噂されている。北米審判がフリーで増えてロシア人のプルシェンコに不利になった、とか。審判の採点は匿名性で、どの審判が誰に何点をつけたかは分からないようになっている。代わりに、9つの得点が名前抜きで公開される。これには歴史的経緯があって、昔票の売買が不正に行われていたのに対する防止措置なのだそうだ。名前を隠すことによって、審判Aに裏金を渡してある選手の得点を甘く(または辛く)つけるように依頼しようとしても、審判Aの得点を後から確認できないので契約が成立しない、ということらしい。
理論的には、票の取引は「難しくなる」が「不可能にはならない」、というのが正解だと思う。審判の行動を直接監視することはできないけど、審判の行動に強く依存する公共情報(9人の得点の分布やその選手の順位など)が存在するので、public monitoringによる協力関係を維持するのは不可能にはならない。
票の売買の防止のために匿名性をしいた結果、今度は国籍バイアスの危険性が高まった。自分の名前が特定されないので、ちょっと自分の贔屓の選手に甘い点をつけたとしても、メディア批判などの恐れが少ない。
参考:Zitzewitz, Eric. 2006. "Nationalistic Bias in Winter Sports Judging and its Lessons for Organizational Decision Making," Journal of Economics and Management Strategy; Zitzewitz, Eric, Does Transparency Really Increase Corruption? Evidence from the 'Reform' of Figure Skating Judging, 2010. http://www.dartmouth.edu/~ericz/
【余談】
さっきPSTとESTの時差を調べようと思って検索していたら、こんなの見つけた。
Q. 17:00:12PST ってどういう意味?
A. 5時0分12秒のことよ。
・・・そんなの分からない人がいることにちょっと驚いた。小学生でも分かることじゃないか(質問者が小学生かもしれないけど)。でも、24時間表示のことを"military time"って呼ぶのは知らなかった。
考えてみると、米国で暮らしているとほとんどの時間は12時間表示で書いてある。イベントの時間が 10a-1pとか、最初はちょっと違和感があった(開始時間の数字が終了時間より大きいというのが)。24時間表示を見るのは、空港とか。
先に終了した男子シングルスでは、プルシェンコがjudgeに文句を言っているそうで、興味を持って色々調べてみたら、先学期授業を取ったJohn Emersonが大分この分野(judgeのいるタイプのスポーツの評価)では有名な人だったらしい。そもそも、9人の審判のうち2人をランダムに除いて、残った7人のつけた点数で結果が決まるそうだ。知らなかった。Jayの引用:
February 19, 2010: Men's Results. Congratulations to Lysacek! And he was a little lucky. The random panel of 7 judges used for the competition liked him. The full panel of 9 judges thought it was a closer competition, a 0.47 point winning margin instead of the official 1.31 point margin. It's likely that some random panel could have awarded Plushenko the gold (other random panels scored him as many as 3-4 points higher when other pairs of judges were dropped).
source: http://www.stat.yale.edu/~jay/skating2010.html
source: http://www.stat.yale.edu/~jay/skating2010.html
つまり、コンピュータが違う審判を選んでいたらプルシェンコの金メダルもありえるかもしれなかったらしい。選手の視点からするとそれはどうなのだろうか。確かに人による審査にはランダムな部分は必ず残るので、不確実性を審査から取り除くことはできないわけだけど、コンピュータによる乱数というのとは受け止め方が違いそうな気がする。僕はアスリートではないですが。
参考:Emerson, John W. (2007). “Chance, On and Off the Ice.” Chance 20(2).
審判の国籍の問題も噂されている。北米審判がフリーで増えてロシア人のプルシェンコに不利になった、とか。審判の採点は匿名性で、どの審判が誰に何点をつけたかは分からないようになっている。代わりに、9つの得点が名前抜きで公開される。これには歴史的経緯があって、昔票の売買が不正に行われていたのに対する防止措置なのだそうだ。名前を隠すことによって、審判Aに裏金を渡してある選手の得点を甘く(または辛く)つけるように依頼しようとしても、審判Aの得点を後から確認できないので契約が成立しない、ということらしい。
理論的には、票の取引は「難しくなる」が「不可能にはならない」、というのが正解だと思う。審判の行動を直接監視することはできないけど、審判の行動に強く依存する公共情報(9人の得点の分布やその選手の順位など)が存在するので、public monitoringによる協力関係を維持するのは不可能にはならない。
票の売買の防止のために匿名性をしいた結果、今度は国籍バイアスの危険性が高まった。自分の名前が特定されないので、ちょっと自分の贔屓の選手に甘い点をつけたとしても、メディア批判などの恐れが少ない。
参考:Zitzewitz, Eric. 2006. "Nationalistic Bias in Winter Sports Judging and its Lessons for Organizational Decision Making," Journal of Economics and Management Strategy; Zitzewitz, Eric, Does Transparency Really Increase Corruption? Evidence from the 'Reform' of Figure Skating Judging, 2010. http://www.dartmouth.edu/~ericz/
【余談】
さっきPSTとESTの時差を調べようと思って検索していたら、こんなの見つけた。
A. 5時0分12秒のことよ。
・・・そんなの分からない人がいることにちょっと驚いた。小学生でも分かることじゃないか(質問者が小学生かもしれないけど)。でも、24時間表示のことを"military time"って呼ぶのは知らなかった。
考えてみると、米国で暮らしているとほとんどの時間は12時間表示で書いてある。イベントの時間が 10a-1pとか、最初はちょっと違和感があった(開始時間の数字が終了時間より大きいというのが)。24時間表示を見るのは、空港とか。
Calender
12 | 2025/01 | 02 |
S | M | T | W | T | F | S |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Search in This Blog
Latest Comments
[03/30 川内のばば山田]
[03/30 川内のばば山田]
[08/06 Aterarie]
[07/05 Agazoger]
[07/01 Thomaskina]
Latest Posts
(11/16)
(04/28)
(04/16)
(04/11)
(04/05)
Latest Trackbacks
Category
Access Analysis