Yaleで、遊んで学ぶ日々。
Yaleで、遊んで学ぶ日々。
囲碁、ときどきプログラミング、ところにより経済。
×
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
統計には主にRを使っている(数値シミュレーションの色が濃いときはMatlab. でも近いうちにフリーのOctaveに乗り換える予定)。Rではscan関数を使ってwebアクセスが可能。たとえば、
x <- scan("http://jiy.blog.shinobi.jp/", what="", sep="\n")
とすれば、このブログのトップページのHTMLソースが変数xに文字列ベクトルとして格納される。ただ、テキスト以外(XLS、PDF、画像 etc...)を適切に読み込む方法が分からなかった(できるのか?)。あと、パスワード認証やCookieの設定が必要な場合にはどうやればいいのか分からなかった(できるのか?)。
Rでのやり方を探すより、他のより適切な言語を使ったほうが速そう、ということでPythonを使ってみた。だいぶ良い。Pythonの基本については公式のチュートリアルで大体学べるので、そちらを参考に(日本語、英語)。Cookieやパスワード認証のやり方は目下勉強中だが、様々なファイルのダウンロードについてはurllibモジュールのurlretrieve関数でできる。
Pythonを用いて、かねてより検討していたmangahelpersからのダウンロードを自動で行うスクリプトを書くことができた(別にそれが目的だったわけではないけど)。寝ている間にプログラムを回して数十冊を落とすことも理論上は可能。
次回はmixiのフォトアルバムを一括ダウンロードする方法について。
x <- scan("http://jiy.blog.shinobi.jp/", what="", sep="\n")
とすれば、このブログのトップページのHTMLソースが変数xに文字列ベクトルとして格納される。ただ、テキスト以外(XLS、PDF、画像 etc...)を適切に読み込む方法が分からなかった(できるのか?)。あと、パスワード認証やCookieの設定が必要な場合にはどうやればいいのか分からなかった(できるのか?)。
Rでのやり方を探すより、他のより適切な言語を使ったほうが速そう、ということでPythonを使ってみた。だいぶ良い。Pythonの基本については公式のチュートリアルで大体学べるので、そちらを参考に(日本語、英語)。Cookieやパスワード認証のやり方は目下勉強中だが、様々なファイルのダウンロードについてはurllibモジュールのurlretrieve関数でできる。
Pythonを用いて、かねてより検討していたmangahelpersからのダウンロードを自動で行うスクリプトを書くことができた(別にそれが目的だったわけではないけど)。寝ている間にプログラムを回して数十冊を落とすことも理論上は可能。
次回はmixiのフォトアルバムを一括ダウンロードする方法について。
PR
Calender
12 | 2025/01 | 02 |
S | M | T | W | T | F | S |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Search in This Blog
Latest Comments
[03/30 川内のばば山田]
[03/30 川内のばば山田]
[08/06 Aterarie]
[07/05 Agazoger]
[07/01 Thomaskina]
Latest Posts
(11/16)
(04/28)
(04/16)
(04/11)
(04/05)
Latest Trackbacks
Category
Access Analysis