忍者ブログ
Yaleで、遊んで学ぶ日々。

Yaleで、遊んで学ぶ日々。

囲碁、ときどきプログラミング、ところにより経済。
[95]  [94]  [93]  [92]  [91]  [90]  [89]  [88]  [87]  [86]  [85
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

統計には主にRを使っている(数値シミュレーションの色が濃いときはMatlab.  でも近いうちにフリーのOctaveに乗り換える予定)。Rではscan関数を使ってwebアクセスが可能。たとえば、
    x <- scan("http://jiy.blog.shinobi.jp/", what="", sep="\n")
とすれば、このブログのトップページのHTMLソースが変数xに文字列ベクトルとして格納される。ただ、テキスト以外(XLS、PDF、画像 etc...)を適切に読み込む方法が分からなかった(できるのか?)。あと、パスワード認証やCookieの設定が必要な場合にはどうやればいいのか分からなかった(できるのか?)。

Rでのやり方を探すより、他のより適切な言語を使ったほうが速そう、ということでPythonを使ってみた。だいぶ良い。Pythonの基本については公式のチュートリアルで大体学べるので、そちらを参考に(日本語英語)。Cookieやパスワード認証のやり方は目下勉強中だが、様々なファイルのダウンロードについてはurllibモジュールのurlretrieve関数でできる。

Pythonを用いて、かねてより検討していたmangahelpersからのダウンロードを自動で行うスクリプトを書くことができた(別にそれが目的だったわけではないけど)。寝ている間にプログラムを回して数十冊を落とすことも理論上は可能。

次回はmixiのフォトアルバムを一括ダウンロードする方法について。

PR
この記事にコメントする
お名前:
タイトル:
文字色:
メールアドレス:
URL:
コメント:
パスワード:   Vodafone絵文字 i-mode絵文字 Ezweb絵文字
この記事へのトラックバック
この記事にトラックバックする:
Calender
09 2018/10 11
S M T W T F S
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
Search in This Blog
Latest Comments
[03/30 川内のばば山田]
[03/30 川内のばば山田]
[08/06 Aterarie]
[07/05 Agazoger]
[07/01 Thomaskina]
Oldest Posts
Latest Trackbacks
フリーエリア

Barcode
Access Analysis
Powerd by NINJAブログ / Designed by SUSH
Copyright © Yaleで、遊んで学ぶ日々。 All Rights Reserved.
忍者ブログ [PR]