2010-04-11
■ [画像収集][Webスクレイピング]Web::Scraperをもう少し

以前ワンライナーで書いた画像収集のコード(オトギリさんのホームページから画像収集)、があるけど、Web::Scraperを使ってやってみる。
ただ、これは別のサイト(というか、ブログ)だけど。
FC2のサイトだと mainEntryBodyクラス内の a タグでひっぱてくればいいので、こんな感じで。
get_img_from_fc2pl
#!/usr/bin/perl use strict; use warnings; use Web::Scraper; use URI; use LWP::Simple; use File::Basename; @ARGV or die "Usage: $0 uri [...]\n"; # FC2 のサイト用 my $scraper = scraper { process ".mainEntryBody a", "link[]" => '@href'; }; foreach my $uri (@ARGV) { my $res = $scraper->scrape(URI->new($uri)); print "$_\n" and mirror($_, basename($_)) foreach (grep{ /^http:\/\/(.+?)$/i }(@{$res->{link}})); print "\n"; } exit 0;
コメントを書く
トラックバック - http://perl.g.hatena.ne.jp/ishiduca/20100411
リンク元
- 2 http://feeds.feedburner.com/~r/ne/QrSM/~3/H9M_I4XDGjA/1270906911?utm_source=feedburner&utm_medium=twitter&utm_campaign=WorkingNow
- 2 http://search.fresheye.com/?kw=perl+ŐVW[
- 1 http://j.mp/aryj8v
- 1 http://www.google.co.jp/search?hl=ja&client=firefox-a&hs=uQv&rls=org.mozilla:ja:official&q=円の面積&start=30&sa=N
- 1 http://b.hatena.ne.jp/entrylist?sort=hot&threshold=2&of=1
- 1 http://www.google.co.jp/custom?hl=ja&inlang=ja&client=pub-4228644627829601&cof=FORID:1;GL:1;LBGC:336699;LC:#0000ff;VLC:#663399;GFNT:#0000ff;GIMP:#0000ff;DIV:#336699;&domains=www.tsukiuran.net;blog01.tsukiuran.net&channel=7245909142&ie=Shift_JIS&oe=Shift_JIS&q=perl+find::file&btnG=&sitesearch=
- 1 http://b.hatena.ne.jp/uguisyu/favorite
- 1 http://perl.g.hatena.ne.jp/picora/
- 1 http://www.google.co.jp/search?hl=ja&q=http://redsky.sakura.ne.jp&btnG=Google+検索&lr=lang_ja
- 1 http://fastladder.com/reader/