ishiducaの日記 このページをアンテナに追加 RSSフィード

2010-04-11

[][]Web::Scraperをもう少し 19:17 Web::Scraperをもう少し - ishiducaの日記 を含むブックマーク はてなブックマーク - Web::Scraperをもう少し - ishiducaの日記 Web::Scraperをもう少し - ishiducaの日記 のブックマークコメント

以前ワンライナーで書いた画像収集のコード(オトギリさんのホームページから画像収集)、があるけど、Web::Scraperを使ってやってみる。

ただ、これは別のサイト(というか、ブログ)だけど。

FC2のサイトだと mainEntryBodyクラス内の a タグでひっぱてくればいいので、こんな感じで。

get_img_from_fc2pl

#!/usr/bin/perl
use strict;
use warnings;
use Web::Scraper;
use URI;
use LWP::Simple;
use File::Basename;

@ARGV or die "Usage: $0 uri [...]\n";

# FC2 のサイト用
my $scraper = scraper {
    process ".mainEntryBody a", "link[]" => '@href';
};

foreach my $uri (@ARGV) {
    my $res = $scraper->scrape(URI->new($uri));
    print "$_\n" and mirror($_, basename($_))
        foreach (grep{ /^http:\/\/(.+?)$/i }(@{$res->{link}}));
    print "\n";
}

exit 0;

ゲスト



トラックバック - http://perl.g.hatena.ne.jp/ishiduca/20100411