one example for analysing webpages with scraper

2014-09-21 00:35:30 +02:00 · 2014-09-21 00:35:30 +02:00 · c7898d8656
commit c7898d8656
parent c4d2aba012
1 changed files with 35 additions and 0 deletions
--- a/download_webscraper.pl
+++ b/download_webscraper.pl
@ -0,0 +1,35 @@
 #!/usr/bin/perl
 #use strict;
 #use warnings;
 use Web::Scraper;
 use URI;
 use HTML::Entities;
 use Encode;
 use URI::Escape;
 use LWP::UserAgent;
 my $scrap;
 my $wikiurl = "http://www.bildung-lsa.de/unterricht/zentrale_leistungserhebungen__schriftliche_pruefungen__zentrale_klassenarbeiten__vergleichsarbeiten____/schriftliche_abiturpruefung.html";
 my $ua = new LWP::UserAgent;
 my $req = HTTP::Request->new('GET', $wikiurl);
 my $res = $ua->request($req);
 my $url = $res->request->uri;
 binmode(STDOUT, ":utf8");
   $scrap = scraper {
      process '//a[@class="subjectlink"]', 'href[]' => '@href';
   };
   $url = URI->new($wikiurl);
   my $res = $scrap->scrape($url);
   my $href = $res->{'href'};
   for ($i = 0; $i <= $#$href; $i++)
   {
         my $url = $$href[$i];
         system("wget -q \"$url\"");
   }