如何从Perl文件中提取HTML文件的链接?

问题描述:

我有一些输入与链接,我想打开该链接。例如,我有一个HTML文件,并希望查找文件中的所有链接,并在Excel电子表格中打开其内容。如何从Perl文件中提取HTML文件的链接?

+0

为什么哦为什么你的每篇文章都要这样格式化?为什么? – innaM 2009-05-27 11:50:31

+1

你问如何获得一些HTML文件的链接列表?或者你问如何遵循链接?或者你问如何将某些东西放入Excel电子表格中? – innaM 2009-05-27 12:14:50

这听起来像WWW::Mechanize的工作。它为访问和学习网页提供了一个相当高层次的接口。

一旦你阅读了文档,我想你会有一个好主意如何去做。

这听起来像你想从我的HTML::SimpleLinkExtor模块linktractor脚本。

您可能也有兴趣我的webreaper脚本。我很久以前就写了这样的文章来做一些接近这个相同任务的事情。我不推荐它,因为其他工具现在好多了,但你至少可以看看代码。

CPANGoogle是你的朋友。 :)

Mojo::UserAgent是相当不错了这一点,太:

use Mojo::UserAgent 

print Mojo::UserAgent 
    ->new 
    ->get($ARGV[0]) 
    ->res 
    ->dom->find("a") 
    ->map(attr => "href") 
    ->join("\n"); 

还有Web::Query

#!/usr/bin/env perl 

use 5.10.0; 

use strict; 
use warnings; 

use Web::Query; 

say for wq(shift)->find('a')->attr('href'); 

或者,从CLI:

$ perl -MWeb::Query -E'say for wq(shift)->find("a")->attr("href")' \ 
     http://techblog.babyl.ca 

我已经在过去使用URI::Find(因为当文件不是HTML时)。