如何从Perl文件中提取HTML文件的链接？

问题描述：

我有一些输入与链接，我想打开该链接。例如，我有一个HTML文件，并希望查找文件中的所有链接，并在Excel电子表格中打开其内容。如何从Perl文件中提取HTML文件的链接？

为什么哦为什么你的每篇文章都要这样格式化？为什么？ – innaM 2009-05-27 11:50:31

你问如何获得一些HTML文件的链接列表？或者你问如何遵循链接？或者你问如何将某些东西放入Excel电子表格中？ – innaM 2009-05-27 12:14:50

答

这听起来像WWW::Mechanize的工作。它为访问和学习网页提供了一个相当高层次的接口。

一旦你阅读了文档，我想你会有一个好主意如何去做。

答

这听起来像你想从我的HTML::SimpleLinkExtor模块linktractor脚本。

您可能也有兴趣我的webreaper脚本。我很久以前就写了这样的文章来做一些接近这个相同任务的事情。我不推荐它，因为其他工具现在好多了，但你至少可以看看代码。

CPAN和Google是你的朋友。 :)

Mojo::UserAgent是相当不错了这一点，太：

use Mojo::UserAgent 

print Mojo::UserAgent 
    ->new 
    ->get($ARGV[0]) 
    ->res 
    ->dom->find("a") 
    ->map(attr => "href") 
    ->join("\n");

答

还有Web::Query：

#!/usr/bin/env perl 

use 5.10.0; 

use strict; 
use warnings; 

use Web::Query; 

say for wq(shift)->find('a')->attr('href');

或者，从CLI：

$ perl -MWeb::Query -E'say for wq(shift)->find("a")->attr("href")' \ 
     http://techblog.babyl.ca

答

我已经在过去使用URI::Find（因为当文件不是HTML时）。

如何从Perl文件中提取HTML文件的链接？

相关推荐