如何从Perl中的MediaWiki :: API中提取重定向标题列表?
问题描述:
我试图使用MediaWiki API从某个*标题获取所有重定向,我想我几乎在那里,但我迷失在散列和数组的复杂数据结构中。如何从Perl中的MediaWiki :: API中提取重定向标题列表?
如何提取重定向标题列表?
在我询问“日本”,应该得到看起来像这样的列表,例如:
'JPN',"Land der aufgehenden Sonne","Das Land der aufgehenden
Sonne","Zipango","\x{65e5}\x{672c}","R\x{ec}b\x{11b}n"
(侧面的问题:为什么我没有得到UTF-8字符串的所有情况)
以下代码由MediaWiki::API文档改编而来。
use MediaWiki::API;
use warnings;
binmode STDOUT, ':utf8';
use JSON;
use Data::Dumper;
my $LANG="de";
my $mw = MediaWiki::API->new({ api_url => 'https://en.wikipedia.org/w/api.php' } );
my $mw_LANG = MediaWiki::API->new({ api_url => "https://$LANG.wikipedia.org/w/api.php" } );
my $wikititle ="Japan";
my $alltitles = $mw_LANG->api({
action => 'query',
titles => $wikititle,
prop => 'redirects',
format => 'json',
})
|| die $mw_LANG->{error}->{code} . ': ' . $mw_LANG->{error}->{details};
#just print to know how the structure looks like
print Dumper($alltitles);
my ($pageid,$langlinks) = each (%{ $alltitles->{query}->{pages} });
print "pageid $pageid\n";#yes works: this prints the page id
问题:如何获得redirect-array
中的实际标题?
my $relinks = $alltitles->{'query'}->{'pages'}->{$pageid}->{'redirects'}; #no does not work!
foreach my $el (@{ $relinks->{'title'} }) {
print " $el $el->{'*'}\n";
}
答
该查询返回一个hashref。其中一个条目是query
,它指向另一个包含pages
的hashref。 pages
hashref包含页面id的键。其中每个指向另一个hashref,其中包含重定向条目,该条目是对包含此页面重定向到的所有页面的数组的引用。
把所有这些在一起:
#!/usr/bin/env perl
use strict;
use warnings;
use open qw(:std :utf8);
use MediaWiki::API;
use JSON::MaybeXS;
use Data::Dumper;
my $LANG= "de";
my $mw = MediaWiki::API->new({ api_url => 'https://en.wikipedia.org/w/api.php' } );
my $mw_LANG = MediaWiki::API->new({ api_url => "https://$LANG.wikipedia.org/w/api.php" } );
my $wikititle ="Japan";
my $alltitles = $mw_LANG->api({
action => 'query',
titles => $wikititle,
prop => 'redirects',
format => 'json',
}
) or die sprintf '%d: %s', @{ $mw_LANG->{error} }{qw(code details)};
for my $pageid (keys %{ $alltitles->{query}{pages} }) {
my $r = $alltitles->{query}{pages}{$pageid};
printf "Redirects for page %d with title '%s'\n", @{$r}{qw(pageid title)};
for my $redirect (@{ $r->{redirects} }) {
printf "\t%d: '%s'\n", @{$redirect}{qw(pageid title)};
}
}
Postfix dereferencing使事情有点清洁:
for my $pageid (keys $alltitles->{query}{pages}->%*) {
my $r = $alltitles->{query}{pages}{$pageid};
printf "Redirects for page %d with title '%s'\n", $r->@{qw(pageid title)};
for my $redirect ($r->{redirects}->@*) {
printf "\t%d: '%s'\n", $redirect->@{qw(pageid title)};
}
}
这需要perl
5.20或更高版本。
'$ r - > {redirects} - > @ *'这是怎么回事?是否类似于'$ _'的perl6版本?是不是需要一个特定的最低版本的Perl? – jmcneirney