如何从RSS提要中过滤亚洲语言?

问题描述:

我喜欢跟踪delicious.com/popular RSS订阅。然而,最近在项目中有越来越多的亚洲页面。由于我不懂亚洲语言,我想以某种方式从Feed中过滤它们并节省一些时间。如何从RSS提要中过滤亚洲语言?

我一直在尝试使用Yahoo pipes来制作一些东西,但一直未能得到它的工作。

任何任何想法如何使这项工作?

我有一些运气http://pipes.yahoo.com/pipes/pipe.info?_id=yJh1aRp_3hGaPi23tPvyrQ

管道的源具有的所有信息,但关键位运行一个过滤器,正则表达式^[A-Za-z 0-9 \.,\?'""[email protected]#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\]〜] + $`。

这将过滤掉在标题中使用除标准ASCII之外的其他任何提要。不幸的是,这意味着它也会过滤诸如“简历”之类的词,但调整正则表达式应该很容易包含来自您所知语言的常见非英文字符。

+0

谢谢!这对我来说会很好。 – MvdD 2009-08-02 20:43:35

您可能希望跳过标题,其中超过X%的字符不是来自指定给您可以理解的那些语言的脚本的代码块。例如,如果您不能阅读希腊语,俄语,阿拉伯语,希伯来语,亚美尼亚语,中文,日语,韩语,印度语等,拒绝标题超过(例如)10%以上的字符不在U + 0000至U + 0233。这给你留下了拉丁字母。留下10%的保证金是为了标点符号;技术文章也可能使用不在基本字母表中的符号。