搜索网站内容

问题描述:

你如何寻找红宝石一个网站的源代码,很难解释,但继承人的代码为蟒蛇做搜索网站内容

import urllib2, re 
word = "How to ask" 
source = urllib2.urlopen("http://*.com").read() 
if re.search(word,source): 
    print "Found it "+word 
+0

此问题是的重复;代码是完全一样的。该用户的名字是“PHP”,这个用户的名字是“python”。这里发生了什么? – Bkkbrad 2009-02-14 17:32:52

这里有一种方法:

require 'open-uri' 
word = "How to ask" 
open('http://*.com') do |f| 
    puts "Found it #{word}" if f.read =~ /#{word}/ 
end 

如果你想要做的就是搜索jcrossley3给了你答案。如果你想做更复杂的事情,你应该看看一个HTML解析器,它可以让你像DOM树一样对待网站。看看为什么伟大的hpricot gem就是这么做的。

require 'hpricot' 
require 'open-uri' 
doc = open("http://qwantz.com/") { |f| Hpricot(f) } 
doc.search("//p[@class='posted']") 
(doc/"p/a/img").each do |img| 
    puts img.attributes['class'] 
end