Pythonç¬è«å®æåä¹æåç±é®ç¥è¯äººé®é¢å¹¶ä¿åè³æ°æ®åº

Urllibçç¨æ³åå¼å¸¸å¤ç
Beautiful Soupçç®ååºç¨
MySQLdbçåºç¡ç¨æ³
æ£åè¡¨è¾¾å¼çç®ååºç¨

ç¯å¢éç½®

Beautiful Soup MySQLdb

å¤§å®¶å¯ä»¥ä¸è½½ä¹åéè¿å¦ä¸å½ä»¤å®è£

1	python setup.py install

ç¯å¢éç½®å¥½ä¹åï¼æä»¬ä¾¿å¯ä»¥å¼å¿å°æ¸ç¬è«äº

æ¡æ¶æè·¯

æä»¬å¨è¿ä¸ªé¡µé¢éè¦è·åçä¸è¥¿æï¼

æ»çé¡µç æ°ï¼æ¯ä¸é¡µçææé®é¢é¾æ¥ã

æåï¼æä»¬éè¦æè¿äºåå®¹åå¨å°æ°æ®åºä¸ã

è¦ç¹ç®æ

1.æ¥å¿è¾åº

[2015-08-10 03:05:20] 113011 å·é®é¢åå¨å¶ä»çæ¡ æä¸ªäººè®¤ä¸ºåºè¯¥æ¯æ¨±æ¡æ²å¾ç¾ç

[2015-08-10 03:05:20] ä¿åå°æ°æ®åº,æ¤é®é¢çIDä¸º 113011

[2015-08-10 03:05:20] å½åç¬åç¬¬ 2 çåå®¹,åç°ä¸ä¸ªé®é¢ ç¾åº¦æä¸ä¸ªå°æ¹ï¼è±å¿å¸¦çè³é¦ï¼æ°´å¿æµæ·å¥è¾æ¯ä»ä¹ææ å¤å¤å¸®å¿å¦ åçæ°é 1

[2015-08-10 03:05:19] ä¿åå°æ°æ®åº,æ¤é®é¢çIDä¸º 113010

import time

#è·åå½åæ¶é´

def getCurrentTime(self):

return time.strftime('[%Y-%m-%d %H:%M:%S]',time.localtime(time.time()))

#è·åå½åæ¶é´

def getCurrentDate(self):

return time.strftime('%Y-%m-%d',time.localtime(time.time()))

1 2	f_handler=open('out.log', 'w') sys.stdout=f_handler

2.é¡µç ä¿å

å¤§å®¶å¯ä»¥ç¨å¾®åèä¸ä¸å½æ°çå®ç°ï¼

#ä¸»å½æ°

def main(self):

f_handler=open('out.log', 'w')

sys.stdout=f_handler

page = open('page.txt', 'r')

content = page.readline()

start_page = int(content.strip()) - 1

page.close()

print self.getCurrentTime(),"å¼å§é¡µç ",start_page

print self.getCurrentTime(),"ç¬è«æ£å¨å¯å¨,å¼å§ç¬åç±é®ç¥è¯äººé®é¢"

self.total_num = self.getTotalPageNum()

print self.getCurrentTime(),"è·åå°ç®å½é¡µé¢ä¸ªæ°",self.total_num,"ä¸ª"

if not start_page:

start_page = self.total_num

for x in range(1,start_page):

print self.getCurrentTime(),"æ£å¨æåç¬¬",start_page-x+1,"ä¸ªé¡µé¢"

try:

self.getQuestions(start_page-x+1)

except urllib2.URLError, e:

if hasattr(e, "reason"):

print self.getCurrentTime(),"ææ»é¡µé¢åæåææåå¤±è´¥,éè¯¯åå ", e.reason

except Exception,e:

print self.getCurrentTime(),"ææ»é¡µé¢åæåææåå¤±è´¥,éè¯¯åå :",e

if start_page-x+1 < start_page:

f=open('page.txt','w')

f.write(str(start_page-x+1))

print self.getCurrentTime(),"åå¥æ°é¡µç ",start_page-x+1

f.close()

3.é¡µé¢å¤ç

import re

#å¤çé¡µé¢æ ç¾ç±»

class Tool:

#å°è¶é¾æ¥å¹¿ååé¤

removeADLink = re.compile('<div class="link_layer.*?</div>')

#å»é¤imgæ ç¾,1-7ä½ç©ºæ ¼, 

removeImg = re.compile('<img.*?>| {1,7}| ')

#å é¤è¶é¾æ¥æ ç¾

removeAddr = re.compile('<a.*?>|</a>')

#ææ¢è¡çæ ç¾æ¢ä¸º\n

replaceLine = re.compile('<tr>|<div>|</div>|</p>')

#å°è¡¨æ ¼å¶è¡¨<td>æ¿æ¢ä¸º\t

replaceTD= re.compile('<td>')

#å°æ¢è¡ç¬¦æåæ¢è¡ç¬¦æ¿æ¢ä¸º\n

replaceBR = re.compile('<br><br>|<br>')

#å°å¶ä½æ ç¾åé¤

removeExtraTag = re.compile('<.*?>')

#å°å¤è¡ç©ºè¡å é¤

removeNoneLine = re.compile('\n+')

def replace(self,x):

x = re.sub(self.removeADLink,"",x)

x = re.sub(self.removeImg,"",x)

x = re.sub(self.removeAddr,"",x)

x = re.sub(self.replaceLine,"\n",x)

x = re.sub(self.replaceTD,"\t",x)

x = re.sub(self.replaceBR,"\n",x)

x = re.sub(self.removeExtraTag,"",x)

x = re.sub(self.removeNoneLine,"\n",x)

#strip()å°ååå¤ä½åå®¹å é¤

return x.strip()

æ¯å¦æä»¬è¿ä¹ä¸æ®µä»£ç ï¼

<p>è¿è¡ç¯å¢ï¼<strong>Ubuntu Linux 14.04</strong></p>

<h2>ç¼åShellèæ¬</h2>

<p><a href="http://wiki.ubuntu.org.cn/Shell%E7%BC%96%E7%A8%8B%E5%9F%BA%E7%A1%80" data-original-title="" title="">Ubuntu Shell ç¼ç¨åºç¡</a></p>

<p>shellèæ¬çåç¼ä¸ºshï¼å¨ä»»ä½ä½ç½®æ°å»ºä¸ä¸ªèæ¬æä»¶ï¼æéæ©å¨ /etc/mysql ç®å½ä¸æ°å»ºä¸ä¸ª listen.sh æä»¶ã</p>

ç»è¿å¤çåä¾¿ä¼åæå¦ä¸çæ ·åï¼

åè¨

å¥½äºï¼é²è¨ç¢è¯ä¸å¤è®²ï¼å¼å§æä»¬çéç½®ä¹æã

è¿è¡ç¯å¢ï¼UbuntuLinux14.04

ç¼åShellèæ¬

UbuntuShellç¼ç¨åºç¡

æ§è¡å¦ä¸å½ä»¤ï¼

ç»è¿ä¸é¢çå¤çï¼ææä¹±ä¹±çä»£ç é½ä¼è¢«å¤çå¥½äºã

4.ä¿åå°æ°æ®åº

æ¯å¦æä»¬æé å¦ä¸çåå¸ï¼

#æé æä½³çæ¡çåå¸

good_ans_dict = {

"text": good_ans[0],

"answerer": good_ans[1],

"date": good_ans[2],

"is_good": str(good_ans[3]),

"question_id": str(insert_id)

}

æé sqlè¯å¥å¹¶æå¥å°æ°æ®åºçæ¹æ³å¦ä¸ï¼

#æå¥æ°æ®

def insertData(self, table, my_dict):

try:

self.db.set_character_set('utf8')

cols = ', '.join(my_dict.keys())

values = '"," '.join(my_dict.values())

sql = "INSERT INTO %s (%s) VALUES (%s)" % (table, cols, '"'+values+'"')

try:

result = self.cur.execute(sql)

insert_id = self.db.insert_id()

self.db.commit()

#å¤ææ¯å¦æ§è¡æå

if result:

return insert_id

else:

return 0

except MySQLdb.Error,e:

#åçéè¯¯æ¶åæ»

self.db.rollback()

#ä¸»é®å¯ä¸ï¼æ æ³æå¥

if "key 'PRIMARY'" in e.args[1]:

print self.getCurrentTime(),"æ°æ®å·²åå¨ï¼æªæå¥æ°æ®"

else:

print self.getCurrentTime(),"æå¥æ°æ®å¤±è´¥ï¼åå %d: %s" % (e.args[0], e.args[1])

except MySQLdb.Error,e:

print self.getCurrentTime(),"æ°æ®åºéè¯¯ï¼åå %d: %s" % (e.args[0], e.args[1])

5.PHPè¯»åæ¥å¿

æ¹æ³ä¸ï¼

PHPååºè¾åºæææ¥å¿åå®¹

PHP

<html>

<head>

</head>

<body>

<?php

$fp = file("out.log");

if ($fp) {

for($i = count($fp) - 1;$i >= 0; $i --)

echo $fp[$i]."<br>";

}

</body>

</html>

æ¹æ³äºï¼

<html>

<head>

</head>

<body>

<?php

$ph = popen('tail -n 100 out.log','r');

while($r = fgets($ph)){

echo $r."<br>";

}

pclose($ph);

</body>

</html>

ä¸é¢ä¸¤ç§æ¹æ³é½æ¯5ç§å·æ°ä¸æ¬¡ç½é¡µæ¥æ¥çææ°çæ¥å¿ã

æºä»£ç æ¾é

å¥½äºï¼é²è¨ç¢è¯ä¸å¤è®²ï¼ç´æ¥ä¸æºç äº

spider.py

Python

# -*- coding:utf-8 -*-

import urllib

import urllib2

import re

import time

import types

import page

import mysql

import sys

from bs4 import BeautifulSoup

class Spider:

#åå§å

def __init__(self):

self.page_num = 1

self.total_num = None

self.page_spider = page.Page()

self.mysql = mysql.Mysql()

#è·åå½åæ¶é´

def getCurrentTime(self):

return time.strftime('[%Y-%m-%d %H:%M:%S]',time.localtime(time.time()))

#è·åå½åæ¶é´

def getCurrentDate(self):

return time.strftime('%Y-%m-%d',time.localtime(time.time()))

#éè¿ç½é¡µçé¡µç æ°æ¥æå»ºç½é¡µçURL

page.py

Python

# -*- coding:utf-8 -*-

import urllib

import urllib2

import re

import time

import types

import tool

from bs4 import BeautifulSoup

#æååææä¸é®é¢åçæ¡

class Page:

def __init__(self):

self.tool = tool.Tool()

#è·åå½åæ¶é´

def getCurrentDate(self):

return time.strftime('%Y-%m-%d',time.localtime(time.time()))

#è·åå½åæ¶é´

def getCurrentTime(self):

return time.strftime('[%Y-%m-%d %H:%M:%S]',time.localtime(time.time()))

#éè¿é¡µé¢çURLæ¥è·åé¡µé¢çä»£ç

def getPageByURL(self, url):

try:

request = urllib2.Request(url)

response = urllib2.urlopen(request)

return response.read().decode("utf-8")

except urllib2.URLError, e:

tool.py

Python

#-*- coding:utf-8 -*-

import re

#å¤çé¡µé¢æ ç¾ç±»

class Tool:

#å°è¶é¾æ¥å¹¿ååé¤

removeADLink = re.compile('<div class="link_layer.*?</div>')

removeImg = re.compile('<img.*?>| {1,7}| ')

#å é¤è¶é¾æ¥æ ç¾

removeAddr = re.compile('<a.*?>|</a>')

#ææ¢è¡çæ ç¾æ¢ä¸º\n

replaceLine = re.compile('<tr>|<div>|</div>|</p>')

#å°è¡¨æ ¼å¶è¡¨<td>æ¿æ¢ä¸º\t

replaceTD= re.compile('<td>')

#å°æ¢è¡ç¬¦æåæ¢è¡ç¬¦æ¿æ¢ä¸º\n

replaceBR = re.compile('<br><br>|<br>')

#å°å¶ä½æ ç¾åé¤

removeExtraTag = re.compile('<.*?>')

mysql.py

Python

# -*- coding:utf-8 -*-

import MySQLdb

import time

class Mysql:

#è·åå½åæ¶é´

def getCurrentTime(self):

return time.strftime('[%Y-%m-%d %H:%M:%S]',time.localtime(time.time()))

#æ°æ®åºåå§å

def __init__(self):

try:

self.db = MySQLdb.connect('ip','username','password','db_name')

self.cur = self.db.cursor()

except MySQLdb.Error,e:

print self.getCurrentTime(),"è¿æ¥æ°æ®åºéè¯¯ï¼åå %d: %s" % (e.args[0], e.args[1])

#æå¥æ°æ®

def insertData(self, table, my_dict):

try:

self.db.set_character_set('utf8')

cols = ', '.join(my_dict.keys())

values = '"," '.join(my_dict.values())

sql = "INSERT INTO %s (%s) VALUES (%s)" % (table, cols, '"'+values+'"')

try:

result = self.cur.execute(sql)

insert_id = self.db.insert_id()

self.db.commit()

#å¤ææ¯å¦æ§è¡æå

if result:

return insert_id

else:

return 0

except MySQLdb.Error,e:

#åçéè¯¯æ¶åæ»

self.db.rollback()

#ä¸»é®å¯ä¸ï¼æ æ³æå¥

if "key 'PRIMARY'" in e.args[1]:

print self.getCurrentTime(),"æ°æ®å·²åå¨ï¼æªæå¥æ°æ®"

else:

print self.getCurrentTime(),"æå¥æ°æ®å¤±è´¥ï¼åå %d: %s" % (e.args[0], e.args[1])

except MySQLdb.Error,e:

print self.getCurrentTime(),"æ°æ®åºéè¯¯ï¼åå %d: %s" % (e.args[0], e.args[1])

æ°æ®åºå»ºè¡¨SQLå¦ä¸ï¼

PgSQL

CREATE TABLE IF NOT EXISTS `iask_answers` (

`id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'èªå¢ID',

`text` text NOT NULL COMMENT 'åçåå®¹',

`question_id` int(18) NOT NULL COMMENT 'é®é¢ID',

`answerer` varchar(255) NOT NULL COMMENT 'åçè',

`date` varchar(255) NOT NULL COMMENT 'åçæ¶é´',

`is_good` int(11) NOT NULL COMMENT 'æ¯å¦æ¯æä½³çæ¡',

PRIMARY KEY (`id`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8;

CREATE TABLE IF NOT EXISTS `iask_questions` (

`id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'é®é¢ID',

`text` text NOT NULL COMMENT 'é®é¢åå®¹',

`questioner` varchar(255) NOT NULL COMMENT 'æé®è',

`date` date NOT NULL COMMENT 'æé®æ¶é´',

`ans_num` int(11) NOT NULL COMMENT 'åçæ°é',

`url` varchar(255) NOT NULL COMMENT 'é®é¢é¾æ¥',

PRIMARY KEY (`id`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8;

è¿è¡çæ¶åæ§è¡å¦ä¸å½ä»¤å³å¯

1	nohup python spider.py &

è¿è¡ç»ææ¥ç

å°ä¼ä¼´ä»¬èµ¶å¿«è¯ä¸ä¸å§ã

Pythonç¬è«å®æå ­ä¹æåç±é®ç¥è¯äººé®é¢å¹¶ä¿å­è³æ°æ®åº

ç¯å¢é ç½®

æ¡æ¶æè·¯

è¦ç¹ç®æ

1.æ¥å¿è¾åº

2.é¡µç ä¿å­

3.é¡µé¢å¤ç

4.ä¿å­å°æ°æ®åº

5.PHPè¯»åæ¥å¿

æºä»£ç æ¾é

è¿è¡ç»ææ¥ç

相关推荐

Pythonç¬è«å®æåä¹æåç±é®ç¥è¯äººé®é¢å¹¶ä¿åè³æ°æ®åº

ç¯å¢éç½®

æ¡æ¶æè·¯

è¦ç¹ç®æ

1.æ¥å¿è¾åº

2.é¡µç ä¿å

3.é¡µé¢å¤ç

4.ä¿åå°æ°æ®åº

5.PHPè¯»åæ¥å¿

æºä»£ç æ¾é

è¿è¡ç»ææ¥ç