52的一个小爬虫

上班好无聊啊,好想摸鱼啊

好几个月写前的爬虫了
昨天没事干加了个写入到excel里面,
不知道怎么回事,最开始一直报错xlwt内没有workbook模块,重装xlwt也没有解决这个问题,
然后今天摸鱼的时候运行了一下,ok了
我也不知道你们运行这个代码会不会报这个问题

一时摸鱼一时爽,一直摸鱼一只爽
[Python] 纯文本查看 复制代码

from urllib import request
from bs4 import BeautifulSoup
import time, urllib, xlwt

workbook = xlwt.Workbook()
xls = workbook.add_sheet('sheet1')
xls.write(0, 0, '链接')
xls.write(0, 1, '标题')
m = n = 1

def Get_html(url):
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
    html = urllib.request.urlopen(urllib.request.Request(url,headers=headers)).read()
    return BeautifulSoup(html,'lxml')

while m < 2: #页数
    url = 'https://www.52pojie.cn/forum-16-{}.html'.format(m)  #板块连接
    news = Get_html(url).find_all('a', class_='s xst')
    for i in news:
        url = 'https://www.52pojie.cn/'+i.get('href')
        title = i.get_text()
        xls.write(n, 0, url)
        xls.write(n, 1, title)
        print(url, title, n)
        n += 1
        time.sleep(2)
    m = m + 1
workbook.save('52破解.xls')

就不打包成exe了, 因为我 懒!

THE END
喜欢就支持以下吧
点赞0
分享
评论 抢沙发
管埋员的头像-小北的自留地

昵称

取消
昵称