|
本帖最后由 Tinken 于 2020-10-3 00:45 编辑
有了python
通过requests获取到了页面
通过Beautiful Soup将页面数据爬下来了
还需要一个东西,一个将数据存储到excel的库 —— xlwings
PS:当然也可以考虑使用数据库存,但考虑到新手,不确定存储内容的正确性,或者后面还对源数据进行二次处理,所以数据库存后面再考虑
通过网上各种资料的对比:
xlwings、xlrd、xlwt、openpyxl、pyxll...等
开了因素有:读、写、速度、依赖库、文档完善度...等
最终选择xlwings最为excel操作库,选择好了就开始搞,不纠结!
xlwings官网:https://www.xlwings.org/pro
xlwings安装:pip install xlwings
文档地址:https://docs.xlwings.org/en/stable/小白看不懂英文,只能舍弃官方,看第三方的中文文档:https://www.kancloud.cn/gnefnuy/xlwings-docs/1127450
- #!/usr/bin/env python
- # -*- coding:utf-8 -*-
- # @ClassName test5
- # @Description TODO
- # @Author lanlo
- # @Date 2020-10-02 22:43
- # @Version 1.0
- import requests
- from bs4 import BeautifulSoup
- import xlwings as xw
- url = "http://www.vrpip.com/forum.php?mod=viewthread&tid=62"
- headers = {
- 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'
- }
- res = requests.get(url, headers=headers)
- res.encoding = "utf-8"
- html = BeautifulSoup(res.text, "html.parser")
- print(html.title.text)
- print("------------------- 我是分割线 -------------------")
- wb = xw.Book()
- sht = wb.sheets["sheet1"]
- sht.range('A1').value = "xlwings"
- sht.range('A2').value = html.title.text
- # 以上就完成了简单的excel操作,写入了2组数据:A1:xlwings;A2:小白 学pyton 爬虫一 - 源码分享 - VRPIP 虚拟化平台 - Powered by Discuz!
- print(sht.range('A1').value)
- # wb = xw.Book() # 这将创建一个新的工作簿
- # wb = xw.Book('FileName.xlsx') # 连接到当前工作目录中的现有文件
- # wb = xw.Book(r'C:\path\to\file.xlsx') # 在Windows上:使用原始字符串来转义反斜杠
复制代码
|
|