admin管理员组文章数量:1794759
Python 爬取网页数据的两种方法
Python 爬取网页数据的两种方法
- 1. 概述
- 2. 使用pandas 爬取网页数据
- 2.1 打开网页
- 2.2 打开 PyCharm 编译器
- 3.使用urllib爬取网页数据并写入Excel表
- 3.1 下载 urllib 库
- 3.2 代码如下
- 3.3 运行结果如下
- 结束语
网络抓取是从任何网站或任何其他信源中提取数据的过程,以你想要查看的格式保存在你的系统中; 包含格式很多,例如CSV、Excel等;文件、XML、JSON等等。Python是最常见的网页抓取语言之一;对于任何网络抓取活动,Python被认为是确保此过程无任何错误进行的最佳方法;
2. 使用pandas 爬取网页数据 2.1 打开网页打开一个网页,将网址复制下来;
2.2 打开 PyCharm 编译器先下载pandas库,【文件】=>【设置】=>【项目:xxx】=>【项目解释器】(【File】=>【Settings…】=>【project:xxx】=>【Python Interpreter】),点击+号,在搜索框中输入“pandas”,在下方列表中选中“pandas”,点击安装,等待提示安装完成即可;
回到Pycharm输入以下代码
与上述方法一致,这里就不赘述了
3.2 代码如下 import urllib.request #导入urllib库 url = urllib.request.urlopen("fangjia.gotohui/show-39181") #需要抓取数据的网站 data = url.read() dt1 = open("D:/Code/data/2.xls","wb") #xls表的位置,会自动生成xls表 dt1.write(data) #将数据写入D:/Code/data/2.xls表中 dt1.close() print(data) 3.3 运行结果如下打开目录下的2.xls表,即可看到爬取的数据;
结束语若这篇文章有帮到你,给个赞,收个藏,欢迎大家评论; 若文章有什么错误,欢迎大家指教。
版权声明:本文标题:Python 爬取网页数据的两种方法 内容由林淑君副主任自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.xiehuijuan.com/baike/1686908982a117045.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论