admin管理员组文章数量:1794759
python自学笔记(9)
python自学笔记(9)--《用python写网络爬虫》之网站背景调研
1.估算网站大小 为了了解爬取某个网站的爬取效率,判断是否需要使用分布式下载来提高爬取效率,所以要了解网站的体量到底有多大。 看了《用python写网络爬虫》中描述使用谷歌搜索来判断网站大小,发现谷歌被屏蔽了,然后就试了试使用百度搜索可以估算一个网站大致的大小 比如要调查hao123网址的大小,可以百度搜索如下”site:www.hao123”调查结果大概有12,386,154 个站点页面。 使用谷歌如何估算网站大小的方法可以参考: blog.csdn/zhujianing1993/article/details/66257760
2.识别网站所用技术 不同的网站技术对爬取会产生不同的影响,所以要了解你要爬取的网站所使用的技术。具体方法如下: (1)安装builtwith模块, (2)编写代码如下:
import builtwith print(builtwith.parse('blog.csdn/')) ''' running result: {'web-servers': ['OpenResty', 'Nginx'], 'programming-languages': ['Lua'], 'javascript-frameworks': ['Modernizr', 'jQuery'], 'web-frameworks': ['Twitter Bootstrap']} ''' 上面代码可以看出,csdn博客网站使用的语言是Lua语言,网站框架使用Twitter Bootstrap前端框架。3.寻找网站所有者 有些网站我坑会关心所有者是谁,比如已知网站的所有者会封禁网络爬虫,那么我们的下载速度和频率最好控制的更保守。我们可使用WHOIS协议查询域名的注册者是谁。方法如下: (1)安装whois模块 (2)编写代码如下:
import whois print(whois.whois("www.hao123")) ''' running result: { …… "emails": [ "abusecomplaints@markmonitor", "domainmaster@baidu" ], "dnssec": "unsigned", "name": "Domain Admin", "org": "Baidu Online Network Technology Co.Ltd", "address": "3F Baidu Campus No.10, Shangdi 10th Street Haidian District", "city": "Beijing", "state": "Beijing", "zipcode": "100085", "country": "CN" } ''' 可以看出这个网站属于百度"org": "Baidu Online Network Technology Co.Ltd"。
版权声明:本文标题:python自学笔记(9) 内容由林淑君副主任自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.xiehuijuan.com/baike/1686481697a72407.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论