python自学笔记（9）

百科大全

更新时间：2025-10-05 16:04:0516

admin管理员组
文章数量:1794759

python自学笔记（9）

python自学笔记（9）--《用python写网络爬虫》之网站背景调研

1.估算网站大小为了了解爬取某个网站的爬取效率，判断是否需要使用分布式下载来提高爬取效率，所以要了解网站的体量到底有多大。看了《用python写网络爬虫》中描述使用谷歌搜索来判断网站大小，发现谷歌被屏蔽了，然后就试了试使用百度搜索可以估算一个网站大致的大小比如要调查hao123网址的大小，可以百度搜索如下”site:www.hao123”调查结果大概有12,386,154 个站点页面。使用谷歌如何估算网站大小的方法可以参考： blog.csdn/zhujianing1993/article/details/66257760

2.识别网站所用技术不同的网站技术对爬取会产生不同的影响，所以要了解你要爬取的网站所使用的技术。具体方法如下：（1）安装builtwith模块，（2）编写代码如下：

import builtwith print(builtwith.parse('blog.csdn/')) ''' running result: {'web-servers': ['OpenResty', 'Nginx'], 'programming-languages': ['Lua'], 'javascript-frameworks': ['Modernizr', 'jQuery'], 'web-frameworks': ['Twitter Bootstrap']} ''' 上面代码可以看出，csdn博客网站使用的语言是Lua语言，网站框架使用Twitter Bootstrap前端框架。

3.寻找网站所有者有些网站我坑会关心所有者是谁，比如已知网站的所有者会封禁网络爬虫，那么我们的下载速度和频率最好控制的更保守。我们可使用WHOIS协议查询域名的注册者是谁。方法如下：（1）安装whois模块（2）编写代码如下：

import whois print(whois.whois("www.hao123")) ''' running result: { …… "emails": [ "abusecomplaints@markmonitor", "domainmaster@baidu" ], "dnssec": "unsigned", "name": "Domain Admin", "org": "Baidu Online Network Technology Co.Ltd", "address": "3F Baidu Campus No.10, Shangdi 10th Street Haidian District", "city": "Beijing", "state": "Beijing", "zipcode": "100085", "country": "CN" } ''' 可以看出这个网站属于百度"org": "Baidu Online Network Technology Co.Ltd"。

本文标签：笔记 Python

版权声明：本文标题：python自学笔记（9）内容由林淑君副主任自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.xiehuijuan.com/baike/1686481697a72407.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。