admin管理员组

文章数量:1794759

python自学笔记(9)

python自学笔记(9)

python自学笔记(9)--《用python写网络爬虫》之网站背景调研

1.估算网站大小 为了了解爬取某个网站的爬取效率,判断是否需要使用分布式下载来提高爬取效率,所以要了解网站的体量到底有多大。 看了《用python写网络爬虫》中描述使用谷歌搜索来判断网站大小,发现谷歌被屏蔽了,然后就试了试使用百度搜索可以估算一个网站大致的大小 比如要调查hao123网址的大小,可以百度搜索如下”site:www.hao123”调查结果大概有12,386,154 个站点页面。   使用谷歌如何估算网站大小的方法可以参考: blog.csdn/zhujianing1993/article/details/66257760

2.识别网站所用技术 不同的网站技术对爬取会产生不同的影响,所以要了解你要爬取的网站所使用的技术。具体方法如下: (1)安装builtwith模块, (2)编写代码如下:

import builtwith print(builtwith.parse('blog.csdn/')) ''' running result: {'web-servers': ['OpenResty', 'Nginx'], 'programming-languages': ['Lua'], 'javascript-frameworks': ['Modernizr', 'jQuery'], 'web-frameworks': ['Twitter Bootstrap']} ''' 上面代码可以看出,csdn博客网站使用的语言是Lua语言,网站框架使用Twitter Bootstrap前端框架。

3.寻找网站所有者 有些网站我坑会关心所有者是谁,比如已知网站的所有者会封禁网络爬虫,那么我们的下载速度和频率最好控制的更保守。我们可使用WHOIS协议查询域名的注册者是谁。方法如下: (1)安装whois模块 (2)编写代码如下:

import whois print(whois.whois("www.hao123")) ''' running result: { …… "emails": [ "abusecomplaints@markmonitor", "domainmaster@baidu" ], "dnssec": "unsigned", "name": "Domain Admin", "org": "Baidu Online Network Technology Co.Ltd", "address": "3F Baidu Campus No.10, Shangdi 10th Street Haidian District", "city": "Beijing", "state": "Beijing", "zipcode": "100085", "country": "CN" } ''' 可以看出这个网站属于百度"org": "Baidu Online Network Technology Co.Ltd"。

本文标签: 笔记Python