用wget下载整个网站

现在不少网站变聪明了,比如说 http://www.w3schools.com/html/default.asp 再也不能用很多人常用的:

wget -r -p -np -k -l inf

下载整个网站了。
其中有一个很重要的原因是因为Wget设置的User-Agent,比如我的wget 1.10.2

HTTP_USER_AGENT=Wget/1.10.2

其中wget版本不同,"/"后的数字也对应改变。
不少网站都是根据这个过滤掉wget的请求的。
知道了这个对付就简单了,加个 -U USER-AGENT就行了,比如我的K-Meleon的默认User-Agent:

Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US; rv:1.7.13) Gecko/20050610 K-Meleon/0.9

或者XP下的IE6:

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

还是Opera什么的:

Opera/7.54 (Windows NT 5.1; U) [en]

这样就可以下载了:

wget -r -p -np -k -l inf \  -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" \  http://www.w3schools.com/html/default.asp

当然也可以调整一下参数:

wget -N -r -l inf --no-remove-listing -k -p -np \  -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" \  http://www.w3schools.com/html/default.asp

或者简写成

wget -m -k -p -np -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" \  http://www.w3schools.com/html/default.asp

注:行末的"\"在Windows下是否有效不知道,只是因为一行显示不下反正把下一行接上去就行了。


[本日志由 admin 于 2008-03-02 11:52 PM 编辑]
文章来自: 本站原创
引用通告地址: http://www.is21.cn/trackback.asp?tbID=187
Tags:
评论: 0 | 引用: 0 | 查看次数: 1969
发表评论
你没有权限发表留言!