用wget下载整个网站
作者:admin 日期:2008-03-02
现在不少网站变聪明了,比如说 http://www.w3schools.com/html/default.asp 再也不能用很多人常用的:
wget -r -p -np -k -l inf
下载整个网站了。
其中有一个很重要的原因是因为Wget设置的User-Agent,比如我的wget 1.10.2
HTTP_USER_AGENT=Wget/1.10.2
其中wget版本不同,"/"后的数字也对应改变。
不少网站都是根据这个过滤掉wget的请求的。
知道了这个对付就简单了,加个 -U USER-AGENT就行了,比如我的K-Meleon的默认User-Agent:
Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US; rv:1.7.13) Gecko/20050610 K-Meleon/0.9
或者XP下的IE6:
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
还是Opera什么的:
Opera/7.54 (Windows NT 5.1; U) [en]
这样就可以下载了:
wget -r -p -np -k -l inf \ -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" \ http://www.w3schools.com/html/default.asp
当然也可以调整一下参数:
wget -N -r -l inf --no-remove-listing -k -p -np \ -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" \ http://www.w3schools.com/html/default.asp
或者简写成
wget -m -k -p -np -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" \ http://www.w3schools.com/html/default.asp
注:行末的"\"在Windows下是否有效不知道,只是因为一行显示不下反正把下一行接上去就行了。
wget -r -p -np -k -l inf
下载整个网站了。
其中有一个很重要的原因是因为Wget设置的User-Agent,比如我的wget 1.10.2
HTTP_USER_AGENT=Wget/1.10.2
其中wget版本不同,"/"后的数字也对应改变。
不少网站都是根据这个过滤掉wget的请求的。
知道了这个对付就简单了,加个 -U USER-AGENT就行了,比如我的K-Meleon的默认User-Agent:
Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US; rv:1.7.13) Gecko/20050610 K-Meleon/0.9
或者XP下的IE6:
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
还是Opera什么的:
Opera/7.54 (Windows NT 5.1; U) [en]
这样就可以下载了:
wget -r -p -np -k -l inf \ -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" \ http://www.w3schools.com/html/default.asp
当然也可以调整一下参数:
wget -N -r -l inf --no-remove-listing -k -p -np \ -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" \ http://www.w3schools.com/html/default.asp
或者简写成
wget -m -k -p -np -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" \ http://www.w3schools.com/html/default.asp
注:行末的"\"在Windows下是否有效不知道,只是因为一行显示不下反正把下一行接上去就行了。
[本日志由 admin 于 2008-03-02 11:52 PM 编辑]
文章来自: 本站原创
引用通告地址: http://www.is21.cn/trackback.asp?tbID=187
Tags:



评论: 0 | 引用: 0 | 查看次数: 1969
发表评论
你没有权限发表留言!