用wget下载整个网站或索引目录

2012-10-24

linux

2 条评论

5263 次阅读

一直不知道nginx或者apache建立的索引目录是怎么下载的，偶然听到一个朋友说wget可以，在网上一查果真行，哎哎，终于可以满足自己的下载欲望了。记录命令使用情况如下。

$ wget -c -r -nd -np -k -L -p -A c,h www.xxx.com/doc/path/

-c 断点续传
-r 递归下载，下载指定网页某一目录下（包括子目录）的所有文件
-nd 递归下载时不创建一层一层的目录，把所有的文件下载到当前目录
-np 递归下载时不搜索上层目录。

如wget -c -r www.xxx.com/doc/path/ 没有加参数-np，就会同时下载path的上一级目录pub下的其它文件

-k 将绝对链接转为相对链接，下载整个站点后脱机浏览网页，最好加上这个参数

-L 递归时不进入其它主机，如wget -c -r www.xxx.com/ 如果网站内有一个这样的链接： www.yyy.com，不加参数-L，就会像大火烧山一样，会递归下载www.yyy.com网站
-p 下载网页所需的所有文件，如图片等
-A 指定要下载的文件样式列表，多个样式用逗号分隔
-i 后面跟一个文件，文件内指明要下载的URL。

下载有索引目录
wget -m http: //www.xxx.com/dir/ 这个最强力了！前提是目录必须是索引目录！

下载一个目录，例如网站的yourdir

wget -U “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)” -r -p -k -np -Pmydir -nc -o down.log http://www.xxx.com/yourdir/index.html

如果要想下载整个网站，最好去除-np参数。

wget -U “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)” -r -p -k -nc -o down.log http://www.xxx.com/index.html

-U 修改agent，伪装成IE货firefox等
-r 递归；对于HTTP主机，wget首先下载URL指定的文件，然后（如果该文件是一个HTML文档的话）递归下载该文件所引用（超级连接）的所有文件（递归深度由参数-l指定）。对FTP主机，该参数意味着要下载URL指定的目录中的所有文件，递归方法与HTTP主机类似。
-c 指定断点续传功能。实际上，wget默认具有断点续传功能，只有当你使用别的ftp工具下载了某一文件的一部分，并希望wget接着完成此工作的时候，才需要指定此参数。
-nc 不下载已经存在的文件
-np 表示不跟随链接，只下载指定目录及子目录里的东西；
-p 下载页面显示所需的所有文件。比如页面中包含了图片，但是图片并不在/yourdir目录中，而在/images目录下，有此参数，图片依然会被正常下载。
-k 修复下载文件中的绝对连接为相对连接，这样方便本地阅读。

moper辛勤播种的土地我是个蒸不烂、煮不熟、捶不扁、炒不爆、响珰珰一粒铜豌豆

用wget下载整个网站或索引目录

已有 2 条评论

添加新评论

最新文章

最近回复

分类

标签

归档

其它