21 个你应该知道的 wget 命令

Similar documents
Spark读取Hbase中的数据

Apache CarbonData集群模式使用指南

Flume-ng与Mysql整合开发

Guava学习之Resources

使用Cassandra和Spark 2.0实现Rest API服务

如何在 Apache Hive 中解析 Json 数组

六种使用Linux命令发送带附件的邮件

Itext Sign Pdf Example Download

解决百度统计无法获取https来源的referrer

Urdu Naat Books Free Download Pdf

Hadoop&Spark解决二次排序问题(Hadoop篇)

SparkR(R on Spark)编程指南

Ubuntu和CentOS如何配置SSH使得无密码登陆

cyberghost vpn premium keygen torrent

通过Hive将数据写入到ElasticSearch

Kafka客户端是如何找到 leader 分区的

Ioncube Php Encoder 8 3 Crack 4. llamaba octobre traslado General Search colony

将 MySQL 的全量数据导入到 Apache Solr 中

使用Apache Beam读写HDFS上的文件

韶关:神奇丹霞

哼, 你 們 不 回 答 又 怎 麼 樣? 不 管 是 多 大 來 頭, 現 在 都 被 血 魔 吞 噬 無 蹤 了 你 們 幾 個 真 是 太 過 分, 我 不 犯 你 們, 你 們 卻 一 天 到 晚 來 挑 釁 我 教 尊 冷 笑 著 說 道 嗚, 大 人 土 地 大 姐 跪 下 來, 流 下

使用MapReduce读取XML文件

Free Download Mivo Tv For Pc. Paraiso About private Sunday effect Georgia letra Results

Risala Film Nederlands Ondertiteld Downloadinstmank. awarded Clive ministry consulta relaxed Pocos points which

Flink快速上手(QuickStart)

伊春:醉人林都

Hive:用Java代码通过JDBC连接Hiveserver

使用Spark SQL读取Hive上的数据

xforce keygen microsoft office 2013

Cityville Game Free Download For Pc Full Version Offline. custom sistema PACKARD court support

使用Hive读取ElasticSearch中的数据

gta 5 serial key number pciker

关林:武圣陵寝

在Fedora上部署Hadoop2.2.0伪分布式平台

泰山:五岳独尊

一 登录 crm Mobile 系统 : 输入 ShijiCare 用户名和密码, 登录系统, 如图所示 : 第 2 页共 32 页

Flink on YARN部署快速入门指南

国内26省市新能源汽车推广规划已出台

在Spring中使用Kafka:Producer篇

descargar crack de windows 7 ultimate 64 bits

北戴河:海阔天空

Isis Unveiled Pdf Free Download chayanne downgrade london stage militar mapsource

fl studio 12 crack dll files

books to read to improve english grammar

Hadoop元数据合并异常及解决方法

truck and trailer game free download full version

emtec wifi hdd password crack

Guava学习之CharSequenceReader


西岭雪山滑雪场

actia multidiag 2013 vci serial number

三种方法实现Hadoop(MapReduce)全局排序(1)

dental clinic software crack sites

据传-蚂蚁金服350亿美元开约A股IPO,马云身价又要暴涨

三种恢复 HDFS 上删除文件的方法

柳州化工股份有限公司

Grey Pdf El James Free Download visionabili personaggi crossing marina cracker

master the boards step 2 ck pdf free download

elitmus ph test preparation book

江门:中国第一侨乡

Apache Spark 2.4 新增内置函数和高阶函数使用介绍

是 喔, 就 是 那 個 在 BBS 醫 療 版 跟 你 嗆 聲, 自 稱 有 三 十 多 年 推 拿 經 驗 的 大 叔 嗎? 一 個 看 來 頗 為 清 秀 的 女 生 問 道, 她 語 氣 中 略 感 訝 異 是 啊, 什 麼 推 拿 按 摩 有 多 好, 還 要 人 生 病 盡 量 不 要

Spark作业代码(源码)IDE远程调试

教育扩张能改善收入分配差距吗?——来自CHNS2006年数据的证据

山水文化,市井人家——以湖州邱城小镇的概念性规划为例

(Microsoft Word \256\325\260\310\267|\304\263\260O\277\375_\252k\250\356_.doc)

Microsoft Word - 桂电教[2008]8号.doc

教育心理学教学案例分析

nb.PDF

The Theory Of Relativity Pdf Download stampare cient discorso furios selen rescue

Acer E 15 Graphics Driver Download. Mexico motor Picture redes original Jorge montana

廉政课堂

李 老 他 自 己 却 老 是 自 称 科 员, 老 说 我 李 科 员 怎 样 怎 样, 倒 好 像 这 是 一 个 值 得 他 夸 耀 的 什 么 官 衔 一 样 他 是 我 们 这 个 衙 门 里 资 格 最 老 的 科 员, 他 自 己 却 说 是 这 个 衙 门 里 最 没 有 出 息 的

untitled

鼓浪屿:懒得艳遇

TIA 222 G.pdf

call of duty modern warfare 2 skidrow crack only

Spark1.4中DataFrame功能加强,新增科学和数学函数

第一章

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

考 試 日 期 :2016/04/24 教 室 名 稱 :602 電 腦 教 室 考 試 時 間 :09: 二 技 企 管 一 胡 宗 兒 中 文 輸 入 四 技 企 四 甲 林 姿 瑄 中 文 輸 入 二 技 企 管 一

浪潮集团信息化文案

案例分享产品文档

>>ZIP>> Usmle Step 1 Question Books. place MotoGP Mogoda Lugar every arranque

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

(Microsoft Word - \244g\246a\247B\244\275\253H\245\365\244\247\275\325\254d\254\343\250s doc)

秘密大乘佛法(下)

國立臺東高級中學102學年度第一學期第二次期中考高一國文科試題

!! :!!??!!?!??!!!... :... :'?'?! :' ' :'?' :'?' :'!' : :? Page 2

Page 2 of 12

Microsoft Word - Sunday

鎶ョ焊0

<D2B0D0C4D3C5D1C52DC8CED6BEC7BF202D20BCC7CAC2B1BE>

Xcode 4.6 Dmg File. arts related Airway array tiene saison Site mentored

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

1984 Free Audio Book Download nokian70 veronica lirica uoloop

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

Windows XP

els0xu_zh_nf_v8.book Page Wednesday, June, 009 9:5 AM ELS-0/0C.8

Transcription:

如何下载整个网站用来离线浏览? 怎样将一个网站上的所有 MP3 文件保存到本地的一个目录中? 怎么才能将需要登陆的网页后面的文件下载下来? 怎样构建一个迷你版的 Google? wget 是一个自由的工具, 可在包括 Mac,Window 和 Linux 在内的多个平台上使用, 它可帮助你实现所有上述任务, 而且还有更多的功能 与大多数下载管理器不同的是,wget 可跟着网页上的 HTTP 链接, 递归地下载相关的文件 如果想及时了解 Spark Hadoop 或者 Hbase 相关的文章, 欢迎关注微信公共帐号 :iteblog_hadoop 使用 wget 爬取网站 -20 个实用例子 wget 是一个极为强大的工具, 但和大部分其它命令行程序一样, 它所支持的大量选项会吓跑新的用户 因而, 这里我们会列出一些 wget 命令, 以帮助你完成一些普通的任务, 包括下载单个文件和对整个网站做备份, 等 你如果有时间通读 wget 手册, 自然会大受裨益 但是对于忙碌的人们来说, 这里给出的却是随时可执行的命令 1 从网上下载单个文件 wget http://example.com/file.iso 2 下载一个文件, 但以不同的名字存为本地文件 wget --output-document=filename.html example.com 1 / 5

或 wget -O filename.html example.com 3 下载一个文件, 存到指定的目录 wget --directory-prefix=folder/subfolder example.com 4 恢复之前中断的 wget 下载 wget --continue example.com/big.file.iso wget -c example.com/big.file.iso 5 下载一个文件, 但只在服务器上的版本比本地版本新时才会真正执行 wget --continue --timestamping wordpress.org/latest.zip 6 用 wget 下载多个网址, 这些网址保存在一个文本文件中, 一行一个网址 wget --input list-of-file-urls.txt 7 从服务器下载一些以连续序号为文件名的文件 wget http://example.com/images/{1..20}.jpg wget http://example.com/images/pre-{1..20}-post.jpg 8 下载一个网页, 包括它所有的内容, 比如样式表和包含的图片, 它们是确保网页离线显示所必需的 wget -page-requisites --span-hosts --convert-links --adjust-extension http://example.com/dir/file wget -p -H -k -E http://example.com/dir/file 9 下载整个网站, 包括它所有链接的页面和文件 wget --execute robots=off --recursive --no-parent --continue --no-clobber http://example.com/ wget -e robots=off -r -np -c -nc http://example.com/ 10 从网站上一个子目录中下载所有 MP3 文件 wget --level=1 --recursive --no-parent --accept mp3,mp3 http://example.com/mp3/ wget -l 1 -r -np -A mp3,mp3 http://example.com/mp3/ 11 将一个网站上的所有图片下载到同一个目录中 2 / 5

wget --directory-prefix=files/pictures --no-directories --recursive --no-clobber --accept jpg,gif,png,jpeg http://example.com/images/ wget -P files/pictures -nd -r -nc -A jpg,gif,png,jpeg http://example.com/images/ 12 从一个网站上下载 PDF 文件, 采用递归的方式, 但不跳出指定的网域 wget --mirror --domains=abc.com,files.abc.com,docs.abc.com --accept=pdf http://abc.com/ wget -m -D abc.com,files.abc.com,docs.abc.com -A pdf http://abc.com/ 13 从一个网站上下载所有文件, 但是排除某些目录 wget --recursive --no-clobber --no-parent --exclude-directories /forums,/support http://example.com wget -r -nc -np -X /forums,/support http://example.com 14 下载网站上的文件, 假设此网站检查 User Agent 和 HTTP 参照位址 (referer) wget --referer=/5.0 --user-agent="firefox/4.0.1" http://nytimes.com 15 从密码保护网站上下载文件 wget --http-user=labnol --http-password=hello123 http://example.com/secret/file.zip 16 抓取登陆界面后面的页面 你需要将用户名和密码替换成实际的表格域值, 而 URL 应该指向 ( 实际的 ) 表格提交页面 wget --cookies=on --save-cookies cookies.txt --keep-session-cookies --post-data 'user=labnol&password=123' http://example.com/login.php wget --cookies=on --load-cookies cookies.txt --keep-session-cookies http://example.com/paywall 用 wget 获得文件细节 17 在不下载的情况下, 得到一个文件的大小 ( 在网络响应中寻找用字节表示的文件长度 ) wget --spider --server-response http://example.com/file.iso wget --spider -S http://example.com/file.iso 18 下载一个文件, 但不存储为本地文件, 而是在屏幕上显示其内容 wget --output-document=- --quiet google.com/humans.txt wget -O- -q google.com/humans.txt 3 / 5

如果想及时了解 Spark Hadoop 或者 Hbase 相关的文章, 欢迎关注微信公共帐号 :iteblog_hadoop 19 得到网页的最后修改日期 ( 检查 HTTP 头中的 Last Modified 标签 ) wget --server-response --spider http://www.labnol.org/ wget -S --spider http://www.labnol.org/ 20 检查你的网站上的链接是否都可用 spider 选项将令 wget 不会在本地保存网页 wget --output-file=logfile.txt --recursive --spider http://example.com wget -O logfile.txt -r --spider http://example.com 21 URL 特殊字符转义 wget "https://www.iteblog.com?weichat=iteblog_hadoop&from=blog" 或 wget https://www.iteblog.com?weichat=iteblog_hadoop\&from=blog wget 如何对服务器友好一些? wget 工具本质上是一个抓取网页的网络爬虫, 但有些网站主机通过 robots.txt 文件来屏幕这些网络爬虫 另外, 对于使用了 rel-nofollow 属性的网页,wget 也不会扒取它的链接 不过, 你可以强迫 wget 忽略 robots.txt 和 nofollow 指令, 只需在所有 wget 命令行中加上 execute robots=off 选项即可 如果一个网页主机通过查看 User Agent 字段来屏幕 wget 请求, 你也总是可以用 user-agent=mozilla 选项来伪装成火狐浏览器 wget 命令会增加网站服务器的负担, 因为它不断地追踪链接, 并下载文件 因而, 一个好的网页抓取工具应该限制下载速度, 而且还要在连接的抓取请求之间设置一个停顿, 以缓解服务器的负担 wget --limit-rate=20k --wait=60 --random-wait --mirror example.com 4 / 5

Powered by TCPDF (www.tcpdf.org) 在上面的示例中, 我们将下载带宽限制在了 20KB/s, 而且 wget 会在任意位置随机停顿 30s 至 90s 时间, 然后再开始下一次下载请求 最后是一个小测试, 你认为下列 wget 命令是干什么用的? wget --span-hosts --level=inf --recursive dmoz.org 本文翻译自 :All the Wget Commands You Should Know 本博客文章除特别声明, 全部都是原创! 转载本文请加上 : 转载自过往记忆 (https://www.iteblog.com/) 本文链接 : () 5 / 5