如何把网页的内容拷贝下来?

如题所述

网页内容不能复制怎么办?

尊重知识产权,尊重劳动者和网站的合法权益!

为了帮助解决一些用户的燃眉之急,跟大家分享的一点点小伎俩。

很多人有过这样的经历:好容易找到了一篇心仪的文档,只让看,不让摸(下)。急死个人!

不是不想注册账号,因为注册了也未必能下载;

更不是不想花钱买下载券(豆),关键是着急用,怕耽误事儿(^_^)。

最好是能直接拷贝才够贴心。

可惜的是,很多网页的内容连拷贝都做不到。为此,作者给个建议,看官不妨一试。

绝大部分网页对内容复制的限制主要靠Java脚本功能实现的,只要想办法把这些脚本屏蔽掉就可以了。下面,分别就普通网页和百度文库的内容复制做一尝试。

拢共分三步:1、保存网页;2、编辑网页源文件(删除JavaScript);3、复制您想要的内容。

这三步中,最麻烦的就是删除JavaScript了。

一、普通网页内容的复制

(一)保存网页

浏览网页时,按下Ctrl+S,保存网页源文件。保存后的结果包括一个.html文件和一个_files文件夹。

如:某网页标题为“规范性文件的程序文件”,保存源文件的结果有两个:规范性文件的程序文件.html文件和规范性文件的程序文件_files文件夹。我们只关注.html文件,_files文件夹是网页上的图片等资源,只关注文字的话,这个文件夹不用理会,删除.html文件后,此文件夹一并消失。

(二)编辑网页源文件(删除JavaScript)

先打开Word或记事本等文字编辑工具,再在Word或记事本中打开“规范性文件的程序文件.html”文件。不能双击打开.html文件,因为.html文件一般默认用浏览器打开的,看不到.html文件的源内容。推荐使用Notepad++或UltraEdit等工具编辑,因为能提供行号。

1、按Ctr+F查找到您关注内容的开头几个字,记下行号。如图:

开头在第112行。

2、再按Ctr+F查找到您关注内容的结尾几个字。如图:

3、保留第本行至第112行间所有内容。

方法是,拷贝此行至上面第112行间所有内容,粘贴至一个新建文档,保存该文档为.html格式文件,名字假设为temp.html。

(三)复制您要的内容

双击temp.html文件,用浏览器打开之,一般情况下,您就可以随意复制了。可惜的是,网页中看到的文件格式如加粗、缩进等可能就没了,看官只好自己再排版了。

二、百度文库内容的复制

第一步仍然是保存网页源码,不再赘述。

关键是找到控制复制权限的JavaScript并删除之。

百度文库的JavaScript删除不能像普通网页那样,仅保留文档开都和结尾间的内容,否则新建的文件打开后,内容将乱得跟满天星似的。

删除步骤如下:

1、用Word或记事本打开源文件。

2、按Ctr+F查找到您关注内容的开头几个字,记下行号。如图:

开头在第638行。

3、按Ctr+F查找到“header-wrap”字符串,如图:

4、将“header-wrap”所在行(包括此行在内)至第638行间所有内容删除,之后,按Ctrl+S保存修改结果。

5、双击打开此源文件,您会发现文字可复制了。注意:打开此文件时,浏览器需要执行剩下的一些脚本语言以及其他原因,打开可能会慢一些,您只需看到自己想要的文字显示出来了,停止浏览器继续刷新即可。

同样非常可惜,复制百度文库内容的这个方法,也会损失文档的一些格式。更要命的是,有些文档是表格形式,而此方法只能复制其中的文字,表格复制不了,容我再研究一下,届时跟大家分享。

温馨提示:答案为网友推荐,仅供参考
相似回答