用python下载电子书的方法
1、这里下载biquge里面的一本电子书,书名是《两界搬运工》,代码是17_17115。之所以在这个网站下载,是因为这里的反爬措施不那么严厉,连续下载了一千二百七十七章,也没有出现封锁IP的现象。

3、用python读取目录页:import requests as rtimport reurl = '……biquge.com.tw/17_17115/'a = rt.get(url)print(a)如果返回<Response [200]>,就说明这个页面读取成功了。

5、上面没有明确指出编码格式,尝试使用gbk编码:a.encoding='gbk'然后读取目录页的源代码:b = a.text

7、提取每一章的标题,需要匹配汉字字符言射鐾钤串和空格:d = re.findall('</a>稆糨孝汶;</dd><dd><a href="/17_17115/\d+.html">([\u4e00-\u9fa5 ]+)',b)

9、这样,可以单独把正文的内容拿出来:w = re.findall('( &荏鱿胫协nbsp; .*?)<br />',v)但是,我们可以发现,段落开头的空格仍旧是 ,这样看着很难受是不是?因此,可以用' '替换

11、每一章保存为一个独立的txt文档;把所有txt文档都放到同一个文件夹里面——jia = u'C:\\Users\\Administrator\\Desktop\\两界搬运工\\'整体代码如下图所示。
