Go to file
ImgBotApp bf102dbc6e
[ImgBot] Optimize images
*Total -- 664.07kb -> 523.96kb (21.1%)

/assets/1571483423256.png -- 18.66kb -> 5.78kb (69.05%)
/assets/1571483552438.png -- 44.27kb -> 22.85kb (48.39%)
/assets/1571483479356.png -- 67.32kb -> 35.30kb (47.56%)
/assets/1571483777703.png -- 93.60kb -> 63.47kb (32.19%)
/assets/1571482112632.png -- 440.22kb -> 396.56kb (9.92%)

Signed-off-by: ImgBotApp <ImgBotHelp@gmail.com>
2019-10-19 11:25:05 +00:00
articles/ds19991999 commit demo 2019-10-19 19:23:00 +08:00
assets [ImgBot] Optimize images 2019-10-19 11:25:05 +00:00
.gitignore Initial commit 2019-10-19 18:54:26 +08:00
LICENSE Initial commit 2019-10-19 18:54:26 +08:00
README.md commit demo 2019-10-19 19:23:00 +08:00
cookie.txt commit demo 2019-10-19 19:23:00 +08:00
csdn.py commit demo 2019-10-19 19:23:00 +08:00
requirements.txt commit demo 2019-10-19 19:23:00 +08:00
tomd.py commit demo 2019-10-19 19:23:00 +08:00
username.txt commit demo 2019-10-19 19:23:00 +08:00

README.md

CSDN 爬虫脚本

主要功能:爬取 csdn 博客指定用户的所有博文并转换为 markdown 格式保存到本地。

一、运行环境

需要安装WebDriver驱动,https://chromedriver.chromium.org/downloads下载与本地对应的chrome驱动后,将其添加至环境变量$PATH

python3
python3 -m pip install -r requirements.txt

二、获取脚本

git clone https://github.com/ds19991999/csdn-spider.git

三、用法

1.获取cookie

登录 csdn 账号,进入:https://blog.csdn.net ,按 F12 调试网页,复制所有的 Request Headers,保存到cookie.txt文件中

1571482112632

2.添加需要爬取的 csdn 用户

username.txt中添加用户名,一行一个

3.运行脚本

python3 csdn.py

四、效果

运行过程

1571483423256

文章列表建立./articles/username/README.md

1571483552438

爬取的博文./articles/username/

1571483479356

博文转换效果

1571483777703

五、LICENSE

Creative Commons License

PS:随意写的爬虫脚本,佛系更新。