# 爬取知乎的内容
考虑到将写的内容爬取下来,保存起来的避免误删,算是个备份的,而且方便查找,阅读起来也更方便,使用起来也好很多
## 亮点
1、保存**回答**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**,回答会保存提问和自己的回答
2、保存**article**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**
3、保存**想法**到text并保存相应的图片,最后对所有text进行汇总到一个档案
## LOG
-----------20230729 使用beautifulsoup库来进行解析网页,使用起来更加稳定的而且排版更加贴近网页,之前是使用的selenium
-----------202306 上传
### 爬取到的想法展示
按照发布时间分目录存放,保存了图片以及文本文件
点击即可进入think目录查看的
2023-01-21 13:01
### 爬取到的article展示
点击即可进入article目录查看的
每篇article都附带了修改时间和IP属地
保存到Markdown格式的数学公式、codes和图片
泰勒公式推导方式
c++_set运算符重载
保存到PDF格式的,标题下面是网址
### 爬取到的回答展示
点击即可进入answer目录查看的
每篇回答也附带了修改时间和IP属地
保存到Markdown格式的数学公式、codes和图片
矩阵A正定,证A的逆矩阵和伴随矩阵也正定
Visual_Studio_Code_怎么编写运行_C、C++_程序
保存到PDF格式的,标题下面是网址
## 环境以及安装
**win10** **python**
1、点击下面这个网页,安装miniconda也就是安装python,下载好以后安装即可,在安装时需要加入到系统环境变量,勾选下图第二个框即可。
[https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe](https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe)
2、接着需要修改python安装的路径,将msedgedriver\\.condarc这个档案放到根目录`C:\Users\username`即可,另外再打开一个cmd或者PowerShell
运行`conda clean -i`输入`Y`即可,此时Python已经可以使用了
3、安装Python相关的调用库,另外再打开一个cmd或者PowerShell,运行
cd C:\Users\usrname\zhihu
pip install -r .\requirement.txt
## 使用
### 1、登录
运行以下内容,这一步是**手动**操作,需要人工输入账号和密码,然后点击登录就行,登录以后会自动保存好cookie,以后爬取时就不用重复登录了,保存的cookie在这个目录的**cookie**,产生的档案是**cookie_zhihu.pkl**
python.exe crawler.py