Update README.md
parent
0682c8d5dd
commit
8533e26590
20
README.md
20
README.md
|
@ -56,29 +56,29 @@ pip install -r .\requirement.txt</code><br>
|
||||||
<span style="color:#7a3e9d;">运行以后会弹出一个浏览器,自动打开知乎页面以后就可以开始登录,下图所示就是登录页面,两类登录方式都可以,只要能登录就行,<a style="color:black;"><b>点击登录以后,不要再操作页面,键盘或鼠标都不可以,登录时间默认给了130s时间,130秒以后会自动退出,然后查看目录cookie是否保存好cookie_zhihu.pkl,保存好就可以开始爬取了。</b></a></span>
|
<span style="color:#7a3e9d;">运行以后会弹出一个浏览器,自动打开知乎页面以后就可以开始登录,下图所示就是登录页面,两类登录方式都可以,只要能登录就行,<a style="color:black;"><b>点击登录以后,不要再操作页面,键盘或鼠标都不可以,登录时间默认给了130s时间,130秒以后会自动退出,然后查看目录cookie是否保存好cookie_zhihu.pkl,保存好就可以开始爬取了。</b></a></span>
|
||||||
<br>
|
<br>
|
||||||
<img src="./showimg/login.png" width="29%"/>
|
<img src="./showimg/login.png" width="29%"/>
|
||||||
<br>
|
|
||||||
### 2、每项单独爬取
|
### 2、每项单独爬取 <br>
|
||||||
爬取一旦开始就自动运行了,爬取窗口一般不能最小化,可以做其他事情的 <br>
|
爬取一旦开始就自动运行了,爬取窗口一般不能最小化,可以做其他事情的 <br>
|
||||||
**爬取知乎想法**
|
**爬取知乎想法** <br>
|
||||||
<br>
|
|
||||||
默认的爬取每篇想法的睡眠时间是 **6s*图片的数量** 以上
|
默认的爬取每篇想法的睡眠时间是 **6s*图片的数量** 以上 <br>
|
||||||
`
|
`
|
||||||
python.exe crawler.py --think
|
python.exe crawler.py --think
|
||||||
`
|
`
|
||||||
|
|
||||||
**爬取知乎回答**
|
**爬取知乎回答** <br>
|
||||||
默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**,每个图片需要6s
|
默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**,每个图片需要6s <br>
|
||||||
`
|
`
|
||||||
python.exe crawler.py --answer
|
python.exe crawler.py --answer
|
||||||
`
|
`
|
||||||
|
|
||||||
**爬取知乎的article**
|
**爬取知乎的article** <br>
|
||||||
默认的爬取每篇article的睡眠时间是**16s**以上,这边实际爬取130多篇,耗时平均是每篇 **33.096s**,每个图片需要6s
|
默认的爬取每篇article的睡眠时间是**16s**以上,这边实际爬取130多篇,耗时平均是每篇 **33.096s**,每个图片需要6s <br>
|
||||||
`
|
`
|
||||||
python.exe crawler.py --article
|
python.exe crawler.py --article
|
||||||
`
|
`
|
||||||
|
|
||||||
### 3、三项一起爬取的
|
### 3、三项一起爬取的 <br>
|
||||||
`
|
`
|
||||||
python.exe crawler.py --think --article --answer
|
python.exe crawler.py --think --article --answer
|
||||||
`
|
`
|
||||||
|
|
Loading…
Reference in New Issue