Update README.md

master
ZouJiu1 2023-07-03 19:38:23 +08:00 committed by GitHub
parent 0682c8d5dd
commit 8533e26590
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
1 changed files with 11 additions and 11 deletions

View File

@ -56,29 +56,29 @@ pip install -r .\requirement.txt</code><br>
<span style="color:#7a3e9d;">运行以后会弹出一个浏览器,自动打开知乎页面以后就可以开始登录,下图所示就是登录页面,两类登录方式都可以,只要能登录就行,<a style="color:black;"><b>点击登录以后不要再操作页面键盘或鼠标都不可以登录时间默认给了130s时间130秒以后会自动退出然后查看目录cookie是否保存好cookie_zhihu.pkl保存好就可以开始爬取了。</b></a></span> <span style="color:#7a3e9d;">运行以后会弹出一个浏览器,自动打开知乎页面以后就可以开始登录,下图所示就是登录页面,两类登录方式都可以,只要能登录就行,<a style="color:black;"><b>点击登录以后不要再操作页面键盘或鼠标都不可以登录时间默认给了130s时间130秒以后会自动退出然后查看目录cookie是否保存好cookie_zhihu.pkl保存好就可以开始爬取了。</b></a></span>
<br> <br>
<img src="./showimg/login.png" width="29%"/> <img src="./showimg/login.png" width="29%"/>
<br>
### 2、每项单独爬取 ### 2、每项单独爬取 <br>
爬取一旦开始就自动运行了,爬取窗口一般不能最小化,可以做其他事情的<br> 爬取一旦开始就自动运行了,爬取窗口一般不能最小化,可以做其他事情的 <br>
**爬取知乎想法** **爬取知乎想法** <br>
<br>
默认的爬取每篇想法的睡眠时间是 **6s*图片的数量** 以上 默认的爬取每篇想法的睡眠时间是 **6s*图片的数量** 以上 <br>
` `
python.exe crawler.py --think python.exe crawler.py --think
` `
**爬取知乎回答** **爬取知乎回答** <br>
默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**每个图片需要6s 默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**每个图片需要6s <br>
` `
python.exe crawler.py --answer python.exe crawler.py --answer
` `
**爬取知乎的article** **爬取知乎的article** <br>
默认的爬取每篇article的睡眠时间是**16s**以上这边实际爬取130多篇耗时平均是每篇 **33.096s**每个图片需要6s 默认的爬取每篇article的睡眠时间是**16s**以上这边实际爬取130多篇耗时平均是每篇 **33.096s**每个图片需要6s <br>
` `
python.exe crawler.py --article python.exe crawler.py --article
` `
### 3、三项一起爬取的 ### 3、三项一起爬取的 <br>
` `
python.exe crawler.py --think --article --answer python.exe crawler.py --think --article --answer
` `