Update README.md

master
ZouJiu1 2023-07-03 19:28:38 +08:00 committed by GitHub
parent 032bf59d82
commit ff1eeadd97
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
1 changed files with 10 additions and 3 deletions

View File

@ -67,13 +67,13 @@ python.exe crawler.py --think
`
**爬取知乎回答**
默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**
默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**每个图片需要6s
`
python.exe crawler.py --answer
`
**爬取知乎的article**
默认的爬取每篇article的睡眠时间是**16s**以上这边实际爬取130多篇耗时平均是每篇 **33.096s**
默认的爬取每篇article的睡眠时间是**16s**以上这边实际爬取130多篇耗时平均是每篇 **33.096s**每个图片需要6s
`
python.exe crawler.py --article
`
@ -95,4 +95,11 @@ python.exe crawler.py --think --article --answer
### 爬取注意事项
1、需要较好的网速本机网速测验是下载100Mbps上传60Mbps低点也可以的不是太慢太卡就行[https://www.speedtest.cn/](https://www.speedtest.cn/)
2、爬取时设置了睡眠时间, 避免给知乎服务器带来太大压力,可以日间调试好,然后深夜运行爬取人少, 给其他小伙伴更好的用户体验, 避免知乎顺着网线过来找人,默认**6**s
2、爬取时设置了睡眠时间, 避免给知乎服务器带来太大压力,可以日间调试好,然后深夜运行爬取人少, 给其他小伙伴更好的用户体验, 避免知乎顺着网线过来找人,默认**6**s
### blogs
[https://www.aliyundrive.com/s/NikyVRJq8JV 阿里云分享的](https://www.aliyundrive.com/s/NikyVRJq8JV) `提取 0h3l`
[爬取知乎发布的想法和文篇和回答](https://zhuanlan.zhihu.com/p/641141948)
[爬取CSDN发布的文篇](https://zhuanlan.zhihu.com/p/641140892)
[https://zoujiu.blog.csdn.net/article/details/131514422](https://zoujiu.blog.csdn.net/article/details/131514422)
[https://zoujiu.blog.csdn.net/article/details/131521909](https://zoujiu.blog.csdn.net/article/details/131521909)