Update README.md
parent
032bf59d82
commit
ff1eeadd97
11
README.md
11
README.md
|
@ -67,13 +67,13 @@ python.exe crawler.py --think
|
|||
`
|
||||
|
||||
**爬取知乎回答**
|
||||
默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**
|
||||
默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**,每个图片需要6s
|
||||
`
|
||||
python.exe crawler.py --answer
|
||||
`
|
||||
|
||||
**爬取知乎的article**
|
||||
默认的爬取每篇article的睡眠时间是**16s**以上,这边实际爬取130多篇,耗时平均是每篇 **33.096s**
|
||||
默认的爬取每篇article的睡眠时间是**16s**以上,这边实际爬取130多篇,耗时平均是每篇 **33.096s**,每个图片需要6s
|
||||
`
|
||||
python.exe crawler.py --article
|
||||
`
|
||||
|
@ -96,3 +96,10 @@ python.exe crawler.py --think --article --answer
|
|||
### 爬取注意事项
|
||||
1、需要较好的网速,本机网速测验是下载100Mbps,上传60Mbps,低点也可以的,不是太慢太卡就行[https://www.speedtest.cn/](https://www.speedtest.cn/)
|
||||
2、爬取时设置了睡眠时间, 避免给知乎服务器带来太大压力,可以日间调试好,然后深夜运行爬取人少, 给其他小伙伴更好的用户体验, 避免知乎顺着网线过来找人,默认**6**s
|
||||
|
||||
### blogs
|
||||
[https://www.aliyundrive.com/s/NikyVRJq8JV 阿里云分享的](https://www.aliyundrive.com/s/NikyVRJq8JV) `提取 0h3l`
|
||||
[爬取知乎发布的想法和文篇和回答](https://zhuanlan.zhihu.com/p/641141948)
|
||||
[爬取CSDN发布的文篇](https://zhuanlan.zhihu.com/p/641140892)
|
||||
[https://zoujiu.blog.csdn.net/article/details/131514422](https://zoujiu.blog.csdn.net/article/details/131514422)
|
||||
[https://zoujiu.blog.csdn.net/article/details/131521909](https://zoujiu.blog.csdn.net/article/details/131521909)
|
||||
|
|
Loading…
Reference in New Issue