爬虫练手项目推荐一个?

2018-05-16 02:41:05 +08:00
 sjmcefc2

想学习爬虫,能不能推荐一个小项目并说一下思路? 比如爬随便一家公司的财务报表?

4045 次点击
所在节点    Python
19 条回复
prasanta
2018-05-16 08:30:20 +08:00
中国商标局网的所有商标数据
nulIptr
2018-05-16 09:47:25 +08:00
所有主流直播网站的直播间(斗鱼熊猫虎牙战旗啥的)。。。然后搞出一个类似于导航网站的东西展示数据。。。
colincat
2018-05-16 11:29:06 +08:00
@prasanta 直接让他进阶高级吗?
colincat
2018-05-16 11:29:40 +08:00
LZ,推荐你新闻类网站吧,基本没什么难度,挺好
chesterzzy
2018-05-16 11:34:03 +08:00
爬虫这个东西,只要是公开的、合法的数据,都可以爬来练手,当然,要注意节制

关键还是解析页面和存储数据

实在不行,爬图呗,相信许多大兄弟都是从这一步开始爬虫的(是的我也是)
samding123
2018-05-16 11:49:59 +08:00
opengps
2018-05-16 13:23:43 +08:00
注意爬大站,别爬小站,小站本来资源有限,爬虫来了直接系统挂了,小心被站长发现揪出来吊打
sjmcefc2
2018-05-16 15:11:41 +08:00
@colincat 觉得直接上有意义的比较好,当然难道可能比较大
sjmcefc2
2018-05-16 15:12:44 +08:00
@chesterzzy 有没有国外的可以爬的?
sjmcefc2
2018-05-16 15:22:22 +08:00
@nulIptr 现在比较苦恼怎么把知识变成💰
colincat
2018-05-16 15:32:28 +08:00
@sjmcefc2 这样吧,给你出个题,抓知乎或者微信
chesterzzy
2018-05-16 17:03:49 +08:00
@sjmcefc2 国外的网络不稳定,有的甚至要上代理。

还是有点不理解楼主的意思,是想要一步到位搞个大工程?还是先随便练练手?

要是随便练练手的话,随便搞个新闻聚合啊,降价提醒啊,论文爬取啊,壁纸爬取啊,妹子图爬取啊什么的都可以啊。

要想搞个大工程,那考虑的东西就多了。cookie 啊,登录啊,验证码啊,ip 代理啊,反爬虫策略啊,分布式啊等等。

好了我牛逼吹完了。。。
sjmcefc2
2018-05-16 19:07:18 +08:00
@chesterzzy 能具体说说有哪些国外的可以爬吗?金融相关的有吗
sjmcefc2
2018-05-16 19:12:26 +08:00
@colincat 这个题目。。。具体爬哪方面呢?微信确实资源很多啊,可是都是加了好友才能怕下来吧
sjmcefc2
2018-05-16 19:44:21 +08:00
@chesterzzy 怎么节制?如果用 selenium 貌似不用节制吧,速度和人工差不多
whoami9894
2018-05-16 21:17:15 +08:00
难道标准的练手项目不是煎蛋吗
981764793
2018-05-17 20:42:21 +08:00
练手的话可以看看逼乎,比如爬个关注关系网,爬一下某个钓鱼问题下的所有图片,以及所有回答者的回答或提问下的回答的图
yy461530593
2018-05-18 09:18:40 +08:00
@sjmcefc2 国外的电商网站: https://www.endclothing.com/ ,爬商品列表跟商品详情试试
xiaoke0718
2018-07-02 22:21:17 +08:00
@opengps 你这句话确实?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/455138

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX