一个简单的爬虫:网易的菜单,有兴趣的可以拿来练手

2015-10-09 17:52:11 +08:00
 yh7gdiaYW

网易杭州的菜单,公网的, ip 属于杭州电信。
目测没有什么防爬虫措施。
侵删(虽然应该不用保密)

url 格式为:
http://numenplus.yixin.im/singleNewsWap.do?materialId=14905

规律:
每周末或节假日末,集中更新下一周(到周日)的菜单, materialId 一般是连续的。
比如这次是 10.7 日更新了 14903,14904,14905,14906 ;

然后会更新一堆新闻之类的,比如 14920 ;
可能有一串 id 都是同一篇文章,比如 14800-14810 ;
有些 id 、过大的 id 对应的页面提示无内容。

3614 次点击
所在节点    程序员
8 条回复
kendetrics
2015-10-09 17:59:44 +08:00
饿了。。
tomine
2015-10-09 18:13:39 +08:00
哪里体现出了爬虫?
k1995
2015-10-09 18:16:56 +08:00
百度云爬虫路过, http://pan.whatsoo.com
yh7gdiaYW
2015-10-09 18:34:22 +08:00
@tomine
id 会跳跃,中间夹杂一堆无用内容
vivisidea
2015-10-09 18:52:47 +08:00
菜单都是骗人的。。。。
bozong
2015-10-09 19:00:26 +08:00
@k1995 这网站不错
Marfal
2015-10-09 19:05:19 +08:00
sandyfog
2015-10-10 14:06:02 +08:00
@k1995 不错,有好多资源都是可以的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/226673

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX