老板叫我人肉手工爬新浪微博

2016-04-01 11:58:44 +08:00
 ebony0319

http://weibo.com/p/1001018008644010000000000/checkin?page=4#Pl_Core_F4RightUserList__34 这个网址,显示的是在在广州这里签到过的人。老板想一个个把名字复制下来。我不知道怎么爬。只是找到把网页源代码复制下来然后用正则表达式选出来。但是一次性只能选 10 个人,效率好低啊。谁知道怎么解放双手么?

5472 次点击
所在节点    问与答
39 条回复
chens
2016-04-01 12:05:43 +08:00
运的一手好营~
ioriwong
2016-04-01 12:07:27 +08:00
我建议慢慢手工爬,这么爽拿工资的方式,实在难得
zymmm2
2016-04-01 12:08:41 +08:00
herozzm
2016-04-01 12:10:45 +08:00
请问你的职位称呼?
zythum
2016-04-01 12:11:34 +08:00
网页源代码复制 表达式选出来 10 个人。 你把这步骤写成自动化的不就好了....
icedx
2016-04-01 12:15:48 +08:00
royzheng
2016-04-01 12:36:24 +08:00
找个下载器 批量下载页面下来 再分析正则 done
ebony0319
2016-04-01 12:54:26 +08:00
@herozzm 严格来说,这是运营的工作,但是现在运营走了。只能抓我当壮丁。
ebony0319
2016-04-01 13:31:18 +08:00
@icedx 这是什么是啊。点进去什么都没有
kliy
2016-04-01 13:35:45 +08:00
@ebony0319 审核一下网页
xjchenhao
2016-04-01 13:40:18 +08:00
我用 node 爬过类似的, 你会 node 吗?
Tuccuay
2016-04-01 13:40:48 +08:00
http://open.weibo.com/wiki/2/place/pois/users

明明有接口为什么大家都想着去抓呢....这是为什么呢....
marcolee
2016-04-01 14:00:12 +08:00
不能直接爬,要先拿到 cookie ,请求时要带上 cookie 。因为他的 html 都是用 js 来生成的,所以要用 phantomjs 来解析。
ebony0319
2016-04-01 14:02:07 +08:00
@Tuccuay 已经提交,再等待审核,现在有更快的方法么?
Tuccuay
2016-04-01 14:17:29 +08:00
@ebony0319 你自己用不需要审核的....直接创建出来就能用....
wubotao
2016-04-01 14:41:09 +08:00
用 Python 爬一下网页不可以么,就是把手工的过程改成自动了。
icedx
2016-04-01 15:11:49 +08:00
@ebony0319
看不见咩? 那就是你没有灵根咯
thinkmore
2016-04-01 15:25:43 +08:00
正则没写好
ebony0319
2016-04-01 15:48:49 +08:00
@icedx 我看到你的东西了,主要是有这么多,就是几千页都信息怎么自动保持下来。
vidli2ex
2016-04-01 17:18:41 +08:00
愿意付费的话,私信我。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/267864

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX