老板叫我人肉手工爬新浪微博

2016-04-01 11:58:44 +08:00
 ebony0319

http://weibo.com/p/1001018008644010000000000/checkin?page=4#Pl_Core_F4RightUserList__34 这个网址,显示的是在在广州这里签到过的人。老板想一个个把名字复制下来。我不知道怎么爬。只是找到把网页源代码复制下来然后用正则表达式选出来。但是一次性只能选 10 个人,效率好低啊。谁知道怎么解放双手么?

5486 次点击
所在节点    问与答
39 条回复
prccn
2016-04-01 18:14:48 +08:00
叫老板开双份薪水:运营 + 爬手
xshf12345
2016-04-01 18:24:02 +08:00
python 写
FUCKEX2
2016-04-01 18:26:25 +08:00
愿意付费的话,私信我。 C++写~ so easy
lazarus
2016-04-01 18:33:39 +08:00
LZ 不是码农?
python 写个脚本简直分分钟啊
ebony0319
2016-04-01 18:47:45 +08:00
@vidli2ex
@FUCKEX2
@lazarus 可以哟,报价吧。
popok
2016-04-01 20:53:32 +08:00
@Tuccuay 大概看了下,这个广州好像是类似一个分类的大目录,没有具体的 poiid 的,这个 API 只能通过具体的 poiid 获取签到的列表,而且有频率限制。
虽然 api 方便简单,但是这里直接爬页面其实也不错的
binux
2016-04-01 21:05:13 +08:00
既然老板让你手动抓的,他还付你工资。。。
那你就一天写个自动的,然后说我一个月都在手动抓
ebony0319
2016-04-01 21:44:20 +08:00
@lazarus 在去年出车祸之前我还会 c , c++, lua , JAVA ……然后什么都很模糊了,记忆一些东西很困难。但是现在还是能够看得懂一些你们写的东西,谈论的一些话题。
4679kun
2016-04-01 22:09:13 +08:00
@ebony0319 神转进(´゚Д゚`)
techmoe
2016-04-01 22:40:55 +08:00
python 应该分分钟解决

啊如果付费明天我看下好了,正好这几天放假学生党赚点零花钱也不错 w
horizon
2016-04-01 23:06:02 +08:00
@ebony0319 哈哈哈,今日最佳
lazarus
2016-04-01 23:17:17 +08:00
@ebony0319 粗略写了下,需要把里面的 YOUR_COOKIE 替换成你的 cookie :
##################################
import requests, re, time

headers={
'Cookie': YOUR_COOKIE
}
base_url = 'http://weibo.com/p/1001018008644010000000000/checkin?page=%s'


def append_to_file(text, filename):
with open(filename, 'a') as f:
f.write(text)


def get_page(page):
r = requests.get(base_url % page, headers=headers)
print r.text.encode('utf-8')
return '\n'.join([x.encode('utf-8') for x in re.findall('<strong usercard=\\\\"[^"]+" >([^<]+)<\\\\/strong>', r.text)])


sleep_interval = 5
for p in xrange(1, 35612):
nicks = get_page(p)
retry_count = 0
while len(nicks) == 0:
retry_count += 1
time.sleep(retry_count * sleep_interval)
nicks = get_page(p)
append_to_file(nicks, 'data/nicks.txt')

##################################

weibo 有限流措施,懒得去研究怎么突破了,就用了最简单的 sleep + retry ,就放着慢慢跑就是了
如果需要我来帮你跑,回复我吧
lazarus
2016-04-01 23:18:03 +08:00
呃,代码缩进乱掉了
ebony0319
2016-04-01 23:33:31 +08:00
@lazarus 厉害哇。
ebony0319
2016-04-01 23:39:31 +08:00
@4679kun
@horizon 那时候晚上十点样子,一个女司机跟他老公在沿江大道试新车,结果把自己给撞死了,老公为了防止后面的车来就去拦车,大货车拦不住直接就撞死了。不知道哪个智商低的把那种木粱横在路上拦车,我发现的时候已经只有三米了。煞不住了,直接飞出去了。后面接连发生了几十起车祸,第四位后脑勺直接消去四分之一。
重点来了,深夜不要点图,不要点图,不要点图。当时的车祸拍照。 https://ssl.moefq.com/image/LqgCh
ebony0319
2016-04-01 23:43:11 +08:00
@lazarus 我可不可以厚颜无耻的请求你直接把一万个 id 发给我哇。
lazarus
2016-04-02 00:02:52 +08:00
@ebony0319 不好意思,这个只是示意行的代码,还是很简陋,我刚刚跑了下发现 111 页往后的内容获取不到了,暂时没时间去深究了
WhyLiam
2016-04-02 01:49:28 +08:00
火车头,妥妥的
wjfz
2016-04-02 01:57:33 +08:00
@ebony0319
卧槽,真事儿啊。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/267864

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX