请教一个抓取tweets的问题

比如现在有个URL：https://twitter.com/#!/sutar/status/170814521433276416
我使用Python的urllib2库进行抓取，设定了Cookie和UA信息。

由于该页面载入的时候twitter使用了跳转，所以用urlopen读取的页面不是所需要的页面，而是一个提示登录的页面。估计是twitter为了防止采集所采取的方式吧。

可是现在的确需要抓取该页面的信息，请问我该怎么做呢？
目前对于跳转的页面完全没思路啊，看response的信息也看不到门道。。求助！

laiwei

2012 年 3 月 7 日

嗯，twitter的消息，都是要经过用户授权的。

你可以申请一个appkey，然后做一个应用，让用户授权，然后你访问数据。

就是这么个过程，没有捷径^^

sutar

2012 年 3 月 7 日

@laiwei 是啊，原先也想过使用API，但是API的访问限制不满足需要啊。昨天不到半小时就采集了几千条tweets。用API肯定超额了。 :(
谢谢你了。

laiwei

2012 年 3 月 7 日

哈，你采集的是什么tweets呢？是自己的？其他用户的？

sutar

2012 年 3 月 7 日

@laiwei 当然不是自己的，自己的就好办了。。= =#

run2

2012 年 3 月 7 日

twitterfeed之类的服务呢，再采集他们的feed

toothpaste

2012 年 3 月 7 日

twitter提供RSS输出，可以试试抓取RSS,不许要认证
http://api.twitter.com/1/statuses/user_timeline.rss?screen_name={USERNAME}

例如：
http://api.twitter.com/1/statuses/user_timeline.rss?screen_name=google

tuoxie007

2012 年 3 月 7 日

redirecthandler

wynemo

2012 年 3 月 7 日

是不是该抓https://twitter.com/sutar/status/170814521433276416 呢

$ wget https://twitter.com/#!/sutar/status/170814521433276416 之后

cat 170814521433276416 |grep -P '<span class="entry-content">'

<span class="entry-content">I'm at 华联商厦(五道口店) (北京海淀区成府路28号 , 北京) <a href="http://t.co
/hKED0mQ9" target="_blank" class="tweet-url web" rel="nofollow noopener" class="twitter-timeline-link">t.co/hKED0mQ9</a></span>

直接抓那个带#的估计就是抓的首页吧。。。

tuoxie007

2012 年 3 月 7 日

@wynemo 同学，这个地址怎么和我在一栋呀

wynemo

2012 年 3 月 7 日

@tuoxie007 这个你就问楼主了

wynemo

2012 年 3 月 7 日

8l 写错了 wget https://twitter.com/sutar/status/170814521433276416即可

sutar

2012 年 3 月 7 日

@wynemo 啊谢谢你啊！貌似可以的！ :)

sutar

2012 年 3 月 7 日

@tuoxie007 咦？你在五道口购物中心？

tuoxie007

2012 年 3 月 8 日

@sutar ，我就是地下一层楼梯口卖糖葫芦的

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/28993

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.