关于feed输出,请教一下。

2013-06-08 18:33:47 +08:00
 manoon
情况是酱纸滴,想抓某一个博客。
按照以往的思路,是直接写爬虫来爬目录然后爬文章的。
但是,今天突然发现。这个博客原来有FEED输出的。
这样子的话,工作就要轻松好多了。
FEED输出里面只有最近一个月的数据。我想爬去年以及历史的数据。
这个。。。。有没得什么法子?在FEED后面加一些参数可以取出来么?
www.xxooooxx.com/feeds/posts/default
2371 次点击
所在节点    问与答
8 条回复
haiyang416
2013-06-08 18:38:30 +08:00
你自己写过feed没,如果知道原理的话,就好办了。
是否支持时间参数要看那博客的作者,不过99%是没有的。
manoon
2013-06-08 18:41:04 +08:00
@haiyang416
没写过。FEED是自己写的?我一直以为FEED,是第三的一个服务。只要一使用就可以博客全文FEED输入了。
haiyang416
2013-06-08 18:46:02 +08:00
不是的,我打不开你那个地址,不知道是什么程序,如果是wp之类的开源程序就是没有的。
feed输出多少,是否全文输出都是博客程序决定的,不过我认为没有人会给个人博客feed加参数,还是爬吧。
manoon
2013-06-08 18:58:51 +08:00
@haiyang416 blogspot的
找到了一些资料。有些用处,哈哈。不过还是不尽如人意。

3.Other:有以下參數可下,中間用 & 做分隔
alt=rss:強制提供RSS,預設是ATOM
max-results=N:最多可提供N篇文章
start-index=N:從第N篇文章開始提供
orderby=published:提供文章以發表時間作為排序依據(預設是以修改的時間排序)
範例:提供完整內容的Feed,強制RSS 2.0,以發表時間排序,只提供前10篇文章。
caomu
2013-06-08 19:00:16 +08:00
趁现在Google Reader没有关,赶紧从里面扒历史数据。只要之前有人订阅过这个博客就行了,Google服务器会缓存这些数据(这也是为什么Google要关GR很多人惋惜),不过要是之前没人订阅过这个Blog的话,那此法不行。
输出历史条目: https://www.google.com/reader/atom/feed/[Feed地址]?n=1000 (Feed地址最好encode一下)

参:http://www.36kr.com/p/201886.html
manoon
2013-06-08 19:00:40 +08:00
搞定了。。。。
start-index=N 把这个值设置成“无穷大”或者其它合适的值就OKAY了。。谢谢。

PS:我又找不到V2EX的APPEND按钮了!!!!
manoon
2013-06-08 19:01:31 +08:00
@caomu

谢谢哈。。呵呵。刚搞定。
haiyang416
2013-06-08 19:15:17 +08:00
还是google 提供的功能丰富啊,哈哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/71732

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX