继续推荐自己的爬虫,我会一直不断更新这个工程;

2017-05-10 10:29:59 +08:00
 intohole
上链接:
https://github.com/intohole/xspider


希望大家多关注,我会慢慢完善这个工程的,有需求可以给我提出 issue,谢谢大家
4507 次点击
所在节点    Python
21 条回复
guonning
2017-05-10 10:40:30 +08:00
整个 Google play 的爬虫
Morriaty
2017-05-10 10:51:20 +08:00
如果你的项目有明显优于`scrapy`的地方,那请重点介绍这个优点;

如果你只是想深入了解爬虫架构,那请配合分享你的开发博客,《深入理解爬虫架构》;

否则,你的这个项目,除了自己练手,没有任何可分享的意义。
yanzixuan
2017-05-10 11:04:44 +08:00
不是很推荐用 xpath 来提取信息,麻烦得很。用 beautifulsoup 或 pyquery 都好点。
xvx
2017-05-10 11:17:12 +08:00
难道 lz 这个还能智能爬不成?不用每个网站都搞个爬虫规则。
intohole
2017-05-10 14:25:24 +08:00
@xvx 可以看我另外个工程 sixgod 也在这个 github, 里面可以自动提取正文;如果有提取其它元素的话,可以提 issue
intohole
2017-05-10 14:25:57 +08:00
@yanzixuan 这里面支持 beautifulsoup ; 我只是没写文档
intohole
2017-05-10 14:27:09 +08:00
@Morriaty 谢谢意见,这个是我在做一个信息爬取工程,里面正在改进;文档 我会慢慢丰富起来
intohole
2017-05-10 14:27:48 +08:00
@guonning 谷歌市场?可以用这个里面写的,只需要你会写 xpath css selector 就可以了
intohole
2017-05-10 14:28:21 +08:00
@yanzixuan 后续我会加入 pyquery 的 ,谢谢你这个建议
3b295
2017-05-10 15:21:49 +08:00
@yanzixuan 我倒是觉得有时用 xpath 也很方便, 直接在浏览器中右键复制节点的 xpath, 在稍微改改就写出来了。
IanPeverell
2017-05-10 15:53:57 +08:00
楼主加油,不过……

感觉是在重复造轮子,因为功能不完善所以很轻,很多情况都没考虑到

scrapy 和 pyspider 已经很出色,再加上很多分支,已经很完美了,requests 也足够满足轻型 spider 的需求,所以除非以学习为目的,这种重复造轮子很浪费时间
intohole
2017-05-10 16:01:31 +08:00
@IanPeverell 肯定有些不同的,比如我现在抓取的时候 面临资源不足的情况,有自己的解决方案 ;
mikezhang0515
2017-05-10 16:31:54 +08:00
MSpider 也很好
IanPeverell
2017-05-10 16:42:19 +08:00
@intohole,然而资源不足只是 spider 很小的问题,更多的问题则在于反爬上,如果楼主能在这方面下功夫那这个框架的肯定不可小觑

anyway,还是很支持楼主将一个框架由小做大的,希望楼主能坚持下去
intohole
2017-05-10 16:42:21 +08:00
@mikezhang0515 我会参考这个工程的 ,thx
intohole
2017-05-10 16:42:47 +08:00
@IanPeverell 谢谢,我会加油的
faywong8888
2017-05-10 16:47:23 +08:00
技术这个行业,过去一个话题的开始是写一个:hello, world。
这个行业的现在变成了:从零写一个爬虫。
intohole
2017-05-10 17:09:55 +08:00
@faywong8888 什么项目不是从 0 开始的呢? 还有你觉得写爬虫架构很好写,写个队列,写个抓取器就完活了? 谢谢关注
Yc1992
2017-05-10 17:22:36 +08:00
加上一句,make the world a better place
xvx
2017-05-11 09:08:20 +08:00
@intohole sixgod 比较块密度进行爬取,这个思路以前看过,对结构简单的网站比较适用,复杂的还是很难搞吧。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/360303

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX