请大神们推荐一些关于 php 网络爬虫的书

2015-12-07 14:51:47 +08:00
 theKingOfTerrors

小弟的公司需要我去研究爬虫,但是网上的资料太过零散,买了一本《 WEBBOTS 、 SPIDERS 和 SCREEN SCRAPERS 技术解析与应用实践》,也从官网下载了这本书的一些 demo ,但是不知道是什么原因,一些代码运行不起来,也没有报错,也因为是中文版,所以翻译的一些地方看的不是很明白,请大神们帮忙推荐几本最好是 php 的书,小弟不会 python ,还请各位大神帮忙 推荐一些纯 PHP ,或者 php+python 入门的这些爬虫书籍,谢谢

7096 次点击
所在节点    PHP
44 条回复
knightdf
2015-12-07 15:54:19 +08:00
这还需要买书?
ihipop
2015-12-07 16:17:46 +08:00
与其从头写 不如站在巨人 @binux 的肩膀上 https://github.com/binux/pyspider
只要学习如何解析页面即可入门 例子一看就懂
ryd994
2015-12-07 16:37:12 +08:00
没见过 PHP+Python 的组合
PHP 做爬虫合适么?
usapla
2015-12-07 16:40:51 +08:00
@ryd994 我心里也是这么琢磨的一下, php 爬网页有个专门的函数 curl ,挺方便的,但是我没怎么用过
ryd994
2015-12-07 16:41:46 +08:00
@usapla curl 方便………
你一定没见过 urllib3 ,更没见过 requests
usapla
2015-12-07 16:46:32 +08:00
@ryd994 嗯...没有见过,因为在做 php , Python 学的不多,谢谢指点
Moker
2015-12-07 16:47:22 +08:00
php 的话 你可以去看下 phpquery
iyaozhen
2015-12-07 16:50:16 +08:00
@ryd994 额,我感觉 curl 很方便的,什么事都能干。还请指教。
当然我没做过大规模的爬虫。而且受环境限制 Python 只用过 urllib 、 urllib2 ,感觉不是很方便。
iyaozhen
2015-12-07 16:52:29 +08:00
@Moker 这东西很好,另外强烈推荐: https://github.com/bupt1987/html-parser
matsuijurina
2015-12-07 16:58:23 +08:00
PHP 并不是最适合写爬虫工具的语言。一定要用的话,推荐这本书 《 PHP Web Scraping 》。不过我觉得你迟早会回过头来找 python 的 beautifulsoup ,以及 javascript 的 phantomjs 的
theKingOfTerrors
2015-12-07 17:25:02 +08:00
@matsuijurina 谢谢,我看到了这本书,但是只找到了英文版,我的英语水平勉勉强强,看这种书,会很难理解,有中文版吗
theKingOfTerrors
2015-12-07 17:26:14 +08:00
@knightdf 菜鸟一枚,之前都没有弄过这些东西,还希望能够多多指教
shyling
2015-12-07 17:26:56 +08:00
@ryd994 curl 不方便吗=。=
zjyExcelsior
2015-12-07 17:48:47 +08:00
大神们一般会告诉你 -> 用 Python
jiehuangwei
2015-12-07 18:00:43 +08:00
用PHP写也还行,看个人的熟练程度了,大型的爬虫系统不局限于开发语言,而在于架构,通常说的爬虫大部分是抓取网页内容而已,用什么语言关系不是太大
lydhr
2015-12-07 18:04:15 +08:00
scrapy
theKingOfTerrors
2015-12-07 18:04:30 +08:00
@lydhr 这是什么东西
theKingOfTerrors
2015-12-07 18:05:02 +08:00
@jiehuangwei 就是因为不会啊,烦透了,买了一本书,里面有的 demo 不知道什么鬼
lydhr
2015-12-07 18:05:44 +08:00
@theKingOfTerrors 一个 framework ,教程很详细的[link]( http://scrapy.org/)
xiasix
2015-12-07 18:08:45 +08:00
curl 多线程+phpquery 研究透了 做爬虫没问题

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/241720

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX