请教 Laravel 怎么提取一个页面中的特定内容(传说中的爬虫?)

2016-06-03 10:23:47 +08:00
 lissome
想要提取某个网站的一个页面上的特定内容,页面大体结构就是一些 div 、 table ,需要提取的是一个 table 中的内容, table 有 ID ,要提取的内容也有特定的 class

因为本身项目是 Laravel ,所以想也用 Laravel 实现,请指教一下思路?有什么包可以用?
5443 次点击
所在节点    问与答
11 条回复
xuxu
2016-06-03 10:26:29 +08:00
这跟 Laravel 没关系😄
lissome
2016-06-03 11:02:29 +08:00
@xuxu 和 PHP 有关系?
xummerj
2016-06-03 11:04:20 +08:00
这个你可以直接用 curl 获取内容,然后正则或者 PHP Simple HTML DOM 解析;
还有可以看看这相
https://github.com/FriendsOfPHP/Goutte
yangqi
2016-06-03 11:05:36 +08:00
和 laravel 没关系,看看 DomCrawler 这个包
jugelizi
2016-06-03 11:13:13 +08:00
Laravel 什么时候变爬虫了?
curl 抓取 [snoopy] 然后解析 [simple_html_dom_node]
lissome
2016-06-03 11:27:03 +08:00
@yangqi
@xummerj 谢谢指点

@jugelizi 并不是要用 Laravel 做爬虫,只是想在现有 Laravel 项目里实现一个这个功能
terranboy
2016-06-03 11:43:06 +08:00
goutte 不错 可惜是单线程
tagtag
2016-06-03 13:52:18 +08:00
file_get_contents+正则
Moker
2016-06-03 14:13:55 +08:00
phpQuery 用这个,语法和 JQ 一样 $('table').html()
icybee
2016-06-03 16:21:40 +08:00
进队列,后台守护进程抓去入库,推荐用各种 mq 实现
thenbsp
2016-06-03 20:05:10 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/283177

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX