求一个面向非码农的爬虫入门 Tutorial

2016-02-10 11:04:57 +08:00
 gaocegege
最近身边好多法学啊,经济的同学问能不能学习一下爬虫的姿势,这样以后搜集资料就不需要老是复制粘贴这样的体力劳动了。于是就想来看看有木有符合这样需求的 tutorial ,大家可以 share 一下呢~
5712 次点击
所在节点    程序员
26 条回复
falcon05
2016-02-10 11:30:53 +08:00
自己做个爬虫系统,教他们写正则表达式
xcodebuild
2016-02-10 11:36:46 +08:00
@falcon05 正则表达式不适合处理爬下来的 HTML
wdlth
2016-02-10 11:40:12 +08:00
可以试试 XPath
gamexg
2016-02-10 11:40:40 +08:00
那么用 xpath ,有浏览器插件可以自动生成 xpath 表达式。
但是还是需要正则或* ? 做一些提取。
gaocegege
2016-02-10 11:51:43 +08:00
正则还是 Xpath ,都是需要教才能用的嘛,有什么教不会写代码的人用这样的技术的文档么 0;0
总不能来一个,教一个吧
WildCat
2016-02-10 11:56:02 +08:00
pyquery 比较适合?
fengxiang
2016-02-10 11:58:10 +08:00
直接用火车头得了
XadillaX
2016-02-10 12:19:51 +08:00
nodejs + cheerio
scarlex
2016-02-10 12:32:18 +08:00
试试 Nightmare.js
ericls
2016-02-10 12:45:24 +08:00
https://segmentfault.com/a/1190000002544142
写过一篇 面对入门的
ammzen
2016-02-10 12:56:48 +08:00
看楼主说到那些同学搜集资料时就不用老是复制粘贴的抱怨,我觉得他们需要的可能不是爬虫,而是快捷保存资料的工具。
Evernote 插件用好,完全可以保存重点内容与出处( URL )。
要么就去找选中即保存的那种工具,浏览完网页后,重要的东西都已经存下来了。
zog
2016-02-10 13:05:59 +08:00
我推荐你用 wget 这个命令行工具. 普通爬取工作都可以胜任. 非程序员编写爬虫很难. 爬虫是个很大很大的话题.
Tink
2016-02-10 14:11:14 +08:00
其实主要还是要教他们处理 js 生成的内容
Jimrussell
2016-02-10 14:31:31 +08:00
好的回答总是简单的,比如 7 楼。再加个按键精灵好了。
imn1
2016-02-10 15:27:39 +08:00
你需要搞清楚需求,你确定他们真的需要一个爬虫么?
他们可能更需要的是一个后台获取文档、前台截取主要部分(去除无关内容)的工具
个人觉得他们对文字阅读还是有必要的,但爬虫往往却是忽略“阅读”
可能一个离线浏览器+笔记类工具会更合适,文章采集器可能合适,不过我不太了解

同质(指 HTML 结构)少于 1000 都无必要学习爬虫,成本更高
先弄清需求吧
Exin
2016-02-10 16:00:08 +08:00
仔细想了想,我认为他们还是高估了爬虫的能力。也许他们只是需要 Google 提高搜索效率。
chemzqm
2016-02-10 18:12:00 +08:00
学校里论文系统不一定是基于 http 的,渲染也未必是基于 html 。
就算是 html 页面抓出来格式化,选取段落才是真正麻烦的地方
xavierskip
2016-02-10 18:22:17 +08:00
lemonda
2016-02-10 18:42:57 +08:00
@xavierskip
是这个么?
import.io
kslr
2016-02-10 18:45:25 +08:00
雇佣我

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/255972

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX