想放弃了，这种挫败感，自学的障碍

本人小白，这几天自学 python 爬虫，爬单位内网 oa 。
各种不顺利啊，单位 oa 要工号密码登录，一段时间自动断开，同时是用 ajax 的动态网页。

起初学 python 一直用标准库， cookie 一直获取不到也登录不了，不知原因，后来发现 requests 第三方库好，又下载了，依然不成功。

下载了几本 python 书，看着作用不大，网上类似的教程看了也不成功， python 自带的文档看不太懂。

感觉自己还是因为学的不系统，直接拿来主义，很多东西都不是太了解，网页的基础知识欠缺，只知道 fiddler 抓包看看 post/get 。

折腾了几天，感觉没什么收获，只会爬爬简单的静态网站。单位都是采用 ajax 的 asp 网站，克服不了，这种挫败感让人想放弃。。。

lxy

2016-07-30 14:40:07 +08:00

我一直觉得爬虫不是新手能够随便上手的东西，简单的静态页面就罢了，遇到稍微复杂点的就容易懵逼。爬虫需要了解一些前端和后端的基础知识，至少知道整个请求交互过程是怎样起作用的。

dreamcog

2016-07-30 16:10:10 +08:00

慢慢来~~~以前看过一篇文章，讲如何成为编程高手。大概的意思是说，千万不要相信 XXX 上面的《 15 天精通 XXXX 》，《 7 天成为 XXX 高手》，真正成为一名编程高手需要 10 年。

最初做项目的时候，我从来没有学过程序，只会做设计和一些 HTML ，后来就自己学 PHP,JS,PYTHON 。直到今天我也会发现每天都在进步，都学习到更多的知识。最重要的事情是找一个 TODO 把要做的事情写下来，然后去一个一个攻克它，最后发现进步的还是自己。

一定需要兴趣，慢慢来的决心。

vtea

2016-07-30 16:13:21 +08:00

@loading 不知数据库密码。。
@phperstar 我也是这么想的，只是发现自己欠缺很多知识
@xiaoshangmin 大神。。。受我一拜
@xgfan 我改去学 ajax
@hellojinjie 恩，是的，有很多前辈的经验
@a412739861 这个我知道，只是很多看不懂
@terence4444 是的，抓普通网页保存到 txt 会弄，现在想抓单位的 oa 却不行了

vtea

2016-07-30 16:18:27 +08:00

@markx 恩，是的，渐进吧
@icedx 好的大神，求联系方式（手动斜眼）
@Ahri 恩，要学习的很多
@yamyamyuo 恩恩，谢谢指点
@buckyRRRR 因为基础学过 vb ，所以直接想用 python 了，发现遇到好多问题
@UnisandK 哦哦。一个 chrome 插件，我用 fiddler 抓包的
@lxy 对对，就是这个感觉，简单的静态网页还行，遇到复杂的就懵逼了
@wizardforcel 恩，谢谢指点
@gpw1987 个人感觉有目的驱动比较好，但是自己遇到了大难题，有种挫败感
@dreamcog 恩，慢慢来，谢谢指点

cfans1993

2016-07-30 16:21:23 +08:00

@dreamcog 我看的版本和你不一样, 我看是 30 天精通 java, 第一周学习基本语法, 第二周 io, 第三周多线程, 第四周研究时光穿梭机, 第 30 天穿越回 10 年前且杀死自己, 然后重新开始学习... :D 纯属娱乐

a412739861

2016-07-30 17:03:57 +08:00

@vtea 补充一下楼上的 Postman 是 chrome 的一个插件。
我用的时候是，开 develop tool 看页面结构，
使用方法，可以看一部分这个，虽然我也没看全： https://github.com/CN-Chrome-DevTools/CN-Chrome-DevTools
fiddler 抓包应该问题不大了。我还遇到过 js 加密的…… ajax 没遇见过，所以不是很了解。
我用的 requests+BeautifulSoup4 ，后者解析网页用的，不知道你这用不用的上。

tairan2006

2016-07-30 17:32:40 +08:00

看到标题我还在猜，楼主是在自学 Haskell/Scalar 还是 Rust 呢…

结果竟然是 Python 爬虫，这个其实不难的，动态网页你可以用无界面浏览器，等它加载完了不就是静态网页了。。

seandor

2016-07-30 17:33:33 +08:00

我也有过这种经历，以前想爬别人一个博客，我发现右键可以查看源文件里面显示的阅读量的数字，但是我爬虫却抓不到，然后就在网上问别人，别人告诉我这是动态的数据，还说什么 JSON 之类的。那时我连 JSON 是啥都不知道， AJAX 也不知道是啥。后来就放弃了。

不过最近有了一些新的感悟。我那时搞不定那个数据抓取的问题是因为我面前有一道知识断层，除非我花时间耐心地将这些知识补齐，我是很难跨越过去的。自学就很容易遇到类似的问题。

vtea

2016-07-30 18:04:58 +08:00

@tairan2006 咦，这些思路不错。。
@seandor 对、对，就是这样的，因为前面知识有断层，所以各种碰壁，现在开始补知识

Stupitch

2016-07-30 20:24:50 +08:00

直接上爬虫，当然问题多多，而且没有方向，先把 Python 基础掌握好了吧，到时候就能懂自己到底要干啥了

zzzreg

2016-07-30 20:30:11 +08:00

asp 的页面可能爬起来没有那么简单。。之前想爬学校一个设备管理的内部网站，看了一下点击每个链接都是 post 一个表单，表单里一堆莫名其妙的数据， url 根本没有变化。。所以你要去哪个页面必须先到主页，再一步一步点过去，保存书签也是不行的。目测是拿 vs 拖出来的，这种网页还真不好爬。。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/295959

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.