万能的 V2EX 伙伴们,怎么实现抓取个人博客文章

2018-09-23 22:03:34 +08:00
 ChanghuiN

例如:自己博客用的 hexo 模板,但是被其他网站抓取了好多,
还有:掘金上分享博客链接,之后博客文章就被抓取到掘金了。
还有:safari 浏览器中看博客,可以点击地址栏的预览,可以直接预览博客的文章
等等。。

这些是什么实现的吗?
通过选择固定的 class 来抓取网页?
但是我的 class 改了之后 safari 浏览器中依然可以预览。。

万能的 V2EX 伙伴们,有没有相关的技术方案,来讨论一下 ~

3287 次点击
所在节点    程序员
15 条回复
creedowl
2018-09-23 22:29:01 +08:00
之前研究过提取文章正文,发现有一些办法,比如计算文字密度
dreasky
2018-09-23 23:12:54 +08:00
找到标点符号最多的 div
IvanLi127
2018-09-23 23:25:54 +08:00
歪楼,我看成 万恶的 V2E....
rekulas
2018-09-23 23:38:54 +08:00
readability 算法了解一下
Mogugugugu
2018-09-23 23:41:55 +08:00
@dreasky 这个思路 不错😊
zhangZMZ
2018-09-23 23:43:06 +08:00
万能?看见这个词语解不解答了。
我的万能岂能让你知道,无知的凡人,哼╭(╯^╰)╮!
yuanfnadi
2018-09-23 23:56:40 +08:00
你把 class 的名字改成 footer 试试看


最近刚好在看 readability 的源码。


如果真的想抓 几乎不可能挡的住。
Tink
2018-09-24 00:01:06 +08:00
解析 dom 呗
delectate
2018-09-24 06:17:51 +08:00
常见的模板,写几个正则就够了,通吃 8 成网站;不常用的,readability。
2010
2018-09-24 08:12:57 +08:00
看网站写规则就行
realpg
2018-09-24 11:56:29 +08:00
@yuanfnadi #7
转成图片输出大法好
yuanfnadi
2018-09-24 13:50:59 +08:00
@realpg ocr 大法
wuhuaji
2018-09-24 22:53:44 +08:00
@rekulas 我真好也有此类需求,看到你说的 Readability,打开了思路,多谢:)
huangfs
2018-09-24 23:34:19 +08:00
一般会有一套的模版的。
ChanghuiN
2018-09-25 09:58:23 +08:00
@yuanfnadi mercury.postlight.com 这个网址,我通过 google 账号注册之后,为什么一直显示 YOUR KEY Fetching...
获取不到 KEY

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/492011

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX