万能的 V2EX 伙伴们,怎么实现抓取个人博客文章

2018 年 9 月 23 日
 ChanghuiN

例如:自己博客用的 hexo 模板,但是被其他网站抓取了好多,
还有:掘金上分享博客链接,之后博客文章就被抓取到掘金了。
还有:safari 浏览器中看博客,可以点击地址栏的预览,可以直接预览博客的文章
等等。。

这些是什么实现的吗?
通过选择固定的 class 来抓取网页?
但是我的 class 改了之后 safari 浏览器中依然可以预览。。

万能的 V2EX 伙伴们,有没有相关的技术方案,来讨论一下 ~

4088 次点击
所在节点    程序员
15 条回复
creedowl
2018 年 9 月 23 日
之前研究过提取文章正文,发现有一些办法,比如计算文字密度
dreasky
2018 年 9 月 23 日
找到标点符号最多的 div
IvanLi127
2018 年 9 月 23 日
歪楼,我看成 万恶的 V2E....
rekulas
2018 年 9 月 23 日
readability 算法了解一下
Mogugugugu
2018 年 9 月 23 日
@dreasky 这个思路 不错😊
zhangZMZ
2018 年 9 月 23 日
万能?看见这个词语解不解答了。
我的万能岂能让你知道,无知的凡人,哼╭(╯^╰)╮!
yuanfnadi
2018 年 9 月 23 日
你把 class 的名字改成 footer 试试看


最近刚好在看 readability 的源码。


如果真的想抓 几乎不可能挡的住。
Tink
2018 年 9 月 24 日
解析 dom 呗
delectate
2018 年 9 月 24 日
常见的模板,写几个正则就够了,通吃 8 成网站;不常用的,readability。
2010
2018 年 9 月 24 日
看网站写规则就行
realpg
2018 年 9 月 24 日
@yuanfnadi #7
转成图片输出大法好
yuanfnadi
2018 年 9 月 24 日
@realpg ocr 大法
wuhuaji
2018 年 9 月 24 日
@rekulas 我真好也有此类需求,看到你说的 Readability,打开了思路,多谢:)
huangfs
2018 年 9 月 24 日
一般会有一套的模版的。
ChanghuiN
2018 年 9 月 25 日
@yuanfnadi mercury.postlight.com 这个网址,我通过 google 账号注册之后,为什么一直显示 YOUR KEY Fetching...
获取不到 KEY

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/492011

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX