[入门实践] - 怎样用机器学习来提取网页正文

2018-09-18 11:51:34 +08:00
 polythene

这是我第一次用机器学习来解决实际问题。之前一直是知道很多理论知识,但没找到合适的项目练手,后来突然想到可以把我提取Hacker News正文的算法用机器学习重新实现一遍。

所以有了这篇 Notebook 笔记,希望能够抛砖引玉,启迪更多的人:

https://github.com/polyrabbit/hacker-news-digest/blob/master/%5Btutorial%5D%20How-to-extract-main-content-from-web-pages-using-Machine-Learning.ipynb

2441 次点击
所在节点    分享创造
4 条回复
ClutchBear
2018-09-18 12:11:43 +08:00
Newspaper3k ?
tshwangq
2018-09-18 13:46:49 +08:00
nice
polythene
2018-09-18 17:09:30 +08:00
@ClutchBear 哇,感谢分享!要是早点知道有这么神奇库,我就不用辛苦的发明轮子了,羡慕人家能把新闻分析做成这么成熟的库~

@tshwangq Thanks
GTim
2018-09-27 11:10:03 +08:00
过来膜拜下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/490387

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX