专职分辨日常抓取的html/xml,因为不方便用后缀名和magic number猜;现实简化的whatwg mimesniff spec算法。
不过这个算法到底有多准我还不确定,欢迎大家找实际案例帮忙测试。这种代码应该是很常写的,但是大家遇到的变态页面情况都不同,希望通过协作找到适合99.99%案例的算法。
https://github.com/bitinn/doc-sniff