如果想在 V2EX 获得更好的推广效果，欢迎了解 PRO 会员机制：
https://www.v2ex.com/pro/about

如果你经常使用铜币置顶主题，持有 V2EX Solana Token 会在每日签到时获得额外铜币：
https://www.v2ex.com/solana

This topic created in 599 days ago, the information mentioned may be changed or developed.

网页可读内容抽取 API 数据接口

智能提取文章关键元素信息，智能抽取，多种元素信息。

gugudata_api_cover

1. 产品功能

Parry · 2024-12-03T09:13:29Z

网页可读内容抽取 API 数据接口智能提取文章关键元素信息，智能抽取，多种元素信息。 1. 产品功能智能提取网页可阅读内容；提供网页可阅读内容的 HTML 代码；支持传递网页 HTML 或网页 URL 参数；支持多种元素信息抽取，包括文章标题、作者、文字方向、语言、内容、内容（不包含 HTML 标签，按段落分割）、文章长度、文章摘要、网站名称、文章发布时间；秒级解析性能，支持高并发；数据持续更新与维护；全接口支持 HTTPS （ TLS v1.0 / v1.1 / v1.2 / v1.3 ）；全面兼容 Apple ATS ；全国多节点 CDN 部署；接口极速响应，多台服务器构建 API 接口负载均衡；接口调用状态与状态监控 2. API 文档接口详情: https://www.gugudata.com/api/details/readability 接口地址: https://api.gugudata.com/websitetools/readability 返回格式: application/json; charset=utf-8 请求方式: POST 请求协议: HTTPS 请求示例: https://api.gugudata.com/websitetools/readability 数据预览: https://www.gugudata.com/preview/readability 接口测试: https://api.gugudata.com/websitetools/readability/demo 3. 请求参数参数名参数类型是否必须默认值备注 appkey string 是 YOUR_APPKEY 付费后获取的 APPKEY html string 否 YOUR_VALUE 需要抽取的网页 HTML 内容，与参数 url 二选一 url string 否 YOUR_VALUE 需要抽取的网页 URL 地址，与参数 html 二选一。（我们不处理因源站反爬而不能正常请求网页内容进行后续处理的问题） 4. 返回参数参数名参数类型备注 DataStatus.RequestParameter string 接口请求参数 DataStatus.StatusCode int 接口返回状态码 DataStatus.StatusDescription string 接口返回状态说明 DataStatus.ResponseDateTime string 接口数据返回时间 DataStatus.DataTotalCount int 此条件下的总数据量，一般用于分页计算 Data.Title string 文章标题 Data.Byline string 文章作者 Data.Dir string 文章文字方向 Data.Lang string 文章语言 Data.Content string 文章内容 Data.TextContent string 文章内容（不包含 HTML 标签，按段落分割） Data.Length int 文章长度 Data.Excerpt string 文章摘要 Data.SiteName string 网站名称 Data.PublishedTime string[] 文章发布时间

智能提取网页可阅读内容；
提供网页可阅读内容的 HTML 代码；
支持传递网页 HTML 或网页 URL 参数；
支持多种元素信息抽取，包括文章标题、作者、文字方向、语言、内容、内容（不包含 HTML 标签，按段落分割）、文章长度、文章摘要、网站名称、文章发布时间；
秒级解析性能，支持高并发；
数据持续更新与维护；
全接口支持 HTTPS （ TLS v1.0 / v1.1 / v1.2 / v1.3 ）；
全面兼容 Apple ATS ；
全国多节点 CDN 部署；
接口极速响应，多台服务器构建 API 接口负载均衡；
接口调用状态与状态监控

2. API 文档

接口详情: https://www.gugudata.com/api/details/readability

接口地址: https://api.gugudata.com/websitetools/readability

返回格式: application/json; charset=utf-8

请求方式: POST

请求协议: HTTPS

请求示例: https://api.gugudata.com/websitetools/readability

数据预览: https://www.gugudata.com/preview/readability

接口测试: https://api.gugudata.com/websitetools/readability/demo

3. 请求参数

参数名	参数类型	是否必须	默认值	备注
appkey	string	是	YOUR_APPKEY	付费后获取的 APPKEY
html	string	否	YOUR_VALUE	需要抽取的网页 HTML 内容，与参数 url 二选一
url	string	否	YOUR_VALUE	需要抽取的网页 URL 地址，与参数 html 二选一。（我们不处理因源站反爬而不能正常请求网页内容进行后续处理的问题）

4. 返回参数

参数名	参数类型	备注
DataStatus.RequestParameter	string	接口请求参数
DataStatus.StatusCode	int	接口返回状态码
DataStatus.StatusDescription	string	接口返回状态说明
DataStatus.ResponseDateTime	string	接口数据返回时间
DataStatus.DataTotalCount	int	此条件下的总数据量，一般用于分页计算
Data.Title	string	文章标题
Data.Byline	string	文章作者
Data.Dir	string	文章文字方向
Data.Lang	string	文章语言
Data.Content	string	文章内容
Data.TextContent	string	文章内容（不包含 HTML 标签，按段落分割）
Data.Length	int	文章长度
Data.Excerpt	string	文章摘要
Data.SiteName	string	网站名称
Data.PublishedTime	string[]	文章发布时间

No Comments Yet

抽取 API 元素