Jina Reader API
在搜索引擎返回的结果中,通常只包含网页的标题(title)、描述(description)和 URL,而不包含网页的实际内容。为了让大模型能更好地回答用户的问题,我们需要获取网页的完整内容。Jina Reader API 正是为此目的而设计的,它可以帮助你方便地读取网页的详细内容。
快速开始
请求示例
你可以使用 curl
命令来发送请求,读取指定网页的内容。以下示例展示了如何请求网页内容:
curl https://r.jina.ai/https://www.tio-boot.com/zh/01_tio-boot%20%E7%AE%80%E4%BB%8B/02.html \
-H "Authorization: Bearer jina_cf99cd628dd34559b21d1f967bfe6cceGqIE6CtNk0JmiZ2sslSu77E3FcYR" \
-H "X-Respond-With: readerlm-v2"
在上面的请求中:
- 请求地址由
https://r.jina.ai/
拼接上目标网页的 URL 构成; - 请求头
Authorization
中包含了 API Key; - 请求头
X-Respond-With
用于指定返回数据的格式或版本。
延迟说明
- 使用
readerlm-v2
: 读取延迟约为 54 秒。 - 不使用
readerlm-v2
: 读取延迟大约为 2.2 秒。
根据你的需求选择是否使用 readerlm-v2
。
返回数据示例
请求成功后,API 会返回如下格式的数据:
Title: Example Domain
URL Source: https://example.com/
Markdown Content:
This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.
[More information...](https://www.iana.org/domains/example)
返回结果中包含:
- Title: 网页标题;
- URL Source: 网页的原始 URL;
- Markdown Content: 网页内容的 Markdown 格式文本。
Java 客户端
对于 Java 开发者,java-openai
已经内置了 JinaReaderClient
,你可以直接在项目中调用该客户端来读取网页内容。以下是一个简单的测试示例:
import org.junit.Test;
import com.litongjava.jian.reader.JinaReaderClient;
import com.litongjava.tio.utils.environment.EnvUtils;
public class JinaReaderClientTest {
@Test
public void test() {
// 加载环境变量配置(例如:JINA_API_KEY)
EnvUtils.load();
// 使用 JinaReaderClient 读取指定 URL 的网页内容
String result = JinaReaderClient.read("https://www.tio-boot.com/zh/01_tio-boot%20%E7%AE%80%E4%BB%8B/02.html");
// 输出读取结果
System.out.println(result);
}
}
在该示例中:
- 通过
EnvUtils.load()
方法加载环境变量配置(例如:JINA_API_KEY
); - 使用
JinaReaderClient.read(url)
方法读取目标网页内容; - 最后将结果打印到控制台。
总结
Jina Reader API 为开发者提供了一种便捷的方式,从网页中提取详细内容,以便大模型能更好地理解和回答用户的问题。无论你是通过 curl
命令还是 Java 客户端,都能快速集成并使用该 API。
有关更多详细信息和最新更新,请访问 Jina Reader 官方文档。
通过以上文档,你可以快速上手使用 Jina Reader API,满足在大模型应用中对网页内容的读取需求。