ai-search Jina Reader API

在搜索引擎返回的结果中，通常只包含网页的标题（title）、描述（description）和 URL，而不包含网页的实际内容。为了让大模型能更好地回答用户的问题，我们需要获取网页的完整内容。Jina Reader API 正是为此目的而设计的，它可以帮助方便地读取网页的详细内容。

快速开始

请求示例

可以使用 curl 命令来发送请求，读取指定网页的内容。以下示例展示了如何请求网页内容：

curl https://r.jina.ai/https://www.tio-boot.com/zh/01_tio-boot%20%E7%AE%80%E4%BB%8B/02.html \
  -H "Authorization: Bearer jina_cf99cd628dd34559b21d1f967bfe6cceGqIE6CtNk0JmiZ2sslSu77E3FcYR" \
  -H "X-Respond-With: readerlm-v2"

在上面的请求中：

请求地址由 https://r.jina.ai/ 拼接上目标网页的 URL 构成；
请求头 Authorization 中包含了 API Key；
请求头 X-Respond-With 用于指定返回数据的格式或版本。

延迟说明

使用 readerlm-v2： 读取延迟约为 54 秒。
不使用 readerlm-v2： 读取延迟大约为 2.2 秒。

根据的需求选择是否使用 readerlm-v2。

返回数据示例

请求成功后，API 会返回如下格式的数据：

Title: Example Domain

URL Source: https://example.com/

Markdown Content:
This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.
[More information...](https://www.iana.org/domains/example)

返回结果中包含：

Title： 网页标题；
URL Source： 网页的原始 URL；
Markdown Content： 网页内容的 Markdown 格式文本。

Java 客户端

对于 Java 开发者，java-openai 已经内置了 JinaReaderClient，可以直接在项目中调用该客户端来读取网页内容。以下是一个简单的测试示例：

import org.junit.Test;
import com.litongjava.jian.reader.JinaReaderClient;
import com.litongjava.tio.utils.environment.EnvUtils;

public class JinaReaderClientTest {

  @Test
  public void test() {
    // 加载环境变量配置（例如：JINA_API_KEY）
    EnvUtils.load();
    // 使用 JinaReaderClient 读取指定 URL 的网页内容
    String result = JinaReaderClient.read("https://www.tio-boot.com/zh/01_tio-boot%20%E7%AE%80%E4%BB%8B/02.html");
    // 输出读取结果
    System.out.println(result);
  }
}

在该示例中：

通过 EnvUtils.load() 方法加载环境变量配置（例如：JINA_API_KEY）；
使用 JinaReaderClient.read(url) 方法读取目标网页内容；
最后将结果打印到控制台。

总结

Jina Reader API 为开发者提供了一种便捷的方式，从网页中提取详细内容，以便大模型能更好地理解和回答用户的问题。无论是通过 curl 命令还是 Java 客户端，都能快速集成并使用该 API。

有关更多详细信息和最新更新，请访问 Jina Reader 官方文档。

通过以上文档，可以快速上手使用 Jina Reader API，满足在大模型应用中对网页内容的读取需求。