向量检索

核心功能

已经完成:

数据库设计：确保片段数据高效存储与管理。
用户登录：保障数据安全，防止未经授权的访问。
知识库管理：支持知识库的创建、更新和删除，便于用户维护内容。
文件拆分：将上传的文档拆分为片段，便于精细化管理。
片段向量化：通过向量化技术将片段转换为可计算的形式，便于相似度计算。
命中率测试：评估用户查询与片段的匹配效果。
文档与片段管理：支持对多个文档及其片段的高效管理。
问题管理：支持用户问题的增删改查操作。
应用管理：对应用及其参数进行管理和设置。

本节完成:

向量检索：从数据库中检索出语义相似的向量片段。
推理问答：基于搜索片段及用户问题生成自动化回答。

片段搜索功能

数据传输对象 (VO)

`ParagraphSearchResultVo`

package com.litongjava.maxkb.vo;

import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import lombok.experimental.Accessors;

@Data
@NoArgsConstructor
@AllArgsConstructor
@Accessors(chain = true)
public class ParagraphSearchResultVo {
  private Long id;
  private String content, title;
  private Long dataset_id;
  private String dataset_name;
  private Long document_id;
  private String document_name;
  private Boolean active;
  private Integer hit_num;
  private String status;
}

封装了片段搜索的结果，包括片段的基本信息及所属文档和数据集的相关信息。
使用 Lombok 注解简化代码。

搜索服务实现

`MaxKbParagraphSearchService`

package com.litongjava.maxkb.service;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

import com.litongjava.db.activerecord.Db;
import com.litongjava.db.activerecord.Row;
import com.litongjava.jfinal.aop.Aop;
import com.litongjava.maxkb.vo.ParagraphSearchResultVo;
import com.litongjava.openai.constants.OpenAiModels;
import com.litongjava.template.SqlTemplates;

import lombok.extern.slf4j.Slf4j;

@Slf4j
public class MaxKbParagraphSearchService {

  public List<ParagraphSearchResultVo> search(Long[] datasetIdArray, Float similarity, Integer top_n, String question) {
    Long vectorId = Aop.get(MaxKbEmbeddingService.class).getVectorId(question, OpenAiModels.text_embedding_3_large);

    String sql = SqlTemplates.get("kb.search_paragraph_with_dataset_ids");

    log.info("search_paragraph:{},{},{},{}", vectorId, Arrays.toString(datasetIdArray), similarity, top_n);

    List<Row> records = Db.find(sql, vectorId, datasetIdArray, similarity, top_n);

    List<ParagraphSearchResultVo> results = new ArrayList<>();
    for (Row row : records) {
      ParagraphSearchResultVo vo = row.toBean(ParagraphSearchResultVo.class);
      results.add(vo);
    }
    return results;
  }
}

向量生成：调用MaxKbEmbeddingService生成问题向量。
SQL 查询：从SqlTemplates加载查询模板并执行搜索。
结果封装：将查询结果转换为ParagraphSearchResultVo列表，供前端使用。

单元测试

`MaxKbParagraphSearchServiceTest`

package com.litongjava.maxkb.service;

import java.util.List;

import org.junit.Test;

import com.litongjava.jfinal.aop.Aop;
import com.litongjava.maxkb.config.DbConfig;
import com.litongjava.maxkb.vo.ParagraphSearchResultVo;
import com.litongjava.tio.boot.testing.TioBootTest;
import com.litongjava.tio.utils.json.JsonUtils;

public class MaxKbParagraphSearchServiceTest {

  @Test
  public void test() {
    TioBootTest.runWith(DbConfig.class);

    Long[] datasetIdArray = { 446225135519784960L };
    Float similarity = 0.2f;
    Integer top_n = 3;
    String question = "office hour";

    List<ParagraphSearchResultVo> result = Aop.get(MaxKbParagraphSearchService.class).search(datasetIdArray, similarity, top_n, question);

    System.out.println(JsonUtils.toJson(result));
  }
}

验证搜索功能的正确性。
定义测试用例参数并输出搜索结果的 JSON 表示。

搜索逻辑与 SQL 解析

搜索逻辑

接收用户查询并向量化。
构建 SQL 查询以获取相关片段。
根据相似度排序结果并限制返回数量。
返回封装后的结果。

SQL 查询模板

--# kb.search_paragraph_with_dataset_ids
SELECT
  sub.id,
  sub.content,
  sub.title,
  sub.status,
  sub.hit_num,
  sub.is_active,
  sub.dataset_id,
  sub.document_id,
  sub.dataset_name,
  sub.document_name,
  sub.similarity,
  sub.similarity AS comprehensive_score
FROM (
  SELECT
    d.name AS document_name,
    ds.name AS dataset_name,
    p.id,
    p.content,
    p.title,
    p.status,
    p.hit_num,
    p.is_active,
    p.dataset_id,
    p.document_id,
    (1 - (p.embedding <=> c.v)) AS similarity
  FROM
    max_kb_paragraph p
  JOIN
    max_kb_document d ON p.document_id = d.id
  JOIN
    max_kb_dataset ds ON p.dataset_id = ds.id
  JOIN
    max_kb_embedding_cache c ON c.id = ?
  WHERE
    p.is_active = TRUE
    AND p.deleted = 0
    AND ds.deleted = 0
    AND p.dataset_id = ANY (?)
) sub
WHERE
  sub.similarity > ?
ORDER BY
  sub.similarity DESC
LIMIT ?;

子查询：通过关联片段、文档、数据集及向量缓存表计算相似度。
过滤：只返回激活且未删除的片段。
排序与限制：按相似度降序排列，并限制返回数量。

结果解析示例

[
  {
    "id": "446228832295108608",
    "content": "I reserve the right to be offline after 6 pm and on Saturdays...",
    "dataset_name": "ICS 111",
    "document_name": "ICS111_31391_Miller_Syllabus_F24.pdf",
    "similarity": 0.85
  },
  ...
]

字段：
- id：片段 ID。
- content：片段内容。
- similarity：片段与问题的相似度。
- dataset_name 和 document_name：片段所属数据集和文档。

推理功能实现

数据交互流程

获取用户问题。
搜索相关片段。
构造提示词并请求大语言模型。
返回问答结果。

示例提示词模板

用户问题：{question}
相关片段：
1. {content1}
2. {content2}
...
请根据以上信息生成回答：

大语言模型处理

调用模型接口，传入用户问题和片段信息，生成回答。下一节将获详细介绍

总结

通过实现片段搜索与推理问答，系统能够提供高效且智能的问答服务。未来可扩展功能包括：

增强多语言支持。
提高嵌入模型的准确性。
实现更复杂的上下文推理能力。