数据库设计

项目目标

本项目旨在构建一个功能完备的 RAG（Retrieval-Augmented Generation）系统，主要目标包括：

知识库管理：支持创建、更新和删除知识库，便于用户高效维护内容。
文档处理：包括文档的拆分、片段的向量化处理，以提升检索效率和准确性。
问答系统：提供高效的向量检索和实时生成回答的能力，支持复杂汇总类问题的处理。
系统优化：通过统计分析和推理问答调试，不断优化系统性能和用户体验。

系统核心概念

在 RAG 系统中，以下是几个核心概念：

应用：知识库的集合。每个应用可以自定义提示词，以满足不同的个性化需求。
知识库：由多个文档组成，便于用户对内容进行分类和管理。
文档：系统中对应的真实文档内容。
片段：文档经过拆分后的最小内容单元，用于更高效的处理和检索。

功能实现步骤

数据库设计 查看 01.md
设计并实现项目所需的数据表结构与数据库方案，为后续的数据操作打下坚实基础。
用户登录 查看 02.md
实现了安全可靠的用户认证系统，保护用户数据并限制未经授权的访问。
模型管理 查看 03.md
支持针对不同平台的模型（如 OpenAI、Google Gemini、Claude）进行管理与配置。
知识库管理 查看 04.md
提供创建、更新及删除知识库的功能，方便用户维护与管理文档内容。
文档拆分 查看 05.md
可将文档拆分为多个片段，便于后续向量化和检索操作。
片段向量 查看 06.md
将文本片段进行向量化处理，以便进行语义相似度计算及高效检索。
命中率测试 查看 07.md
通过语义相似度和 Top-N 算法，检索并返回与用户问题最相关的文档片段，用于评估检索的准确性。
文档管理 查看 08.md
提供上传和管理文档的功能，上传后可自动拆分为片段便于进一步处理。
片段管理 查看 09.md
允许对已拆分的片段进行增、删、改、查等操作，确保内容更新灵活可控。
问题管理 查看 10.md
为片段指定相关问题，以提升检索时的准确性与关联度。
应用管理 查看 11.md
提供创建和配置应用（智能体）的功能，并可关联指定模型和知识库。
向量检索 查看 12.md
基于语义相似度，在知识库中高效检索与用户问题最匹配的片段。
推理问答调试 查看 13.md
提供检索与问答性能的评估工具，帮助开发者进行系统优化与调试。
对话问答 查看 14.md
为用户提供友好的人机交互界面，结合检索到的片段与用户问题实时生成回答。
统计分析 查看 15.md
对用户的提问与系统回答进行数据化分析，并以可视化图表的形式呈现系统使用情况。
用户管理 查看 16.md
提供多用户管理功能，包括用户的增删改查及权限控制。
API 管理 查看 17.md
对外提供标准化 API，便于外部系统集成和调用本系统的功能。
存储文件到 S3 查看 18.md
将用户上传的文件存储至 S3 等对象存储平台，提升文件管理的灵活性与可扩展性。
文档解析优化 查看 19.md
介绍与对比常见的文档解析方案，并提供提升文档解析速度和准确性的优化建议。
片段汇总 查看 20.md
对片段内容进行汇总，以提升总结类问题的查询与回答效率。
文档多分块与检索 查看 21.md
将片段进一步拆分为句子并进行向量检索，提升检索的准确度与灵活度。
多文档支持 查看 22.md
兼容多种文档格式，包括 .doc, .docx, .xls, .xlsx, .ppt, .pptx 等。
对话日志 查看 23.md
记录并展示对话日志，用于后续分析和问题回溯。
检索性能优化 查看 24.md
提供整库扫描和分区检索等多种方式，进一步提高检索速度和效率。
Milvus 查看 25.md
将向量数据库切换至 Milvus，以在大规模向量检索场景中获得更佳的性能与可扩展性。
文档解析方案和费用对比 查看 26.md
对比不同文档解析方案在成本、速度、稳定性等方面的差异，为用户提供更加经济高效的选择。
爬取网页数据 查看 27.md
支持从网页中抓取所需内容，后续处理流程与本地文档一致：分段、向量化、存储与检索。

以下内容分为两个部分：

润色后的完整文档（包含安装 pgvector、创建用户、数据库设计、各表结构及示例说明，并对原文做了整体的排版与表述优化）。
纠正并说明表结构解释中的错误（主要针对编号混乱、表名拼写、字段类型说明与实际建表语句不一致等问题）。

数据选型

前端：使用 MaxKB 前端
后端：采用 Java 进行开发
模型端：使用 OpenAI-4o-mini 系列模型
数据端：使用 PostgreSQL + pgvector 存储向量数据

1. 创建用户、授予权限及安装 `pgvector` 插件

以下步骤演示了在 PostgreSQL 中创建新用户和数据库，授予必要权限，并安装及测试 pgvector 插件的过程。

1.1 切换到 PostgreSQL 用户

su - postgres

1.2 连接到 PostgreSQL

psql

1.3 创建数据库和用户

在 psql 提示符下执行以下命令，以创建名为 max_kb 的数据库以及同名用户，并设置密码：

-- 创建数据库
CREATE DATABASE max_kb;

-- 创建用户并设置密码
CREATE USER max_kb WITH PASSWORD '00000000';

1.4 授予用户权限

-- 授予用户 max_kb 对数据库 max_kb 的所有权限
GRANT ALL PRIVILEGES ON DATABASE max_kb TO max_kb;

-- 切换到 max_kb 数据库
\c max_kb

-- 授予用户 max_kb 在 public 模式下创建表的权限
GRANT ALL PRIVILEGES ON SCHEMA public TO max_kb;

提示：在大多数情况下，无需更改 public 模式的所有者，除非有其他特殊需求。

1.5 安装并启用 `pgvector` 插件

安装插件（以基于 Debian/Ubuntu 的系统为例，需根据自身 PostgreSQL 版本调整命令）：
```
sudo apt-get update
sudo apt-get install postgresql-14-pgvector
```

启用插件：

-- 再次确保在 max_kb 数据库下
\c max_kb

CREATE EXTENSION IF NOT EXISTS vector;

验证是否成功启用：
```
SELECT * FROM pg_extension WHERE extname = 'vector';
```
如果能查询到返回结果，则表示扩展已启用。

1.6 测试 `pgvector`

在数据库中创建一个测试表，确认 vector 类型可用：

CREATE TABLE vector_test (
    id SERIAL PRIMARY KEY,
    v VECTOR(3)
);

如果能成功创建表，说明 pgvector 已正常启用。

2. 数据库设计

以下是本项目所需的主要数据表结构与示例创建脚本。

2.1 设计规范

主键：统一使用 64 位的雪花 ID（Snowflake ID），BIGINT 类型。
租户 ID：所有表均增加 tenant_id，默认为 0。
逻辑删除：多数表均包含 deleted 字段，建议使用 0 表示正常，1 代表已删除。实际生产环境中也可采用其他标志位或多租户/软删除策略。
时间戳：采用 TIMESTAMP WITH TIME ZONE 或 TIMESTAMP WITHOUT TIME ZONE 存储创建/更新时间，具体可视业务需求调整。

2.2 各表结构及示例

注意：以下脚本均采用默认的 public 模式。
编号仅用于顺序说明，实际建表顺序可根据依赖关系灵活调整。

表 1：`max_kb_user`

DROP TABLE IF EXISTS "public"."max_kb_user";

CREATE TABLE "public"."max_kb_user" (
  "id" BIGINT NOT NULL PRIMARY KEY,
  "email" VARCHAR,
  "phone" VARCHAR NOT NULL,
  "nick_name" VARCHAR NOT NULL,
  "username" VARCHAR NOT NULL,
  "password" VARCHAR NOT NULL,
  "role" VARCHAR NOT NULL,
  "is_active" BOOLEAN NOT NULL,
  "source" VARCHAR NOT NULL,
  "remark" VARCHAR(256),
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

-- 创建索引
CREATE INDEX "user_email_index_like" ON "public"."max_kb_user" USING btree (
  "email" varchar_pattern_ops
);
CREATE INDEX "user_username_index_like" ON "public"."max_kb_user" USING btree (
  "username" varchar_pattern_ops
);

-- 插入初始记录（管理员账户）
INSERT INTO "public"."max_kb_user"
VALUES (
  1,
  '',
  '',
  '系统管理员',
  'admin',
  '608fd4367502762e76a77ee348c9f1c7',
  'ADMIN',
  TRUE,
  'LOCAL',
  '',
  '',
  CURRENT_TIMESTAMP,
  '',
  CURRENT_TIMESTAMP,
  0,
  0
);

-- 备注：默认密码 “Kimi@2024” 的 MD5（或其他加密形式）

用途

存储用户账号信息：邮箱、电话、昵称、用户名、密码、角色、是否激活、备注等。

表 2：`max_kb_user_token`

DROP TABLE IF EXISTS "public"."max_kb_user_token";

CREATE TABLE "public"."max_kb_user_token" (
  "id" BIGINT NOT NULL PRIMARY KEY,
  "token" VARCHAR NOT NULL,
  "remark" VARCHAR(256),
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

用途

存储用户认证令牌、令牌备注等信息，用于管理用户登录、会话等。

表 3：`max_kb_model`

DROP TABLE IF EXISTS "public"."max_kb_model";

CREATE TABLE "public"."max_kb_model" (
  "id" BIGINT NOT NULL PRIMARY KEY,
  "name" VARCHAR NOT NULL,
  "model_type" VARCHAR NOT NULL,
  "model_name" VARCHAR NOT NULL,
  "provider" VARCHAR NOT NULL,
  "credential" VARCHAR NOT NULL,
  "user_id" BIGINT NOT NULL,
  "meta" JSONB,
  "status" VARCHAR,
  "permission_type" VARCHAR NOT NULL,
  "remark" VARCHAR(256),
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

CREATE INDEX "idx_user_id" ON "public"."max_kb_model" USING btree ("user_id");

用途

存储大模型的配置信息，包含模型名称、类型、提供方、密钥/凭证、元数据、状态、权限类型、归属用户等。

表 4：`max_kb_application`

DROP TABLE IF EXISTS "public"."max_kb_application";

CREATE TABLE "public"."max_kb_application" (
  "id" BIGINT PRIMARY KEY,
  "code" INT,
  "course_name" VARCHAR,
  "owner_name" VARCHAR,
  "state" INT,
  "name" VARCHAR NOT NULL,
  "desc" VARCHAR NOT NULL,
  "prompt" VARCHAR,
  "prologue" VARCHAR NOT NULL,
  "dialogue_number" INT NOT NULL,
  "dataset_setting" JSONB NOT NULL,
  "model_setting" JSONB NOT NULL,
  "problem_optimization" BOOLEAN NOT NULL,
  "model_id" BIGINT,
  "user_id" BIGINT NOT NULL,
  "icon" VARCHAR,
  "type" VARCHAR NOT NULL,
  "work_flow" JSONB,
  "show_source" BOOLEAN DEFAULT TRUE,
  "multiple_rounds_dialogue" BOOLEAN DEFAULT TRUE,
  "model_params_setting" JSONB NOT NULL,
  "stt_model_id" BIGINT,
  "stt_model_enable" BOOLEAN NOT NULL,
  "tts_model_id" BIGINT,
  "tts_model_enable" BOOLEAN NOT NULL,
  "tts_type" VARCHAR NOT NULL,
  "problem_optimization_prompt" VARCHAR,
  "tts_model_params_setting" JSONB,
  "clean_time" INT,
  "remark" VARCHAR(256),
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

CREATE INDEX "application_model_id" ON "public"."max_kb_application" USING btree ("model_id");
CREATE INDEX "application_stt_model_id" ON "public"."max_kb_application" USING btree ("stt_model_id");
CREATE INDEX "application_tts_model_id" ON "public"."max_kb_application" USING btree ("tts_model_id");
CREATE INDEX "application_user_id" ON "public"."max_kb_application" USING btree ("user_id");

用途

存储各类知识库应用的信息，包括前端配置、提示语、对话数量、关联模型、关联用户、语音识别/合成等配置。

表 5：`max_kb_application_access_token`

DROP TABLE IF EXISTS "public"."max_kb_application_access_token";

CREATE TABLE "public"."max_kb_application_access_token" (
  "application_id" BIGINT PRIMARY KEY,
  "access_token" BIGINT NOT NULL,
  "is_active" BOOLEAN NOT NULL,
  "access_num" INT NOT NULL,
  "white_active" BOOLEAN NOT NULL,
  "white_list" VARCHAR[] NOT NULL,
  "show_source" BOOLEAN NOT NULL,
  "remark" VARCHAR(256),
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

CREATE INDEX "max_kb_application_access_token_access_token" ON "public"."max_kb_application_access_token" USING btree ("access_token");

用途

应用对外提供的访问令牌管理表，支持访问次数统计、白名单配置、是否显示内容来源等。

表 6：`max_kb_task`

DROP TABLE IF EXISTS "public"."max_kb_task";

CREATE TABLE "public"."max_kb_task" (
  "id" BIGINT NOT NULL PRIMARY KEY,
  "file_id" BIGINT,
  "file_name" VARCHAR NOT NULL,
  "file_size" BIGINT,
  "dataset_id" BIGINT NOT NULL,
  "document_id" BIGINT,
  "progress" SMALLINT DEFAULT 0,
  "status" VARCHAR NOT NULL,
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITHOUT TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITHOUT TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT NOT NULL DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

用途

存储文件处理/任务相关的进度信息，如进度、状态、关联的数据集与文档等。

表 7：`max_kb_file`

DROP TABLE IF EXISTS "public"."max_kb_file";

CREATE TABLE "public"."max_kb_file" (
  "id" BIGINT PRIMARY KEY,
  "md5" VARCHAR(32) NOT NULL,
  "filename" VARCHAR(64) NOT NULL,
  "file_size" BIGINT NOT NULL,
  "user_id" BIGINT,
  "platform" VARCHAR(64) NOT NULL,
  "region_name" VARCHAR(32),
  "bucket_name" VARCHAR(64) NOT NULL,
  "file_id" VARCHAR(64),
  "target_name" VARCHAR(255) NOT NULL,
  "tags" JSON,
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITHOUT TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITHOUT TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT NOT NULL DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

用途

存储文件的基础信息（MD5 值、大小、文件名、上传位置、存储路径等），方便后续在对象存储或本地文件系统中查找。

表 8：`max_kb_dataset`

DROP TABLE IF EXISTS "public"."max_kb_dataset";

CREATE TABLE "public"."max_kb_dataset" (
  "id" BIGINT PRIMARY KEY,
  "name" VARCHAR NOT NULL,
  "desc" VARCHAR,
  "type" VARCHAR,
  "embedding_mode_id" BIGINT,
  "llm_mode_id" BIGINT,
  "meta" JSONB,
  "user_id" BIGINT,
  "remark" VARCHAR(256),
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

用途

用于管理各数据集元信息：名称、描述、类型、所使用的向量/Embedding 配置、归属用户等。

表 9：`max_kb_application_dataset_mapping`

DROP TABLE IF EXISTS "public"."max_kb_application_dataset_mapping";

CREATE TABLE "public"."max_kb_application_dataset_mapping" (
  "id" BIGINT PRIMARY KEY,
  "application_id" BIGINT NOT NULL,
  "dataset_id" BIGINT NOT NULL
);

用途

建立应用与数据集之间的关联关系：即一个应用可以关联多个数据集。

表 10：`max_kb_document`

DROP TABLE IF EXISTS "public"."max_kb_document";

CREATE TABLE "public"."max_kb_document" (
  "id" BIGINT NOT NULL PRIMARY KEY,
  "file_id" BIGINT,
  "user_id" BIGINT,
  "title" VARCHAR,
  "name" VARCHAR NOT NULL,
  "type" VARCHAR NOT NULL,
  "url" VARCHAR,
  "content" text,
  "char_length" INT,
  "status" VARCHAR,
  "is_active" BOOLEAN,
  "meta" JSONB,
  "dataset_id" BIGINT NOT NULL,
  "hit_handling_method" VARCHAR,
  "directly_return_similarity" FLOAT8,
  "paragraph_count" INT,
  "files" JSON,
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITHOUT TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITHOUT TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT NOT NULL DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

用途

管理文档的基础信息（文件关联、标题、字符数、索引状态等），以及分段方法、相似度直接返回的阈值或配置等。

状态值示例
由于此处为 VARCHAR 类型，常见做法是存储数字或关键字字符串。例如：

"0"：索引中
"1"：处理完成
"2"：识别中
"3"：排队中
"4"：生成问题中

具体可根据业务场景进行约定。

表 11：`max_kb_paragraph`

DROP TABLE IF EXISTS "public"."max_kb_paragraph";

CREATE TABLE "public"."max_kb_paragraph" (
  "id" BIGINT PRIMARY KEY,
  "source_id" BIGINT,
  "source_type" VARCHAR,
  "title" VARCHAR,
  "content" VARCHAR NOT NULL,
  "md5" VARCHAR NOT NULL,
  "status" VARCHAR,
  "hit_num" INT,
  "is_active" BOOLEAN,
  "dataset_id" BIGINT NOT NULL,
  "document_id" BIGINT NOT NULL,
  "embedding" VECTOR,
  "title_embedding" VECTOR,
  "meta" JSONB,
  "search_vector" TSVECTOR,
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

用途

存储文档的“段落”级别信息，包含文本内容、向量表示（embedding）、TS 向量（search_vector）等，便于向量搜索或全文检索。

表 12：`max_kb_sentence`

DROP TABLE IF EXISTS "public"."max_kb_sentence";

CREATE TABLE "public"."max_kb_sentence" (
  "id" BIGINT PRIMARY KEY,
  "type" INT,
  "content" VARCHAR NOT NULL,
  "md5" VARCHAR NOT NULL,
  "hit_num" INT NOT NULL,
  "dataset_id" BIGINT NOT NULL,
  "document_id" BIGINT NOT NULL,
  "paragraph_id" BIGINT NOT NULL,
  "embedding" VECTOR,
  "meta" JSONB,
  "search_vector" TSVECTOR,
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

用途

按“句子”维度拆分文档内容，通常在需要更精细的向量检索场景下使用。

type 字段示例

1：来自正文
2：段落摘要

表 13：`max_kb_problem`

DROP TABLE IF EXISTS "public"."max_kb_problem";

CREATE TABLE "public"."max_kb_problem" (
  "id" BIGINT PRIMARY KEY,
  "content" VARCHAR NOT NULL,
  "hit_num" INT NOT NULL,
  "dataset_id" BIGINT NOT NULL,
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

CREATE INDEX "max_kb_problem_dataset_id" ON "public"."max_kb_problem" USING btree ("dataset_id");

用途

存储常见或已识别的问题，便于后续做 FAQ 或查询等操作。

表 14：`max_kb_problem_paragraph_mapping`

DROP TABLE IF EXISTS "public"."max_kb_problem_paragraph_mapping";

CREATE TABLE "public"."max_kb_problem_paragraph_mapping" (
  "id" BIGINT PRIMARY KEY,
  "dataset_id" BIGINT NOT NULL,
  "document_id" BIGINT NOT NULL,
  "paragraph_id" BIGINT NOT NULL,
  "problem_id" BIGINT NOT NULL,
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

CREATE INDEX "max_kb_problem_paragraph_mapping_dataset_id"   ON "public"."max_kb_problem_paragraph_mapping" USING btree ("dataset_id");
CREATE INDEX "max_kb_problem_paragraph_mapping_document_id"  ON "public"."max_kb_problem_paragraph_mapping" USING btree ("document_id");
CREATE INDEX "max_kb_problem_paragraph_mapping_paragraph_id" ON "public"."max_kb_problem_paragraph_mapping" USING btree ("paragraph_id");
CREATE INDEX "max_kb_problem_paragraph_mapping_problem_id"   ON "public"."max_kb_problem_paragraph_mapping" USING btree ("problem_id");

用途

问题与段落的多对多关联，便于快速检索“某个问题可命中到哪些段落”的信息。

表 15：`max_kb_embedding_cache`

DROP TABLE IF EXISTS "public"."max_kb_embedding_cache";

CREATE TABLE "public"."max_kb_embedding_cache" (
  "id" BIGINT PRIMARY KEY,
  "t" TEXT,
  "m" VARCHAR,
  "v" VECTOR,
  "md5" VARCHAR
);

CREATE INDEX "idx_max_kb_embedding_cache_md5" ON "public"."max_kb_embedding_cache" USING btree ("md5");
CREATE INDEX "idx_max_kb_embedding_cache_md5_m" ON "public"."max_kb_embedding_cache" USING btree ("md5", "m");

用途

缓存文本与其向量表示的映射，以免重复向外部接口请求 Embedding。

表 16：`max_kb_document_markdown_cache`

DROP TABLE IF EXISTS "public"."max_kb_document_markdown_cache";

CREATE TABLE "public"."max_kb_document_markdown_cache" (
  "id" VARCHAR PRIMARY KEY,
  "target" VARCHAR,
  "content" TEXT
);

用途

存储文档转换为 Markdown 后的缓存结果，可用于预览或快速查阅。

表 17：`max_kb_document_markdown_page_cache`

DROP TABLE IF EXISTS "public"."max_kb_document_markdown_page_cache";

CREATE TABLE "public"."max_kb_document_markdown_page_cache" (
  "id" VARCHAR PRIMARY KEY,
  "target" VARCHAR,
  "content" TEXT,
  "elapsed" BIGINT,
  "model" VARCHAR,
  "system_fingerprint" VARCHAR,
  "completion_tokens" INT,
  "prompt_tokens" INT,
  "total_tokens" INT
);

用途

针对分页级别做 Markdown 缓存，以及与大模型的调用信息统计（tokens 等）。

表 18：`max_kb_application_chat`

DROP TABLE IF EXISTS "public"."max_kb_application_chat";

CREATE TABLE "public"."max_kb_application_chat" (
  "id" BIGINT PRIMARY KEY,
  "abstract" VARCHAR,
  "application_id" BIGINT NOT NULL,
  "client_id" BIGINT,
  "chat_type" INT NOT NULL,
  "is_deleted" BOOLEAN NOT NULL DEFAULT FALSE,
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

CREATE INDEX "max_kb_application_chat_application_id" ON "public"."max_kb_application_chat" USING btree ("application_id");

用途

存储应用的会话信息，区分调试会话、普通会话等。

chat_type

0：普通会话
1：调试会话

表 19：`max_kb_application_chat_record`

DROP TABLE IF EXISTS "public"."max_kb_application_chat_record";

CREATE TABLE "public"."max_kb_application_chat_record" (
  "id" BIGINT PRIMARY KEY,
  "vote_status" VARCHAR NOT NULL DEFAULT '-1',
  "problem_text" VARCHAR NOT NULL,
  "answer_text" VARCHAR,
  "message_tokens" INT NOT NULL,
  "answer_tokens" INT,
  "const" INT NOT NULL DEFAULT 0,
  "details" JSONB,
  "improve_paragraph_id_list" BIGINT[],
  "run_time" FLOAT8,
  "index" INT,
  "chat_id" BIGINT NOT NULL,
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

CREATE INDEX "max_kb_application_chat_record_chat_id" ON "public"."max_kb_application_chat_record" USING btree ("chat_id");

用途

存储具体的聊天记录内容、投票状态、Token 消耗情况等。

表 20：`max_kb_application_temp_setting`

DROP TABLE IF EXISTS "public"."max_kb_application_temp_setting";

CREATE TABLE "public"."max_kb_application_temp_setting" (
  "id" BIGINT PRIMARY KEY,
  "setting" JSONB
);

用途

临时存储应用的一些推理、配置等 JSON 格式数据。

表 21：`max_kb_paragraph_summary_cache`

DROP TABLE IF EXISTS "public"."max_kb_paragraph_summary_cache";

CREATE TABLE "public"."max_kb_paragraph_summary_cache" (
  "id" BIGINT PRIMARY KEY,
  "md5" VARCHAR,
  "src" TEXT,
  "content" TEXT,
  "elapsed" BIGINT,
  "model" VARCHAR,
  "system_fingerprint" VARCHAR,
  "completion_tokens" INT,
  "prompt_tokens" INT,
  "total_tokens" INT
);

用途

缓存段落摘要信息，包括原文 MD5、摘要内容、模型、耗时、Token 统计等。

表 22：`max_kb_application_public_access_client`

DROP TABLE IF EXISTS "public"."max_kb_application_public_access_client";

CREATE TABLE "public"."max_kb_application_public_access_client" (
  "id" BIGINT PRIMARY KEY,
  "access_num" INT NOT NULL,
  "intraday_access_num" INT NOT NULL,
  "application_id" BIGINT NOT NULL,
  "client_id" BIGINT,
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);

用途

公共访问客户端统计表，记录某应用被匿名/公共访问的次数、当日访问量等。

表 23：`libre_office_converted_mapping`

原脚本中名为 libre_office_converted_maping，存在拼写错误，建议修改为 libre_office_converted_mapping。

DROP TABLE IF EXISTS "public"."libre_office_converted_mapping";

CREATE TABLE "public"."libre_office_converted_mapping" (
  "id" BIGINT NOT NULL PRIMARY KEY,
  "input_file_id" BIGINT,
  "input_md5" VARCHAR,
  "output_file_id" BIGINT,
  "output_md5" VARCHAR,
  "remark" VARCHAR(256),
  "creator" VARCHAR(64) DEFAULT '',
  "create_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "updater" VARCHAR(64) DEFAULT '',
  "update_time" TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  "deleted" SMALLINT DEFAULT 0,
  "tenant_id" BIGINT NOT NULL DEFAULT 0
);