在 ServBay 中使用 pg_jieba 实现 PostgreSQL 中文全文搜索

概述

对于英文等语言，PostgreSQL 的内置全文搜索功能通过基于空格和标点符号的词法分析（lexical analysis）即可有效工作。然而，中文文本没有天然的空格分隔，因此需要专门的**分词（Segmentation）**工具将连续的汉字序列切分成具有独立语义的词语。

pg_jieba 是一个针对 PostgreSQL 数据库的第三方扩展模块，它集成了流行的 **Jieba（结巴分词）**中文分词库。通过 pg_jieba，您可以在 PostgreSQL 中对中文文本进行高效、准确的分词处理，进而构建强大的中文全文搜索功能。

ServBay 作为一款集成的本地 Web 开发环境，已经为您预置了 pg_jieba 扩展，省去了编译和安装的繁琐步骤，使您能够快速在本地进行中文全文搜索的开发和测试。

本文将详细介绍如何在 ServBay 环境中启用、配置和使用 pg_jieba 扩展。

前提条件

在使用 pg_jieba 之前，请确保您已完成以下准备：

已在 macOS 系统上安装 ServBay，并且 PostgreSQL 数据库已成功运行。
了解基本的 PostgreSQL 数据库操作，包括如何连接数据库和执行 SQL 语句。

安装与启用 pg_jieba

ServBay 已经将 pg_jieba 扩展模块随 PostgreSQL 一同打包。您无需手动下载或编译，只需在目标数据库中执行简单的 SQL 命令即可启用它。

以下是启用 pg_jieba 扩展的步骤：

连接到您的 PostgreSQL 数据库：打开终端应用程序，使用 psql 命令行工具连接到您的 PostgreSQL 数据库。请将 your_username 替换为您的 PostgreSQL 用户名，将 your_database 替换为您的数据库名称。ServBay 默认的 PostgreSQL 用户和数据库通常是 servbay 或 postgres。
bash
```
psql -U your_username -d your_database
```
1
例如，使用默认用户和数据库：
bash
```
psql -U servbay -d servbay
```
1
创建并启用 pg_jieba 扩展：在 psql 命令行界面中，执行以下 SQL 命令：
sql
```
CREATE EXTENSION pg_jieba;
```
1
如果扩展已经创建过，再次执行此命令可能会报错，这是正常的。
验证 pg_jieba 扩展是否已启用：执行以下命令列出当前数据库中已安装的扩展：
sql
```
\dx
```
1
如果列表中包含 pg_jieba，则表示扩展已成功启用。

配置 pg_jieba 进行中文全文搜索

启用 pg_jieba 扩展后，您需要配置 PostgreSQL 的文本搜索（Text Search）功能，指定使用 pg_jieba 作为分词器。

配置文本搜索配置（Text Search Configuration）

文本搜索配置定义了如何处理文档以进行全文搜索，包括使用哪个解析器（parser）进行分词以及如何处理不同类型的词元（token）。

创建新的文本搜索配置：创建一个名为 chinese 的文本搜索配置，并指定使用 pg_jieba 作为其解析器。
sql
```
CREATE TEXT SEARCH CONFIGURATION chinese (PARSER = pg_jieba);
```
1
这个配置将指导 PostgreSQL 在处理文本时调用 pg_jieba 进行分词。
为分词结果添加映射（Mapping）： pg_jieba 解析器会根据词性（part of speech）生成不同类型的词元。为了让这些词元能够被索引和搜索，您需要将它们映射到特定的词典（dictionary）。在这里，我们将常见的词性（如名词 n, 动词 v, 形容词 a 等）映射到 PostgreSQL 内置的 simple 词典。simple 词典基本上不做任何转换，直接使用解析器（pg_jieba）输出的词元。
sql
```
ALTER TEXT SEARCH CONFIGURATION chinese ADD MAPPING FOR n,v,a,i,e,l WITH simple;
```
1
这里的 n,v,a,i,e,l 代表了 pg_jieba 可能识别出的一些词性标签。您可以根据需要添加或修改这些标签。常见的标签包括：
- n: 名词
- v: 动词
- a: 形容词
- i: 成语
- e: 叹词
- l: 习语
- nr: 人名
- ns: 地名
- nt: 机构团体
- nz: 其他专名
- m: 数词
- q: 量词
- t: 时间词
- s: 处所词
- f: 方位词
- p: 介词
- c: 连词
- u: 助词
- xc: 其他虚词
- w: 标点符号
- eng: 英文
- x: 非语素字
通常，您会希望索引和搜索名词、动词、形容词等具有实际意义的词汇。

使用 pg_jieba 进行全文搜索示例

配置完成后，您就可以使用 pg_jieba 进行中文全文搜索了。以下是一个简单的示例：

创建示例表和数据

首先，创建一个用于存储文档的表，并插入一些包含中文文本的示例数据。

创建表：

sql

CREATE TABLE documents (
    id SERIAL PRIMARY KEY,
    content TEXT
);

插入示例数据：

sql

INSERT INTO documents (content) VALUES
('我爱自然语言处理技术'),
('中文分词是文本处理的重要步骤'),
('pg_jieba是一个很好的中文分词工具，它基于结巴分词库'),
('ServBay 让本地开发变得简单高效');

创建全文搜索索引

为了提高搜索效率，特别是对于大量数据，强烈建议在用于全文搜索的列上创建索引。PostgreSQL 的 GIN (Generalized Inverted Index) 索引类型非常适合全文搜索。

创建 GIN 索引：使用 to_tsvector 函数结合我们之前创建的 chinese 配置，在 content 列上创建 GIN 索引。to_tsvector('chinese', content) 会将 content 字段的文本使用 chinese 配置（即 pg_jieba 分词器）转换成一个 tsvector 类型，这个类型是 PostgreSQL 用于全文搜索的内部表示。
sql
```
CREATE INDEX idx_gin_content ON documents USING gin (to_tsvector('chinese', content));
```
1

执行全文搜索查询

现在，您可以使用 to_tsquery 函数结合 @@ 运算符来执行全文搜索查询了。to_tsquery('chinese', 'your query') 会将您的搜索短语使用 chinese 配置转换成一个 tsquery 类型。@@ 运算符用于判断一个 tsvector 是否匹配一个 tsquery。

执行搜索查询：查找包含“中文”和“分词”这两个词的文档。

sql

SELECT
    id,
    content
FROM documents
WHERE to_tsvector('chinese', content) @@ to_tsquery('chinese', '中文 & 分词');

& 符号在 tsquery 中表示逻辑 AND。您也可以使用 | 表示逻辑 OR，! 表示逻辑 NOT。

例如，查找包含“ServBay”或“开发”的文档：

sql

SELECT
    id,
    content
FROM documents
WHERE to_tsvector('chinese', content) @@ to_tsquery('chinese', 'ServBay | 开发');

自定义词典

pg_jieba 使用 Jieba 分词库的默认词典进行分词。在某些特定场景下，您可能需要添加自定义词汇（例如专业术语、产品名称等），以提高分词的准确性。

您可以创建自定义词典文件，并配置 pg_jieba 使用它。

添加自定义词汇

创建自定义词典文件：在 ServBay 的配置目录下创建一个文本文件，例如：
plaintext
```
/Applications/ServBay/etc/pg_jieba/custom_dict.txt
```
1
请注意，这是一个建议的存放路径，您可以根据 ServBay 的实际安装结构和您的偏好选择合适的位置。
在自定义词典文件中添加词汇：使用文本编辑器打开 custom_dict.txt 文件，每行添加一个自定义词汇。您也可以选择性地在词汇后指定词频（frequency）和词性（tag），用空格分隔。格式为 词汇 [词频 [词性]]。词频越大，该词汇被分出来的可能性越高。
plaintext
```
自然语言处理 3 n
ServBay 5 eng
结巴分词库 3 n
```
1
2
3
这里的 3 n 表示“自然语言处理”这个词汇的词频是 3，词性是名词（n）。5 eng 表示“ServBay”词频 5，词性英文（eng）。
配置 pg_jieba 使用自定义词典：在您的 PostgreSQL 会话中，设置 pg_jieba.dict_path 参数指向包含您的自定义词典文件的目录。注意： pg_jieba.dict_path 通常指向词典所在的目录，而不是单个文件。如果您的自定义词典文件与主词典文件位于同一目录或 pg_jieba 配置中指定的词典目录下，则可能不需要修改此参数，或者 pg_jieba 的 ServBay 打包方式有特定配置。请参考 ServBay 关于 pg_jieba 的具体说明或实验确定正确的 dict_path 设置。
如果 ServBay 的 pg_jieba 配置允许直接指定自定义词典文件，或者您将自定义词典放在了 pg_jieba 默认会扫描的目录下，这一步的 SET 命令可能有所不同或不是必需的。以下命令是基于原始文档提供的方式，可能需要根据实际 ServBay 配置进行调整：
sql
```
SET pg_jieba.dict_path = '/Applications/ServBay/etc/pg_jieba/'; -- 假设 ServBay 将主词典放在这个目录，并将custom_dict.txt 放在此处
```
1
或者，如果 pg_jieba 的 dict_path 参数确实可以直接指定自定义词典文件（这是非标准的行为，但为了遵循原文）：
sql
```
SET pg_jieba.dict_path = '/Applications/ServBay/etc/pg_jieba/custom_dict.txt'; -- 谨慎使用，请根据 ServBay 实际配置验证
```
1
重要提示： SET 命令只在当前数据库会话中生效。要使其永久生效，您需要修改 PostgreSQL 的配置文件 postgresql.conf，在 pg_jieba.dict_path 参数中指定路径。

重新加载词典

修改自定义词典文件或 pg_jieba.dict_path 配置后，需要通知 pg_jieba 重新加载词典才能使更改生效。

重新加载词典：执行以下 SQL 函数：
sql
```
SELECT jieba_reload_dict();
```
1
执行成功后，后续的分词操作将使用更新后的词典。

常见问题解答 (FAQ)

问：执行 CREATE EXTENSION pg_jieba; 时提示错误 "extension "pg_jieba" is not available" 怎么办？ 答：这通常意味着 pg_jieba 扩展文件没有正确安装在 PostgreSQL 的扩展目录中，或者 PostgreSQL 没有找到它。在 ServBay 中，pg_jieba 应该已经预置。请确保您连接的是 ServBay 提供的 PostgreSQL 实例，并且 ServBay 安装没有损坏。如果问题持续存在，可以尝试重新启动 ServBay 或检查 ServBay 的日志文件。
问：自定义词典不生效怎么办？ 答：请检查以下几点：
1. 自定义词典文件路径是否正确，并且 PostgreSQL 用户有读取该文件的权限。
2. 自定义词典文件的格式是否正确，每行一个词汇，可选的词频和词性用空格分隔。
3. 您是否正确设置了 pg_jieba.dict_path 参数。请注意 SET 命令只在当前会话生效，如果需要在其他会话或重启后生效，需要修改 postgresql.conf。
4. 是否执行了 SELECT jieba_reload_dict(); 函数来重新加载词典。
5. 如果您修改了 postgresql.conf，是否重启了 PostgreSQL 服务。
问：全文搜索结果不准确怎么办？ 答：全文搜索的准确性取决于分词效果和搜索查询的构建。
1. 检查分词效果：可以使用 ts_debug('chinese', '您的文本') 函数来查看特定文本是如何被 chinese 配置分词的。这可以帮助您判断 pg_jieba 是否正确识别了词语，以及自定义词典是否生效。
2. 优化分词配置：调整 ALTER TEXT SEARCH CONFIGURATION chinese ADD MAPPING FOR ... WITH simple; 中包含的词性，排除掉一些不重要的词性（如助词、标点等）。
3. 优化搜索查询：检查 to_tsquery 中的查询词汇和逻辑运算符（&, |, !）是否正确表达了您的搜索意图。

总结

pg_jieba 是在 PostgreSQL 中实现中文全文搜索的强大工具。借助 ServBay 预置的 pg_jieba 扩展，开发者可以轻松地在本地环境中启用和配置中文分词功能。通过本文的步骤，您应该已经掌握了如何在 ServBay 中安装 pg_jieba，创建和配置文本搜索配置，执行基本的全文搜索查询，以及如何使用自定义词典来优化分词效果。将这些技术应用于您的项目中，可以显著提升中文内容的可搜索性。

在 ServBay 中使用 pg_jieba 实现 PostgreSQL 中文全文搜索 ​

概述 ​

前提条件 ​

安装与启用 pg_jieba ​

配置 pg_jieba 进行中文全文搜索 ​

配置文本搜索配置（Text Search Configuration） ​

使用 pg_jieba 进行全文搜索示例 ​

创建示例表和数据 ​

创建全文搜索索引 ​

执行全文搜索查询 ​

自定义词典 ​

添加自定义词汇 ​

重新加载词典 ​

常见问题解答 (FAQ) ​

总结 ​