Hướng Dẫn Sử Dụng zhparser
zhparser
là một mô-đun mở rộng bên thứ ba cho PostgreSQL, được thiết kế đặc biệt để xử lý văn bản tiếng Trung. Nó cung cấp các chức năng phân tích từ và tìm kiếm hiệu quả, phù hợp với các tình huống xử lý văn bản tiếng Trung khác nhau. ServBay đi kèm với scws
(Phân Khúc Từ Vựng Tiếng Trung Đơn Giản), zhparser
có thể sử dụng scws
để tạo từ điển tùy chỉnh. Bài viết này sẽ hướng dẫn chi tiết cách cài đặt và sử dụng zhparser
trong ServBay.
Cài Đặt zhparser
ServBay đã kèm sẵn mô-đun mở rộng zhparser
, bạn chỉ cần kích hoạt nó trong cơ sở dữ liệu. Dưới đây là các bước để kích hoạt zhparser
:
Kết nối với cơ sở dữ liệu PostgreSQL:
bashpsql -U your_username -d your_database
1Tạo mở rộng:
sqlCREATE EXTENSION zhparser;
1Xác minh cài đặt:
sql\dx
1
Cấu Hình zhparser
Sau khi kích hoạt zhparser
, bạn cần thực hiện một số cấu hình để nó có thể phân tích từ và tìm kiếm toàn văn bằng tiếng Trung một cách chính xác.
Cấu Hình Tìm Kiếm Văn Bản (Text Search Configuration)
Tạo cấu hình tìm kiếm văn bản:
sqlCREATE TEXT SEARCH CONFIGURATION chinese (PARSER = zhparser);
1Thêm từ điển:
sqlALTER TEXT SEARCH CONFIGURATION chinese ADD MAPPING FOR n,v,a,i,e,l WITH simple;
1
Sử Dụng zhparser Để Tìm Kiếm Toàn Văn
Dưới đây là một ví dụ về cách sử dụng zhparser
để tìm kiếm toàn văn.
Tạo Bảng và Dữ Liệu Mẫu
Tạo bảng:
sqlCREATE TABLE documents ( id SERIAL PRIMARY KEY, content TEXT );
1
2
3
4Chèn dữ liệu mẫu:
sqlINSERT INTO documents (content) VALUES ('我爱自然语言处理'), ('中文分词是文本处理的重要步骤'), ('zhparser是一个很好的中文分词工具');
1
2
3
4
Tạo Chỉ Mục Tìm Kiếm Toàn Văn
- Tạo chỉ mục GIN:sql
CREATE INDEX idx_gin_content ON documents USING gin (to_tsvector('chinese', content));
1
Thực Hiện Tìm Kiếm Toàn Văn
Thực hiện câu truy vấn tìm kiếm:
sqlSELECT * FROM documents WHERE to_tsvector('chinese', content) @@ to_tsquery('chinese', '中文 & 分词');
1
2Câu truy vấn này sẽ trả về các tài liệu chứa cả hai từ “中文” và “分词”.
Từ Điển Tùy Chỉnh
ServBay đi kèm với scws
, bạn có thể sử dụng scws
để tạo từ điển tùy chỉnh nhằm đáp ứng tốt hơn nhu cầu ứng dụng cụ thể.
Thêm Từ Vựng Tùy Chỉnh
Tạo tệp từ điển tùy chỉnh:
plaintext/Applications/ServBay/etc/scws/custom_dict.txt
1Thêm từ vựng vào tệp, mỗi dòng một từ:
plaintext自然语言处理 中文分词
1
2Cấu hình
zhparser
sử dụng từ điển tùy chỉnh:sqlSET zhparser.dict_path = '/Applications/ServBay/etc/scws/custom_dict.txt';
1
Tải Lại Từ Điển
- Tải lại từ điển:sql
SELECT zhprs_reload_dict();
1
Điều Chỉnh Chế Độ Phân Tích Từ
zhparser
hỗ trợ nhiều chế độ phân tích từ, bạn có thể điều chỉnh theo nhu cầu.
Đặt Chế Độ Phân Tích Từ
Đặt chế độ phân tích từ thành phân tích từ mức độ chi tiết nhất:
sqlSET zhparser.seg_with_duality = true;
1Đặt chế độ phân tích từ thành phân tích từ mức độ lớn nhất:
sqlSET zhparser.seg_with_duality = false;
1
Tóm Tắt
zhparser
là một công cụ phân tích từ tiếng Trung mạnh mẽ, thông qua cấu hình và sử dụng đơn giản, bạn có thể thực hiện tìm kiếm toàn văn hiệu quả bằng tiếng Trung trong PostgreSQL. ServBay đã kèm sẵn mô-đun mở rộng zhparser
và scws
, bạn có thể sử dụng scws
để tạo từ điển tùy chỉnh. Thông qua từ điển tùy chỉnh và điều chỉnh chế độ phân tích từ, bạn còn có thể tối ưu hóa hiệu quả phân tích từ để đáp ứng nhu cầu ứng dụng cụ thể.