Cách kích hoạt mô-đun SCWS đi kèm với ServBay
Là một công cụ phát triển web tích hợp mạnh mẽ, ServBay đi kèm với mô-đun SCWS và quá trình kích hoạt nó rất đơn giản. SCWS (Simple Chinese Word Segmentation) là một công cụ phân tích từ tiếng Trung hiệu quả, có khả năng phân tích từ tiếng Trung nhanh chóng và chính xác, rất phù hợp cho các ứng dụng như công cụ tìm kiếm, phân tích văn bản, v.v.
Giới thiệu mô-đun SCWS
SCWS là một công cụ phân tích từ tiếng Trung mã nguồn mở, được thiết kế chuyên biệt để xử lý văn bản tiếng Trung. Nó kết hợp phương pháp khớp từ điển và mô hình thống kê để cung cấp chức năng phân tích từ hiệu quả và chính xác. SCWS không chỉ hỗ trợ chức năng phân tích từ cơ bản mà còn hỗ trợ các chức năng cao cấp như trích xuất từ khóa, gán nhãn từ loại.
Đặc điểm chính
- Phân tích từ hiệu quả: SCWS sử dụng thuật toán phân tích từ hiệu quả, có thể xử lý nhanh chóng văn bản tiếng Trung quy mô lớn.
- Độ chính xác cao: Kết hợp phương pháp khớp từ điển và mô hình thống kê, SCWS có ưu thế rõ rệt về độ chính xác trong phân tích từ.
- Hỗ trợ nhiều chức năng: Ngoài chức năng phân tích từ cơ bản, SCWS còn hỗ trợ trích xuất từ khóa, gán nhãn từ loại và các chức năng cao cấp khác.
- Dễ dàng tích hợp: SCWS cung cấp nhiều API phong phú, cho phép các nhà phát triển dễ dàng tích hợp vào các ứng dụng khác nhau.
- Mã nguồn mở: SCWS là phần mềm mã nguồn mở, các nhà phát triển có thể tùy chỉnh và mở rộng theo nhu cầu.
Phiên bản mô-đun SCWS đi kèm với ServBay
ServBay hỗ trợ nhiều phiên bản PHP và đi kèm với mô-đun SCWS cho từng phiên bản tương ứng. Các phiên bản cụ thể như sau:
- PHP 5.6 - 8.4: SCWS 1.2.3
Cách kích hoạt mô-đun SCWS
Mặc định, mô-đun SCWS bị tắt. Các bước để kích hoạt mô-đun SCWS rất đơn giản, chỉ cần chỉnh sửa tệp cấu hình của phiên bản PHP tương ứng. Dưới đây là các bước chi tiết:
Bước 1: Tìm tệp cấu hình
Đầu tiên, tìm thư mục conf.d
tương ứng với phiên bản PHP. Ví dụ, để kích hoạt mô-đun SCWS cho PHP 8.3, chúng ta cần chỉnh sửa tệp sau:
/Applications/ServBay/etc/php/8.3/conf.d/scws.ini
Bước 2: Chỉnh sửa tệp cấu hình
Mở tệp scws.ini
và bỏ dấu chú thích ở các dòng sau:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = gbk
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Bước 3: Khởi động lại dịch vụ PHP
Trong bảng điều khiển quản lý dịch vụ của ServBay, khởi động lại dịch vụ PHP tương ứng. Ví dụ, khởi động lại dịch vụ PHP 8.3. Sau khi khởi động lại, mô-đun SCWS sẽ được tải thành công.
Xác minh mô-đun SCWS đã được tải thành công
Có thể tạo một tệp PHP đơn giản để xác minh xem mô-đun SCWS đã được tải thành công hay chưa. Tạo một tệp phpinfo.php
trong thư mục gốc của máy chủ web với nội dung như sau:
<?php
phpinfo();
?>
2
3
Truy cập https://servbay.host/phpinfo.php
, trên trang thông tin PHP, tìm thông tin liên quan đến mô-đun SCWS. Nếu thấy thông tin về SCWS, tức là mô-đun đã được tải thành công.
Tạo từ điển SCWS
Trước khi sử dụng SCWS để phân tích từ, cần tạo và cấu hình tệp từ điển. Tệp từ điển của SCWS có thể là tệp văn bản thông thường hoặc tệp nhị phân xdb. Dưới đây là các bước tạo từ điển:
Bước 1: Chuẩn bị tệp từ điển
Tạo một tệp văn bản thông thường, chứa các từ và tần số từ cần thiết. Định dạng tệp như sau:
từ 1 tần số 1
từ 2 tần số 2
2
Ví dụ:
Trung Quốc 1000
Bắc Kinh 800
Thượng Hải 600
2
3
Lưu tệp này dưới tên dict.txt
.
Bước 2: Tạo tệp từ điển định dạng xdb
SCWS cung cấp công cụ để tạo tệp từ điển định dạng xdb. Công cụ SCWS đã được cài sẵn cùng với ServBay, có thể sử dụng lệnh sau để tạo tệp xdb:
scws-gen-dict -i dict.txt -o dict.utf8.xdb
Lệnh này sẽ chuyển đổi tệp dict.txt
thành tệp dict.utf8.xdb
.
Bước 3: Cấu hình SCWS sử dụng tệp từ điển
Đặt tệp dict.utf8.xdb
vào thư mục /Applications/ServBay/etc/scws
và đảm bảo cấu hình đúng đường dẫn từ điển trong tệp scws.ini
:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = utf8
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Ví dụ sử dụng
Sau khi kích hoạt mô-đun SCWS và cấu hình từ điển, có thể sử dụng SCWS để phân tích từ trong mã PHP. Dưới đây là một ví dụ đơn giản:
Mã ví dụ
<?php
// Khởi tạo SCWS
$scws = scws_new();
$scws->set_charset('utf8');
$scws->set_dict('/Applications/ServBay/etc/scws/dict.utf8.xdb');
$scws->set_rule('/Applications/ServBay/etc/scws/rules.utf8.ini');
// Văn bản cần phân tích từ
$text = "我是中国人,我爱我的祖国。";
// Thực hiện phân tích từ
$scws->send_text($text);
// Lấy kết quả phân tích từ
while ($result = $scws->get_result()) {
foreach ($result as $word) {
echo $word['word'] . "\n";
}
}
// Giải phóng tài nguyên SCWS
$scws->close();
?>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Trong mã trên, trước tiên chúng ta khởi tạo SCWS và thiết lập bộ ký tự, từ điển và tệp quy tắc. Sau đó, chúng ta truyền văn bản cần phân tích từ cho SCWS và thông qua vòng lặp để lấy kết quả phân tích từ. Cuối cùng, giải phóng tài nguyên SCWS.
Kết luận
ServBay cung cấp cách tiện lợi để quản lý và kích hoạt mô-đun SCWS. Qua các thao tác cấu hình đơn giản và khởi động lại, các nhà phát triển có thể nhanh chóng kích hoạt mô-đun SCWS trong các phiên bản PHP khác nhau, từ đó tận dụng tối đa chức năng phân tích từ hiệu quả và chính xác của nó để nâng cao hiệu quả xử lý văn bản tiếng Trung. Chức năng phân tích từ hiệu quả, độ chính xác cao và nhiều chức năng phong phú của SCWS khiến nó trở thành lựa chọn tốt nhất cho việc phân tích và xử lý văn bản tiếng Trung.