Cách kích hoạt mô-đun SCWS đi kèm của ServBay
Là một công cụ phát triển web tích hợp mạnh mẽ, ServBay có mô-đun SCWS đi kèm và quá trình kích hoạt của nó rất đơn giản. SCWS (Simple Chinese Word Segmentation) là một công cụ phân tích từ tiếng Trung Quốc hiệu quả, có thể xử lý phân tích từ văn bản tiếng Trung nhanh chóng và chính xác, rất phù hợp cho các ứng dụng như công cụ tìm kiếm và phân tích văn bản.
Giới thiệu mô-đun SCWS
SCWS là một công cụ phân tích từ tiếng Trung mã nguồn mở, được thiết kế đặc biệt để xử lý văn bản tiếng Trung. Nó cung cấp chức năng phân tích từ hiệu quả và chính xác thông qua phương pháp kết hợp so khớp từ điển và mô hình thống kê. SCWS không chỉ hỗ trợ chức năng phân tích từ thông thường mà còn hỗ trợ các chức năng nâng cao như trích xuất từ khóa, gán nhãn từ loại.
Đặc điểm chính
- Phân tích từ hiệu quả: SCWS sử dụng thuật toán phân tích từ hiệu quả, có thể xử lý nhanh chóng văn bản tiếng Trung quy mô lớn.
- Độ chính xác cao: Bằng cách kết hợp so khớp từ điển và mô hình thống kê, SCWS có lợi thế rõ rệt về độ chính xác trong phân tích từ.
- Hỗ trợ nhiều chức năng: Ngoài chức năng phân tích từ cơ bản, SCWS còn hỗ trợ trích xuất từ khóa, gán nhãn từ loại và các chức năng nâng cao khác.
- Dễ dàng tích hợp: SCWS cung cấp API phong phú, các nhà phát triển có thể dễ dàng tích hợp vào các ứng dụng khác nhau.
- Mã nguồn mở: SCWS là phần mềm mã nguồn mở, các nhà phát triển có thể tùy chỉnh và mở rộng theo nhu cầu.
Phiên bản mô-đun SCWS đi kèm của ServBay
ServBay hỗ trợ nhiều phiên bản PHP và cài đặt sẵn mô-đun SCWS tương ứng cho từng phiên bản. Cụ thể như sau:
- PHP 5.6 - 8.4: SCWS 1.2.3
Cách kích hoạt mô-đun SCWS
Theo mặc định, mô-đun SCWS bị vô hiệu hóa. Các bước để kích hoạt mô-đun SCWS rất đơn giản, chỉ cần điều hướng đến Ngôn ngữ
- PHP
, chọn phiên bản PHP cần kích hoạt mô-đun, ví dụ PHP 8.4
, nhấp vào Mở rộng
ở phía bên phải, sau đó bật công tắc bên trái của mô-đun SCWS
, lưu lại là xong.
Người dùng cũng có thể tự tay mở hoặc sửa cấu hình mô-đun, sau đây là các bước chi tiết:
Bước một: Tìm tập tin cấu hình
Trước tiên, xác định thư mục conf.d
của phiên bản PHP tương ứng. Ví dụ, để kích hoạt mô-đun SCWS cho PHP 8.3, chúng ta cần chỉnh sửa tập tin sau:
/Applications/ServBay/etc/php/8.3/conf.d/scws.ini
Bước hai: Chỉnh sửa tập tin cấu hình
Mở tập tin scws.ini
, bỏ chú thích các nội dung sau:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = gbk
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Bước ba: Khởi động lại dịch vụ PHP
Trong bảng điều khiển quản lý dịch vụ của ServBay, khởi động lại dịch vụ PHP tương ứng. Ví dụ, khởi động lại dịch vụ của PHP 8.3. Sau khi hoàn tất khởi động lại, mô-đun SCWS sẽ được tải thành công.
Xác minh mô-đun SCWS có tải thành công hay không
Có thể tạo một tập tin PHP đơn giản để xác minh mô-đun SCWS đã tải thành công. Trong thư mục gốc của máy chủ Web, tạo một tập tin phpinfo.php
với nội dung như sau:
<?php
phpinfo();
?>
2
3
Truy cập https://servbay.host/phpinfo.php
, trên trang thông tin PHP đầu ra, tìm kiếm thông tin liên quan đến mô-đun SCWS. Nếu nhìn thấy thông tin về SCWS, điều đó có nghĩa là mô-đun đã được tải thành công.
Tạo từ điển SCWS
Trước khi sử dụng SCWS để phân tích từ, cần tạo và cấu hình tập tin từ điển. Tập tin từ điển sử dụng bởi SCWS có thể là tệp văn bản thường hoặc tệp định dạng nhị phân xdb. Dưới đây là các bước tạo từ điển:
Bước một: Chuẩn bị tập tin từ điển
Tạo một tệp văn bản thường, chứa các từ vựng và tần suất từ cần thiết. Định dạng tệp như sau:
từ vựng1 tần suất1
từ vựng2 tần suất2
2
Ví dụ:
Trung Quốc 1000
Bắc Kinh 800
Thượng Hải 600
2
3
Lưu tệp này thành dict.txt
.
Bước hai: Tạo tệp định dạng xdb cho từ điển
SCWS cung cấp công cụ để tạo tệp định dạng xdb cho từ điển. Công cụ SCWS đã được cài sẵn với ServBay, có thể dùng lệnh sau để tạo tệp xdb:
scws-gen-dict -i dict.txt -o dict.utf8.xdb
Lệnh này sẽ chuyển đổi tập tin dict.txt
thành tệp dict.utf8.xdb
.
Bước ba: Cấu hình SCWS sử dụng tập tin từ điển
Đặt tệp dict.utf8.xdb
vừa tạo vào thư mục /Applications/ServBay/etc/scws
và đảm bảo trong tập tin scws.ini
cấu hình đúng đường dẫn từ điển:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = utf8
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Ví dụ sử dụng
Sau khi kích hoạt mô-đun SCWS và cấu hình từ điển, có thể sử dụng SCWS để phân tích từ trong mã PHP. Dưới đây là một ví dụ đơn giản:
Mã mẫu
<?php
// Khởi tạo SCWS
$scws = scws_new();
$scws->set_charset('utf8');
$scws->set_dict('/Applications/ServBay/etc/scws/dict.utf8.xdb');
$scws->set_rule('/Applications/ServBay/etc/scws/rules.utf8.ini');
// Văn bản cần phân tích từ
$text = "我是中国人,我爱我的祖国。";
// Thực hiện phân tích từ
$scws->send_text($text);
// Lấy kết quả phân tích từ
while ($result = $scws->get_result()) {
foreach ($result as $word) {
echo $word['word'] . "\n";
}
}
// Giải phóng tài nguyên SCWS
$scws->close();
?>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Trong mã trên, trước tiên chúng ta khởi tạo SCWS và thiết lập mã ký tự, từ điển và tệp luật. Sau đó, truyền văn bản cần phân tích từ tới SCWS và qua vòng lặp để lấy kết quả phân tích từ. Cuối cùng, giải phóng tài nguyên SCWS.
Kết luận
ServBay cung cấp phương thức tiện lợi để quản lý và kích hoạt mô-đun SCWS. Thông qua cấu hình đơn giản và thao tác khởi động lại, các nhà phát triển có thể nhanh chóng kích hoạt mô-đun SCWS trong các phiên bản PHP khác nhau, từ đó tận dụng tối đa các chức năng phân tích từ hiệu quả và chính xác, nâng cao hiệu quả xử lý văn bản tiếng Trung. Khả năng phân tích từ hiệu quả, độ chính xác cao và nhiều chức năng của SCWS khiến nó trở thành lựa chọn hàng đầu cho việc phân tích và xử lý văn bản tiếng Trung.