Как включить встроенный модуль SCWS в ServBay
В качестве мощного интегрированного инструмента веб-разработки, ServBay поставляется с модулем SCWS, процесс активации которого очень прост. SCWS (Simple Chinese Word Segmentation) является высокоэффективным движком для сегментации китайского текста, который может быстро и точно разделять китайский текст, что делает его идеально подходящим для поисковых систем, анализа текста и других применений.
Введение в модуль SCWS
SCWS – это движок для сегментации китайского текста с открытым исходным кодом, специально разработанный для обработки китайского текста. Он сочетает в себе методы сопоставления словарей и статистических моделей, предоставляя эффективную и точную функцию сегментации. SCWS поддерживает не только обычные функции сегментации, но и извлечение ключевых слов, маркировку частей речи и другие продвинутые функции.
Основные характеристики
- Эффективная сегментация: SCWS использует высокоэффективные алгоритмы сегментации, которые могут быстро обрабатывать большие объемы китайского текста.
- Высокая точность: благодаря сочетанию сопоставления словарей и статистических моделей, SCWS имеет явное преимущество в точности сегментации.
- Поддержка множества функций: помимо базовых функций сегментации, SCWS поддерживает извлечение ключевых слов, маркировку частей речи и другие продвинутые функции.
- Легкость интеграции: SCWS предоставляет богатые API, разработчики могут легко интегрировать его в различные приложения.
- Открытый исходный код: SCWS является программой с открытым исходным кодом, разработчики могут адаптировать и расширять ее по мере необходимости.
Встроенная версия модуля SCWS в ServBay
ServBay поддерживает несколько версий PHP и предварительно устанавливает соответствующий модуль SCWS для каждой версии. Конкретные версии следующие:
- PHP 5.6 - 8.4: SCWS 1.2.3
Как включить модуль SCWS
По умолчанию модуль SCWS отключён. Шаги по активации модуля SCWS очень просты и требуют изменения конфигурационного файла соответствующей версии PHP. Вот подробные шаги:
Шаг первый: найти конфигурационный файл
Во-первых, найдите каталог conf.d
для соответствующей версии PHP. Например, чтобы включить модуль SCWS для PHP 8.3, нам нужно отредактировать следующий файл:
/Applications/ServBay/etc/php/8.3/conf.d/scws.ini
Шаг второй: отредактировать конфигурационный файл
Откройте файл scws.ini
и раскомментируйте следующие строки:
[scws]
; Разкомментируйте следующую строку, чтобы включить scws
extension = scws.so
scws.default.charset = gbk
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Шаг третий: перезапустите PHP сервис
На панели управления сервисами ServBay перезапустите соответствующую службу PHP. Например, перезапустите службу PHP 8.3. После перезагрузки модуль SCWS будет успешно загружен.
Проверка успешной загрузки модуля SCWS
Вы можете проверить, успешно ли загружен модуль SCWS, создав простой PHP файл. В корневом каталоге веб-сервера создайте файл phpinfo.php
со следующим содержимым:
<?php
phpinfo();
?>
2
3
Перейдите по адресу https://servbay.host/phpinfo.php
и на выведенной странице информации о PHP найдите информацию, связанную с модулем SCWS. Если вы видите соответствующую информацию о SCWS, это означает, что модуль был успешно загружен.
Создание словаря SCWS
Перед использованием SCWS для сегментации необходимо создать и настроить файл словаря. Словарь, используемый SCWS, может быть обычным текстовым файлом или двоичным файлом формата xdb. Вот шаги для создания словаря:
Шаг первый: подготовьте файл словаря
Создайте обычный текстовый файл, содержащий необходимые слова и частоту их использования. Формат файла следующий:
Слово1 Частота1
Слово2 Частота2
2
Например:
中国 1000
北京 800
上海 600
2
3
Сохраните этот файл как dict.txt
.
Шаг второй: создание словаря в формате xdb
SCWS предоставляет инструмент для создания словаря в формате xdb. Инструмент SCWS предварительно установлен с ServBay, и вы можете использовать следующую команду для создания файла xdb:
scws-gen-dict -i dict.txt -o dict.utf8.xdb
Эта команда преобразует dict.txt
в файл dict.utf8.xdb
.
Шаг третий: настройка SCWS на использование файла словаря
Поместите созданный файл dict.utf8.xdb
в каталог /Applications/ServBay/etc/scws
и убедитесь, что путь к словарю правильно настроен в файле scws.ini
:
[scws]
; Разкомментируйте следующую строку, чтобы включить scws
extension = scws.so
scws.default.charset = utf8
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Пример использования
После активации модуля SCWS и настройки словаря вы можете использовать SCWS для сегментации китайского текста в PHP коде. Вот простой пример:
Пример кода
<?php
// Инициализация SCWS
$scws = scws_new();
$scws->set_charset('utf8');
$scws->set_dict('/Applications/ServBay/etc/scws/dict.utf8.xdb');
$scws->set_rule('/Applications/ServBay/etc/scws/rules.utf8.ini');
// Текст для сегментации
$text = "我是中国人,我爱我的祖国。";
// Выполнение сегментации
$scws->send_text($text);
// Получение результата сегментации
while ($result = $scws->get_result()) {
foreach ($result as $word) {
echo $word['word'] . "\n";
}
}
// Освобождение ресурсов SCWS
$scws->close();
?>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
В приведенном выше коде мы сначала инициализируем SCWS, затем задаем кодировку, словарь и файл правил. Потом передаем текст для сегментации в SCWS и с помощью цикла получаем результаты сегментации. Наконец, освобождаем ресурсы SCWS.
Заключение
ServBay предоставляет удобный способ управления и включения модуля SCWS. С помощью простой настройки и перезагрузки операционных систем, разработчики могут быстро активировать модуль SCWS в различных версиях PHP, чтобы воспользоваться его высокоэффективными и точными функциями сегментации, что значительно повышает эффективность обработки китайского текста. Высокоэффективная сегментация, высокая точность и богатые функции SCWS делают его идеальным выбором для анализа и обработки китайского текста.