Как включить встроенный модуль SCWS в ServBay
ServBay — мощный интегрированный инструмент для веб-разработки, поставляется с модулем SCWS, и процесс его активации очень прост. SCWS (Simple Chinese Word Segmentation) — это эффективный движок для сегментации китайских слов, который может быстро и точно обрабатывать китайский текст, что делает его идеальным для поисковых систем, текстового анализа и других приложений.
Введение в модуль SCWS
SCWS — это с открытым исходным кодом движок для сегментации китайских слов, специально разработанный для обработки китайского текста. Он использует метод, который сочетает словарное сопоставление и статистические модели, предоставляя эффективные и точные функции сегментации. SCWS не только поддерживает обычные функции сегментации, но и такие продвинутые функции, как извлечение ключевых слов и аннотация частей речи.
Основные особенности
- Эффективная сегментация: SCWS использует эффективный алгоритм сегментации, который может быстро обрабатывать большие объемы китайского текста.
- Высокая точность: благодаря комбинированию словарного сопоставления и статистических моделей, SCWS обладает значительным преимуществом в точности сегментации.
- Поддерживает множество функций: помимо основных функций сегментации, SCWS поддерживает такие продвинутые функции, как извлечение ключевых слов и аннотация частей речи.
- Легкость интеграции: SCWS предоставляет богатый API, который разработчики могут легко интегрировать в различные приложения.
- Открытый исходный код: SCWS — программное обеспечение с открытым исходным кодом, разработчики могут настраивать и расширять его по мере необходимости.
Версия модуля SCWS в ServBay
ServBay поддерживает несколько версий PHP и для каждой из них предустановлен соответствующий модуль SCWS. Конкретные версии следующие:
- PHP 5.6 - 8.4: SCWS 1.2.3
Как включить модуль SCWS
По умолчанию модуль SCWS отключен. Шаги для его включения очень просты: просто перейдите к разделу Язык
- PHP
, выберите версию PHP, для которой нужно включить модуль, например, PHP 8.4
, нажмите Расширения
справа и включите переключатель слева от модуля SCWS
, затем сохраните.
Пользователь также может вручную открыть или изменить конфигурацию модуля, вот подробные шаги:
Шаг первый: найдите конфигурационный файл
Сначала перейдите в каталог conf.d
соответствующей версии PHP. Например, чтобы включить модуль SCWS для PHP 8.3, нам нужно редактировать следующий файл:
/Applications/ServBay/etc/php/8.3/conf.d/scws.ini
Шаг второй: отредактируйте конфигурационный файл
Откройте файл scws.ini
и раскомментируйте следующие строки:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = gbk
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Шаг третий: перезапустите PHP сервис
На панели управления сервисами ServBay перезапустите соответствующий сервис PHP. Например, перезапустите сервис PHP 8.3. После перезапуска модуль SCWS будет успешно загружен.
Проверка успешной загрузки модуля SCWS
Можно создать простой PHP файл, чтобы проверить, загружен ли модуль SCWS. Создайте файл phpinfo.php
в корневом каталоге веб-сервера со следующим содержимым:
<?php
phpinfo();
?>
2
3
Посетите https://servbay.host/phpinfo.php
и найдите информацию о модуле SCWS на странице PHP. Если вы видите информацию о SCWS, это означает, что модуль успешно загружен.
Создание словаря SCWS
Перед использованием SCWS для сегментации необходимо создать и настроить файл словаря. Файл словаря, используемый SCWS, может быть в виде обычного текстового файла или бинарного файла в формате xdb. Вот шаги для создания словаря:
Шаг первый: подготовьте файл словаря
Создайте обычный текстовый файл, содержащий необходимые слова и их частоту. Формат файла следующий:
Слово1 Частота1
Слово2 Частота2
2
Например:
Китай 1000
Пекин 800
Шанхай 600
2
3
Сохраните этот файл как dict.txt
.
Шаг второй: сгенерируйте файл словаря в формате xdb
SCWS предоставляет инструменты для генерации файла словаря в формате xdb. Инструменты SCWS уже предустановлены в ServBay, можно использовать следующую команду для генерации xdb файла:
scws-gen-dict -i dict.txt -o dict.utf8.xdb
Эта команда преобразует dict.txt
в файл dict.utf8.xdb
.
Шаг третий: настройте SCWS на использование файла словаря
Поместите сгенерированный файл dict.utf8.xdb
в каталог /Applications/ServBay/etc/scws
и убедитесь, что в файле scws.ini
правильно настроен путь к словарю:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = utf8
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Пример использования
После включения модуля SCWS и настройки словаря, вы можете использовать SCWS для китайской сегментации слов в своем PHP коде. Вот простой пример:
Пример кода
<?php
// Инициализация SCWS
$scws = scws_new();
$scws->set_charset('utf8');
$scws->set_dict('/Applications/ServBay/etc/scws/dict.utf8.xdb');
$scws->set_rule('/Applications/ServBay/etc/scws/rules.utf8.ini');
// Текст для сегментации
$text = "我是中国人,我爱我的祖国。";
// Выполните сегментацию
$scws->send_text($text);
// Получите результаты сегментации
while ($result = $scws->get_result()) {
foreach ($result as $word) {
echo $word['word'] . "\n";
}
}
// Высвободите ресурсы SCWS
$scws->close();
?>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
В приведенном выше коде, мы сначала инициализировали SCWS и настроили кодировку, словарь и файл правил. Затем мы передали текст для сегментации в SCWS и с помощью цикла получаем результаты сегментации. В конце, освобождаем ресурсы SCWS.
Заключение
ServBay предоставляет удобный способ управления и активации модуля SCWS. С помощью простых настроек и перезапуска разработчики могут быстро активировать модуль SCWS в различных версиях PHP, полностью используя его эффективные и точные функции сегментации для повышения эффективности обработки китайского текста. Высокая эффективность сегментации, высокая точность и богатые функции SCWS делают его отличным выбором для анализа и обработки китайского текста.