Como habilitar o módulo SCWS embutido no ServBay
Como uma poderosa ferramenta integrada de desenvolvimento web, o ServBay vem com o módulo SCWS, e seu processo de ativação é bastante fácil. SCWS (Simple Chinese Word Segmentation) é um motor eficiente de segmentação de palavras em chinês, capaz de processar rapidamente e com precisão textos em chinês, ideal para cenários como motores de busca e análise de texto.
Introdução ao módulo SCWS
SCWS é um motor open-source de segmentação de palavras em chinês, projetado especificamente para lidar com textos em chinês. Ele combina métodos de correspondência de dicionário com modelos estatísticos, fornecendo uma função de segmentação eficiente e precisa. Além de funções básicas de segmentação, o SCWS também suporta extração de palavras-chave e etiquetagem de classes gramaticais.
Principais características
- Segmentação eficiente: SCWS utiliza algoritmos de segmentação eficientes, permitindo o processamento rápido de grandes volumes de texto em chinês.
- Alta precisão: Combinando correspondência de dicionário e modelos estatísticos, o SCWS tem uma clara vantagem em precisão de segmentação.
- Suporte a múltiplas funcionalidades: Além das funções básicas de segmentação, o SCWS oferece suporte a extração de palavras-chave e etiquetagem de classes gramaticais.
- Facilidade de integração: SCWS fornece uma API rica, permitindo que desenvolvedores integrem facilmente em diversos aplicativos.
- Open-source: Como software open-source, desenvolvedores podem personalizar e expandir conforme necessário.
Versão do módulo SCWS no ServBay
ServBay suporta várias versões do PHP, e para cada uma delas, o módulo SCWS correspondente é pré-instalado. As versões especificas são:
- PHP 5.6 - 8.4: SCWS 1.2.3
Como habilitar o módulo SCWS
Por padrão, o módulo SCWS está desativado. Os passos para ativar o módulo SCWS são bastante simples: basta navegar para Language
-PHP
, selecionar a versão PHP em que deseja ativar o módulo, como PHP 8.4
, clicar em Extensions
à direita e então ativar o interruptor ao lado do módulo SCWS
, e salvar.
Os usuários também podem abrir manualmente ou modificar a configuração do módulo. Aqui estão os passos detalhados:
Passo 1: Localize o arquivo de configuração
Primeiro, localize o diretório conf.d
correspondente à versão PHP desejada. Para habilitar o módulo SCWS para o PHP 8.3, precisamos editar o seguinte arquivo:
/Applications/ServBay/etc/php/8.3/conf.d/scws.ini
Passo 2: Edite o arquivo de configuração
Abra o arquivo scws.ini
e descomente o seguinte:
[scws]
; Descomente a seguinte linha para habilitar o scws
extension = scws.so
scws.default.charset = gbk
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Passo 3: Reinicie o serviço PHP
No painel de gerenciamento de serviços do ServBay, reinicie o serviço PHP correspondente. Por exemplo, reinicie o serviço PHP 8.3. Após a reinicialização, o módulo SCWS será carregado com sucesso.
Verificando se o módulo SCWS foi carregado com sucesso
Você pode verificar se o módulo SCWS foi carregado criando um arquivo PHP simples. No diretório raiz do servidor web, crie um arquivo phpinfo.php
com o seguinte conteúdo:
<?php
phpinfo();
?>
2
3
Acesse https://servbay.host/phpinfo.php
e procure por informações relacionadas ao módulo SCWS na página de informações do PHP. Se você encontrar informações sobre o SCWS, isso significa que o módulo foi carregado com sucesso.
Criando um dicionário SCWS
Antes de usar o SCWS para segmentação de palavras, é necessário criar e configurar arquivos de dicionário. O dicionário utilizado pelo SCWS pode ser um arquivo de texto comum ou um arquivo binário no formato xdb. Aqui estão as etapas para criar um dicionário:
Passo 1: Prepare o arquivo de dicionário
Crie um arquivo de texto comum que contenha as palavras necessárias e suas frequências. O formato do arquivo é o seguinte:
Palavra1 Frequência1
Palavra2 Frequência2
2
Por exemplo:
China 1000
Pequim 800
Xangai 600
2
3
Salve este arquivo como dict.txt
.
Passo 2: Gere o arquivo de dicionário no formato xdb
SCWS fornece uma ferramenta para gerar arquivos de dicionário no formato xdb. Esta ferramenta já vem com o ServBay, e você pode usar o seguinte comando para gerar um arquivo xdb:
scws-gen-dict -i dict.txt -o dict.utf8.xdb
Este comando converterá dict.txt
para dict.utf8.xdb
.
Passo 3: Configure o SCWS para usar o arquivo de dicionário
Coloque o arquivo dict.utf8.xdb
gerado no diretório /Applications/ServBay/etc/scws
e certifique-se de configurar corretamente o caminho do dicionário no arquivo scws.ini
:
[scws]
; Descomente a seguinte linha para habilitar o scws
extension = scws.so
scws.default.charset = utf8
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Exemplo de uso
Após habilitar o módulo SCWS e configurar o dicionário, você pode usar o SCWS no seu código PHP para segmentação de palavras em chinês. Abaixo está um exemplo simples:
Código exemplo
<?php
// Inicializa SCWS
$scws = scws_new();
$scws->set_charset('utf8');
$scws->set_dict('/Applications/ServBay/etc/scws/dict.utf8.xdb');
$scws->set_rule('/Applications/ServBay/etc/scws/rules.utf8.ini');
// Texto a ser segmentado
$text = "我是中国人,我爱我的祖国。";
// Realiza a segmentação
$scws->send_text($text);
// Obtém o resultado da segmentação
while ($result = $scws->get_result()) {
foreach ($result as $word) {
echo $word['word'] . "\n";
}
}
// Libera os recursos do SCWS
$scws->close();
?>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
No código acima, primeiro inicializamos o SCWS, e configuramos o conjunto de caracteres, dicionário e arquivo de regras. Em seguida, passamos o texto a ser segmentado para o SCWS e usamos um loop para obter o resultado da segmentação. Por último, liberamos os recursos do SCWS.
Conclusão
ServBay fornece uma maneira conveniente de gerenciar e habilitar o módulo SCWS. Com simples configurações e reinicialização, desenvolvedores podem habilitar rapidamente o módulo SCWS em diferentes versões do PHP, aproveitando sua eficiente e precisa função de segmentação, e melhorando a eficiência no processamento de texto em chinês. As funcionalidades eficientes e precisas de segmentação do SCWS, sua alta precisão e suas ricas funcionalidades fazem dele uma escolha ideal para análise e processamento de texto em chinês.