Como habilitar o módulo SCWS integrado do ServBay
Como uma poderosa ferramenta de desenvolvimento web integrada, o ServBay vem com o módulo SCWS, e seu processo de habilitação é muito simples. SCWS (Simple Chinese Word Segmentation) é um motor de segmentação de palavras chinês eficiente, capaz de realizar a segmentação de texto chinês de forma rápida e precisa, ideal para mecanismos de busca, análise de texto e outras aplicações.
Introdução ao módulo SCWS
SCWS é um motor de segmentação de palavras chinês de código aberto, projetado especialmente para lidar com textos em chinês. Através de uma combinação de métodos baseados em dicionários e modelos estatísticos, ele oferece funções de segmentação eficientes e precisas. O SCWS não só suporta funções de segmentação comuns, como também extração de palavras-chave, marcação de categorias de palavras, entre outras funções avançadas.
Principais características
- Segmentação eficiente: O SCWS adota algoritmos de segmentação eficientes, capazes de processar grandes volumes de texto chinês rapidamente.
- Alta precisão: Combinando métodos de correspondência de dicionários e modelos estatísticos, o SCWS tem uma vantagem significativa em termos de precisão na segmentação.
- Suporte a várias funções: Além da segmentação básica, o SCWS também suporta extração de palavras-chave, marcação de categorias de palavras e outras funções avançadas.
- Fácil de integrar: O SCWS oferece uma rica API, permitindo que os desenvolvedores o integrem facilmente em diversas aplicações.
- Código aberto: O SCWS é software de código aberto, permitindo que os desenvolvedores o adaptem e expandam conforme necessário.
Versão do módulo SCWS integrado no ServBay
O ServBay suporta várias versões do PHP, e cada uma vem pré-instalada com a versão correspondente do módulo SCWS. As versões específicas são:
- PHP 5.6 - 8.4: SCWS 1.2.3
Como habilitar o módulo SCWS
Por padrão, o módulo SCWS está desabilitado. O processo para habilitar o módulo SCWS é muito simples, basta modificar o arquivo de configuração da versão do PHP correspondente. Aqui estão os passos detalhados:
Passo um: Encontrar o arquivo de configuração
Primeiro, localize o diretório conf.d
da versão do PHP correspondente. Por exemplo, para habilitar o módulo SCWS no PHP 8.3, precisamos editar o seguinte arquivo:
/Applications/ServBay/etc/php/8.3/conf.d/scws.ini
Passo dois: Editar o arquivo de configuração
Abra o arquivo scws.ini
e descomente o seguinte conteúdo:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = gbk
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Passo três: Reiniciar o serviço PHP
No painel de gerenciamento de serviços do ServBay, reinicie o serviço PHP correspondente. Por exemplo, reinicie o serviço PHP 8.3. Após a reinicialização, o módulo SCWS será carregado com sucesso.
Verificando se o módulo SCWS foi carregado com sucesso
Crie um arquivo PHP simples para verificar se o módulo SCWS foi carregado corretamente. Crie um arquivo phpinfo.php
no diretório raiz do servidor web com o seguinte conteúdo:
<?php
phpinfo();
?>
2
3
Acesse https://servbay.host/phpinfo.php
e verifique as informações relacionadas ao módulo SCWS na página de informações do PHP. Se as informações do SCWS estiverem presentes, o módulo foi carregado com sucesso.
Criando o dicionário SCWS
Antes de usar o SCWS para segmentação, é necessário criar e configurar um arquivo de dicionário. O arquivo de dicionário pode ser um arquivo de texto simples ou um arquivo binário no formato xdb. Aqui estão os passos para criar o dicionário:
Passo um: Preparar o arquivo de dicionário
Crie um arquivo de texto simples com as palavras e as frequências necessárias. O formato do arquivo é o seguinte:
Palavra1 Frequência1
Palavra2 Frequência2
2
Por exemplo:
China 1000
Beijing 800
Shanghai 600
2
3
Salve o arquivo como dict.txt
.
Passo dois: Gerar o arquivo de dicionário no formato xdb
O SCWS fornece uma ferramenta para gerar arquivos de dicionário no formato xdb. A ferramenta SCWS já está incluída no ServBay e pode ser usada com o comando abaixo para gerar o arquivo xdb:
scws-gen-dict -i dict.txt -o dict.utf8.xdb
Este comando converterá dict.txt
em dict.utf8.xdb
.
Passo três: Configurar o SCWS para usar o arquivo de dicionário
Coloque o arquivo dict.utf8.xdb
gerado no diretório /Applications/ServBay/etc/scws
e certifique-se de configurar o caminho correto do dicionário no arquivo scws.ini
:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = utf8
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Exemplo de uso
Após habilitar o módulo SCWS e configurar o dicionário, você pode usar o SCWS para segmentação de texto em chinês no código PHP. Aqui está um exemplo simples:
Código de exemplo
<?php
// Inicializar SCWS
$scws = scws_new();
$scws->set_charset('utf8');
$scws->set_dict('/Applications/ServBay/etc/scws/dict.utf8.xdb');
$scws->set_rule('/Applications/ServBay/etc/scws/rules.utf8.ini');
// Texto a ser segmentado
$text = "我是中国人,我爱我的祖国。";
// Realizar a segmentação
$scws->send_text($text);
// Obter os resultados da segmentação
while ($result = $scws->get_result()) {
foreach ($result as $word) {
echo $word['word'] . "\n";
}
}
// Liberar recursos do SCWS
$scws->close();
?>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
No código acima, primeiro inicializamos o SCWS e configuramos o charset, o dicionário e o arquivo de regras. Em seguida, passamos o texto a ser segmentado para o SCWS e obtemos os resultados da segmentação em um loop. Por fim, liberamos os recursos do SCWS.
Conclusão
O ServBay oferece uma maneira conveniente de gerenciar e habilitar o módulo SCWS. Com configurações simples e reiniciação, os desenvolvedores podem habilitar rapidamente o módulo SCWS em diferentes versões do PHP, aproveitando suas funções de segmentação eficientes e precisas para melhorar o processamento de texto em chinês. A segmentação eficiente, alta precisão e funcionalidades ricas do SCWS fazem dele a escolha ideal para análise e processamento de texto em chinês.