Come abilitare il modulo SCWS integrato di ServBay
ServBay è un potente strumento di sviluppo web integrato che include il modulo SCWS, e il suo processo di abilitazione è molto semplice. SCWS (Simple Chinese Word Segmentation) è un efficiente motore di segmentazione delle parole cinesi in grado di segmentare rapidamente e accuratamente i testi cinesi, ideale per motori di ricerca, analisi di testi e altri scenari applicativi.
Introduzione al modulo SCWS
SCWS è un motore di segmentazione delle parole cinesi open source progettato appositamente per il trattamento dei testi in cinese. Combina il metodo di corrispondenza del dizionario con quello del modello statistico per fornire una funzione di segmentazione efficiente e accurata. SCWS supporta non solo la segmentazione di base, ma anche funzionalità avanzate come l'estrazione di parole chiave e l'annotazione delle parti del discorso.
Caratteristiche principali
- Segmentazione efficiente: SCWS utilizza un algoritmo di segmentazione efficiente capace di gestire rapidamente testi cinesi su larga scala.
- Alta precisione: combinando la corrispondenza del dizionario con il modello statistico, SCWS ha un vantaggio significativo in termini di precisione nella segmentazione.
- Supporta diverse funzionalità: oltre alla segmentazione di base, SCWS supporta l'estrazione di parole chiave e l'annotazione delle parti del discorso.
- Facile da integrare: SCWS fornisce API ricche, facilitando l'integrazione in varie applicazioni da parte degli sviluppatori.
- Open source: SCWS è un software open source, permettendo agli sviluppatori di personalizzarlo ed estenderlo secondo le loro esigenze.
Versione del modulo SCWS integrata in ServBay
ServBay supporta più versioni di PHP e per ciascuna versione preinstalla il modulo SCWS corrispondente. Le versioni specifiche sono le seguenti:
- PHP 5.6 - 8.4: SCWS 1.2.3
Come abilitare il modulo SCWS
Per impostazione predefinita, il modulo SCWS è disabilitato. Abilitare il modulo SCWS è molto semplice, basta modificare il file di configurazione della versione di PHP corrispondente. Di seguito i passaggi dettagliati:
Passaggio uno: trovare il file di configurazione
Innanzitutto, individuare la directory conf.d
della versione di PHP corrispondente. Ad esempio, per abilitare il modulo SCWS per PHP 8.3, è necessario modificare il seguente file:
/Applications/ServBay/etc/php/8.3/conf.d/scws.ini
Passaggio due: modificare il file di configurazione
Aprire il file scws.ini
e rimuovere il commento dalle seguenti righe:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = gbk
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Passaggio tre: riavviare il servizio PHP
Nel pannello di gestione dei servizi di ServBay, riavviare il servizio PHP corrispondente. Ad esempio, riavviare il servizio PHP 8.3. Una volta completato il riavvio, il modulo SCWS verrà caricato con successo.
Verifica del caricamento del modulo SCWS
È possibile verificare se il modulo SCWS è stato caricato con successo creando un semplice file PHP. Creare un file phpinfo.php
nella directory principale del server web con il seguente contenuto:
<?php
phpinfo();
?>
2
3
Visitare https://servbay.host/phpinfo.php
e cercare le informazioni relative al modulo SCWS nella pagina delle informazioni di PHP. Se sono visibili le informazioni del modulo SCWS, significa che il modulo è stato caricato con successo.
Creazione del dizionario SCWS
Prima di utilizzare SCWS per la segmentazione delle parole, è necessario creare e configurare i file dei dizionari. Il file del dizionario utilizzato da SCWS può essere un normale file di testo o un file in formato binario xdb. Di seguito i passaggi per creare un dizionario:
Passaggio uno: preparazione del file del dizionario
Creare un file di testo normale contenente le parole e le frequenze necessarie. Il formato del file è il seguente:
Parola 1 Frequenza 1
Parola 2 Frequenza 2
2
Ad esempio:
Cina 1000
Pechino 800
Shanghai 600
2
3
Salvare il file con il nome dict.txt
.
Passaggio due: generazione del file del dizionario in formato xdb
SCWS fornisce uno strumento per generare file di dizionari in formato xdb. Lo strumento SCWS è preinstallato con ServBay e può essere utilizzato con il seguente comando per generare il file xdb:
scws-gen-dict -i dict.txt -o dict.utf8.xdb
Questo comando convertirà il file dict.txt
nel file dict.utf8.xdb
.
Passaggio tre: configurazione del file del dizionario in SCWS
Posizionare il file generato dict.utf8.xdb
nella directory /Applications/ServBay/etc/scws
e assicurarsi che nel file scws.ini
sia configurato correttamente il percorso del dizionario:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = utf8
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Esempio pratico
Abilitato il modulo SCWS e configurato il dizionario, è possibile utilizzare SCWS nel codice PHP per eseguire la segmentazione delle parole cinesi. Di seguito un semplice esempio:
Codice di esempio
<?php
// Inizializzazione di SCWS
$scws = scws_new();
$scws->set_charset('utf8');
$scws->set_dict('/Applications/ServBay/etc/scws/dict.utf8.xdb');
$scws->set_rule('/Applications/ServBay/etc/scws/rules.utf8.ini');
// Testo da segmentare
$text = "我是中国人,我爱我的祖国。";
// Eseguire la segmentazione
$scws->send_text($text);
// Ottenere i risultati della segmentazione
while ($result = $scws->get_result()) {
foreach ($result as $word) {
echo $word['word'] . "\n";
}
}
// Rilasciare le risorse di SCWS
$scws->close();
?>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Nel codice sopra, abbiamo inizializzato SCWS, impostato il set di caratteri, il dizionario e il file delle regole. Poi, abbiamo trasmesso il testo da segmentare a SCWS e ottenuto i risultati della segmentazione tramite un ciclo. Infine, abbiamo rilasciato le risorse di SCWS.
Conclusione
ServBay fornisce un modo conveniente per gestire e abilitare il modulo SCWS. Attraverso semplici configurazioni e operazioni di riavvio, gli sviluppatori possono abilitare rapidamente il modulo SCWS in diverse versioni di PHP, sfruttando così la sua funzione di segmentazione efficiente e accurata per migliorare l'efficienza del trattamento dei testi cinesi. L'alta efficienza di segmentazione, l'accuratezza e le funzionalità ricche di SCWS lo rendono una scelta insostituibile per l'analisi e il trattamento dei testi in cinese.