Come abilitare il modulo SCWS integrato di ServBay
Come potente strumento di sviluppo web integrato, ServBay include il modulo SCWS e il suo processo di attivazione è molto semplice. SCWS (Simple Chinese Word Segmentation) è un motore di segmentazione del testo cinese efficiente, in grado di gestire in modo rapido e preciso la segmentazione del testo cinese, ideale per motori di ricerca, analisi di testo e altre applicazioni.
Introduzione al modulo SCWS
SCWS è un motore di segmentazione del testo cinese open-source, progettato per trattare testi in cinese. Fornisce funzionalità di segmentazione efficienti e precise attraverso una combinazione di corrispondenza del dizionario e modelli statistici. SCWS supporta non solo la segmentazione di base, ma anche l'estrazione di parole chiave e l'annotazione delle parti del discorso.
Caratteristiche principali
- Segmentazione efficiente: SCWS utilizza algoritmi di segmentazione efficienti in grado di gestire rapidamente testi cinesi su larga scala.
- Alta precisione: Grazie alla combinazione di corrispondenza del dizionario e modelli statistici, SCWS offre un vantaggio significativo nella precisione della segmentazione.
- Supporta diverse funzionalità: Oltre alla segmentazione di base, SCWS supporta l'estrazione di parole chiave e l'annotazione delle parti del discorso.
- Facile integrazione: SCWS fornisce API ricche che permettono agli sviluppatori di integrarlo facilmente in diverse applicazioni.
- Open-source: SCWS è un software open-source, permettendo agli sviluppatori di personalizzarlo ed espanderlo secondo necessità.
Versione del modulo SCWS integrato in ServBay
ServBay supporta diverse versioni di PHP, e per ciascuna versione è preinstallato il corrispondente modulo SCWS. Le versioni specifiche sono le seguenti:
- PHP 5.6 - 8.4: SCWS 1.2.3
Come abilitare il modulo SCWS
Di default, il modulo SCWS è disabilitato. I passaggi per abilitare il modulo SCWS sono molto semplici: basta navigare su Lingua
-PHP
, selezionare la versione di PHP per la quale abilitare il modulo, ad esempio PHP 8.4
, cliccare su Estensioni
a destra, quindi attivare l'interruttore accanto al modulo SCWS
e salvare.
Gli utenti possono anche attivare o modificare manualmente la configurazione del modulo. I passaggi dettagliati sono i seguenti:
Passo uno: trovare il file di configurazione
In primo luogo, individuare la directory conf.d
della versione PHP corrispondente. Ad esempio, per abilitare il modulo SCWS per PHP 8.3, è necessario modificare il seguente file:
/Applications/ServBay/etc/php/8.3/conf.d/scws.ini
Passo due: modificare il file di configurazione
Aprire il file scws.ini
e rimuovere il commento dalle seguenti righe:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = gbk
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Passo tre: riavviare il servizio PHP
Nel pannello di gestione dei servizi di ServBay, riavviare il servizio PHP corrispondente. Ad esempio, riavviare il servizio PHP 8.3. Una volta completato il riavvio, il modulo SCWS sarà caricato con successo.
Verifica dell'avvenuto caricamento del modulo SCWS
È possibile verificare se il modulo SCWS è stato caricato con successo creando un semplice file PHP. Nella directory radice del server Web, creare un file phpinfo.php
con il seguente contenuto:
<?php
phpinfo();
?>
2
3
Visitare https://servbay.host/phpinfo.php
e cercare le informazioni relative al modulo SCWS nella pagina delle informazioni PHP. Se si vedono informazioni relative a SCWS, significa che il modulo è stato caricato con successo.
Creazione del dizionario SCWS
Prima di utilizzare SCWS per la segmentazione, è necessario creare e configurare i file del dizionario. I file di dizionario utilizzati da SCWS possono essere file di testo normale o file in formato binario xdb. Di seguito sono riportati i passaggi per creare un dizionario:
Passo uno: preparare il file del dizionario
Creare un file di testo normale contenente le parole e le frequenze necessarie. Il formato del file è il seguente:
parola1 frequenza1
parola2 frequenza2
2
Ad esempio:
Cina 1000
Pechino 800
Shanghai 600
2
3
Salvare questo file come dict.txt
.
Passo due: generare il file del dizionario in formato xdb
SCWS fornisce strumenti per generare file di dizionario in formato xdb. Gli strumenti SCWS sono preinstallati con ServBay e è possibile utilizzare il seguente comando per generare il file xdb:
scws-gen-dict -i dict.txt -o dict.utf8.xdb
Questo comando convertirà il dict.txt
nel file dict.utf8.xdb
.
Passo tre: configurare SCWS per l'uso del file del dizionario
Posizionare il file dict.utf8.xdb
generato nella directory /Applications/ServBay/etc/scws
e assicurarsi di configurare correttamente il percorso del dizionario nel file scws.ini
:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = utf8
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Esempio d'uso
Dopo aver abilitato il modulo SCWS e configurato il dizionario, è possibile utilizzare SCWS nel codice PHP per la segmentazione del testo cinese. Di seguito è riportato un semplice esempio:
Codice di esempio
<?php
// Inizializzazione di SCWS
$scws = scws_new();
$scws->set_charset('utf8');
$scws->set_dict('/Applications/ServBay/etc/scws/dict.utf8.xdb');
$scws->set_rule('/Applications/ServBay/etc/scws/rules.utf8.ini');
// Testo da segmentare
$text = "我是中国人,我爱我的祖国。";
// Esegui la segmentazione
$scws->send_text($text);
// Ottieni i risultati della segmentazione
while ($result = $scws->get_result()) {
foreach ($result as $word) {
echo $word['word'] . "\n";
}
}
// Libera le risorse SCWS
$scws->close();
?>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Nel codice sopra, inizializziamo prima SCWS, impostando il charset, il dizionario e il file delle regole. Poi passiamo il testo da segmentare a SCWS e otteniamo i risultati della segmentazione tramite un ciclo. Infine, liberiamo le risorse di SCWS.
Conclusione
ServBay offre un modo conveniente per gestire e abilitare il modulo SCWS. Con una semplice configurazione e il riavvio del sistema, gli sviluppatori possono rapidamente abilitare il modulo SCWS in diverse versioni di PHP, sfruttando le sue funzionalità di segmentazione efficienti e precise per migliorare l'efficienza nel trattamento del testo cinese. L'elevata efficienza di segmentazione, l'accuratezza e le funzionalità ricche di SCWS lo rendono la scelta ideale per l'analisi e il trattamento del testo cinese.