Wie man das SCWS-Modul von ServBay aktiviert
Als leistungsstarkes integriertes Web-Entwicklungstool verfügt ServBay über ein SCWS-Modul, dessen Aktivierung sehr einfach ist. SCWS (Simple Chinese Word Segmentation) ist ein effizienter chinesischer Wortsegmentierungs-Engine, die chinesischen Text schnell und genau segmentieren kann, ideal für Suchmaschinen, Textanalysen und andere Anwendungsszenarien.
Einführung in das SCWS-Modul
SCWS ist eine Open-Source-Engine für die chinesische Wortsegmentierung, speziell für die Verarbeitung chinesischer Texte entwickelt. Es bietet durch die Kombination aus Wörterbuchabgleich und statistischem Modell eine effiziente und präzise Segmentierungsfunktion. SCWS unterstützt nicht nur die grundlegenden Segmentierungsfunktionen, sondern auch erweiterte Funktionen wie Schlüsselwort-Extraktion und Part-of-Speech-Tagging.
Hauptmerkmale
- Effiziente Segmentierung: SCWS verwendet einen effizienten Segmentierungsalgorithmus, der große Mengen chinesischer Texte schnell verarbeiten kann.
- Hohe Genauigkeit: Durch die Kombination aus Wörterbuchabgleich und statistischem Modell bietet SCWS eine signifikante Genauigkeit in der Segmentierung.
- Unterstützt mehrere Funktionen: Neben der Basissegmentierung unterstützt SCWS auch Schlüsselwort-Extraktion und Part-of-Speech-Tagging.
- Einfache Integration: SCWS bietet APIs, mit denen Entwickler es einfach in verschiedene Anwendungen integrieren können.
- Open Source: SCWS ist Open Source, Entwickler können es nach Bedarf anpassen und erweitern.
Version des ServBay-eigenen SCWS-Moduls
ServBay unterstützt mehrere PHP-Versionen und hat für jede Version das entsprechende SCWS-Modul vorinstalliert. Konkrete Versionen sind wie folgt:
- PHP 5.6 - 8.4: SCWS 1.2.3
Wie man das SCWS-Modul aktiviert
Standardmäßig ist das SCWS-Modul deaktiviert. Die Aktivierung des SCWS-Moduls ist sehr einfach: Navigieren Sie zu Sprache
-PHP
, wählen Sie die PHP-Version, für die Sie das Modul aktivieren möchten, z.B. PHP 8.4
, klicken Sie rechts auf Erweiterungen
, und dann den Schalter links vom SCWS
-Modul einschalten und speichern.
Benutzer können das Modul auch manuell ein- oder umkonfigurieren, die folgenden sind die detaillierten Schritte:
Schritt 1: Find the Configuration File
Zuerst, navigieren Sie zum conf.d
Verzeichnis der entsprechenden PHP-Version. Zum Beispiel, um das SCWS-Modul für PHP 8.3 zu aktivieren, bearbeiten wir folgende Datei:
/Applications/ServBay/etc/php/8.3/conf.d/scws.ini
Schritt 2: Edit the Configuration File
Öffnen Sie die scws.ini
Datei und heben Sie die Kommentierung der folgenden Inhalte auf:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = gbk
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Schritt 3: Restart PHP Service
Im ServBay Service-Management-Panel den entsprechenden PHP-Dienst neu starten, zum Beispiel den Dienst von PHP 8.3. Nach dem Neustart wird das SCWS-Modul erfolgreich geladen.
Überprüfen, ob das SCWS-Modul erfolgreich geladen wurde
Man kann überprüfen, ob das SCWS-Modul erfolgreich geladen wurde, indem man eine einfache PHP-Datei erstellt. Erstellen Sie eine Datei phpinfo.php
im Root-Verzeichnis des Webservers, der Inhalt ist wie folgt:
<?php
phpinfo();
?>
2
3
Besuchen Sie https://servbay.host/phpinfo.php
und suchen Sie auf der ausgegebenen PHP-Informationsseite nach Informationen zum SCWS-Modul. Wenn Sie Informationen zu SCWS sehen, bedeutet das, dass das Modul erfolgreich geladen wurde.
Erstellen eines SCWS-Wörterbuchs
Bevor Sie SCWS zur Segmentierung verwenden können, müssen Sie die Wörterbuchdatei erstellen und konfigurieren. Die von SCWS verwendeten Wörterbuchdateien können normale Textdateien oder binäre xdb-Dateiformate sein. Die Schritte zum Erstellen eines Wörterbuchs sind wie folgt:
Schritt 1: Bereiten Sie die Wörterbuchdatei vor
Erstellen Sie eine normale Textdatei mit den benötigten Wörtern und deren Häufigkeit. Das Dateiformat ist wie folgt:
Wort1 Häufigkeit1
Wort2 Häufigkeit2
2
Zum Beispiel:
China 1000
Beijing 800
Shanghai 600
2
3
Speichern Sie diese Datei als dict.txt
.
Schritt 2: Generieren Sie die Wörterbuchdatei im xdb-Format
SCWS stellt ein Tool zur Verfügung, um die Wörterbuchdatei im xdb-Format zu generieren. Das SCWS-Tool ist bereits mit ServBay ausgeliefert, Sie können den folgenden Befehl verwenden, um die xdb-Datei zu generieren:
scws-gen-dict -i dict.txt -o dict.utf8.xdb
Dieser Befehl konvertiert die dict.txt
Datei in die dict.utf8.xdb
Datei.
Schritt 3: Konfigurieren Sie SCWS zur Nutzung der Wörterbuchdatei
Platzieren Sie die erstellte dict.utf8.xdb
Datei im Applications/ServBay/etc/scws
Verzeichnis und stellen Sie sicher, dass der Wörterbuchpfad in der scws.ini
Datei korrekt konfiguriert ist:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = utf8
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Verwendung Beispiel
Nach der Aktivierung des SCWS-Moduls und der Konfiguration des Wörterbuchs kann SCWS im PHP-Code für die chinesische Wortsegmentierung verwendet werden. Unten ist ein einfaches Beispiel:
Beispielcode
<?php
// Initialisiere SCWS
$scws = scws_new();
$scws->set_charset('utf8');
$scws->set_dict('/Applications/ServBay/etc/scws/dict.utf8.xdb');
$scws->set_rule('/Applications/ServBay/etc/scws/rules.utf8.ini');
// Text, der segmentiert werden soll
$text = "Ich bin ein Chinese, ich liebe mein Land.";
// Segmentierung durchführen
$scws->send_text($text);
// Segmentierungsergebnisse abrufen
while ($result = $scws->get_result()) {
foreach ($result as $word) {
echo $word['word'] . "\n";
}
}
// SCWS-Ressourcen freigeben
$scws->close();
?>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
In diesem Code initialisieren wir SCWS, stellen das Zeichensatz, das Wörterbuch und die Regeldatei ein. Dann übergeben wir den zu segmentierenden Text an SCWS und holen die Segmentierungsergebnisse durch eine Schleife ein. Zum Schluss werden die SCWS-Ressourcen freigegeben.
Fazit
ServBay bietet eine bequeme Möglichkeit zur Verwaltung und Aktivierung des SCWS-Moduls. Durch einfache Konfiguration und Neustart können Entwickler das SCWS-Modul in verschiedenen PHP-Versionen schnell aktivieren und somit die effiziente und präzise Segmentierungsfunktion nutzen, um die Effizienz der chinesischen Textverarbeitung zu verbessern. Die effiziente Segmentierung, hohe Genauigkeit und umfangreiche Funktionen von SCWS machen es zur ersten Wahl für die Analyse und Verarbeitung chinesischer Texte.