SCWS Gebrauchsanleitung
SCWS (Simple Chinese Word Segmentation) ist ein effizientes chinesisches Segmentierungssystem, das für verschiedene chinesische Textverarbeitungsaufgaben geeignet ist. ServBay wird mit vorinstalliertem SCWS und seinem PHP-Modul ausgeliefert. Dieses Dokument erläutert die Installation, Konfiguration und Verwendung von SCWS im Detail.
Inhalt
Installation und Konfiguration
Installation
ServBay wird mit SCWS und seinem PHP-Modul ausgeliefert, daher ist keine zusätzliche Installation erforderlich.
Konfiguration
Die Konfigurationsdatei von SCWS befindet sich im Verzeichnis /Applications/ServBay/etc/scws
, die Standardkonfigurationsdatei ist scws.ini
. Sie können diese Datei nach Bedarf bearbeiten, um das Segmentierungsverhalten anzupassen.
Beispielinhalt der Konfigurationsdatei:
[charset]
default = utf8
[rule]
rules = /Applications/ServBay/etc/scws/rules.ini
[dict]
dict = /Applications/ServBay/etc/scws/dict.utf8.xdb
2
3
4
5
6
7
8
Grundlegende Verwendung
SCWS bietet das Kommandozeilenwerkzeug scws
zur Textsegmentierung. Hier sind einige grundlegende Verwendungsbeispiele:
Segmentierungsbeispiele
Einen String segmentieren
echo "这是一个中文分词的例子" | scws -i
Text aus einer Datei einlesen und segmentieren
scws -i input.txt -o output.txt
Segmentierungsregeln angeben
scws -i input.txt -o output.txt -r /path/to/rules.ini
Wörterbuch angeben
scws -i input.txt -o output.txt -d /path/to/dict.utf8.xdb
Erweiterte Nutzung
Benutzerdefiniertes Wörterbuch
Sie können ein benutzerdefiniertes Wörterbuch erstellen, um die Genauigkeit der Segmentierung zu erhöhen. Benutzerdefinierte Wörterbücher müssen im xdb
-Format vorliegen und können mit dem scws-gen
-Werkzeug erstellt werden.
Benutzerdefiniertes Wörterbuch erstellen
Erstellen Sie eine Wörterbuch-Textdatei
custom_dict.txt
mit folgendem Inhalt:自定义词1 1 自定义词2 2
1
2Nutzen Sie das
scws-gen
-Werkzeug, um das Wörterbuch zu erstellen:bashscws-gen -i custom_dict.txt -o custom_dict.xdb
1Geben Sie das benutzerdefinierte Wörterbuch in der Konfigurationsdatei an:
[dict] dict = /Applications/ServBay/etc/scws/dict.utf8.xdb,/path/to/custom_dict.xdb
1
2
Segmentierungsregeln anpassen
Die Dateidatei rules.ini
definiert, wie die Segmentierung erfolgen soll, und Sie können diese nach Bedarf anpassen. Die Standardregeln befinden sich im Verzeichnis /Applications/ServBay/etc/scws/rules.ini
.
Beispielinhalt der Regeldatei:
[rule]
# Benutzerdefinierte Segmentierungsregeln
2
Verwendung der PHP API
Die mitgelieferte PHP-Version von ServBay enthält das SCWS-Modul, sodass Sie SCWS direkt in Ihrem PHP-Code zur chinesischen Segmentierung verwenden können.
Verwendungsbeispiel
- Verwenden Sie SCWS in Ihrem PHP-Code:php
<?php // SCWS Segmentierer öffnen $sh = scws_open(); // Zeichensatz festlegen scws_set_charset($sh, 'utf8'); // Wörterbuch und Segmentierungsregeln festlegen scws_set_dict($sh, '/Applications/ServBay/etc/scws/dict.utf8.xdb'); scws_set_rule($sh, '/Applications/ServBay/etc/scws/rules.ini'); // Text zur Segmentierung senden scws_send_text($sh, "这是一个中文分词的例子"); // Segmentierungsergebnis abrufen while ($res = scws_get_result($sh)) { foreach ($res as $word) { echo $word['word'], "\n"; } } // SCWS Segmentierer schließen scws_close($sh); ?>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Häufig verwendete Funktionen
scws_open()
: Öffnet eine SCWS Instanzscws_set_charset($sh, $charset)
: Setzt den Zeichensatzscws_set_dict($sh, $dict_path)
: Setzt den Wörterbuchpfadscws_set_rule($sh, $rule_path)
: Setzt den Pfad zur Regeldateiscws_send_text($sh, $text)
: Sendet den Text zur Segmentierungscws_get_result($sh)
: Gibt das Segmentierungsergebnis zurückscws_close($sh)
: Schließt die SCWS Instanz
Häufige Probleme
1. SCWS Segmentierungsergebnisse sind ungenau
- Lösung: Überprüfen Sie, ob Wörterbuch und Regeldateien richtig konfiguriert sind. Versuchen Sie ein benutzerdefiniertes Wörterbuch zu verwenden und passen Sie die Segmentierungsregeln an, um die Genauigkeit zu erhöhen.
2. SCWS Leistung ist schlecht
- Lösung: Stellen Sie sicher, dass SCWS ein effizientes Wörterbuchformat (z.B.
xdb
) verwendet und dieses korrekt in der Konfigurationsdatei angegeben ist.
3. SCWS Kommandozeilenwerkzeug funktioniert nicht
- Lösung: Überprüfen Sie, ob SCWS ordnungsgemäß installiert ist und ob die Pfade zu den Konfigurationsdateien korrekt sind. Wenn das Problem weiterhin besteht, überprüfen Sie die Fehlerprotokolle für weitere Informationen.
Zusammenfassung
SCWS ist ein effizientes chinesisches Segmentierungssystem, das für verschiedene Textverarbeitungsaufgaben geeignet ist. Mit dieser Anleitung können Sie SCWS in ServBay installieren, konfigurieren und zur Segmentierung verwenden.