Documentation d'utilisation de SCWS
SCWS (Simple Chinese Word Segmentation) est un système de segmentation de mots chinois efficace, adapté à diverses tâches de traitement de texte chinois. ServBay inclut SCWS et son module PHP par défaut. Cet article présente en détail l'installation, la configuration et l'utilisation de SCWS.
Sommaire
Installation et configuration
Installation
ServBay inclut SCWS et son module PHP par défaut, aucune installation supplémentaire n'est nécessaire.
Configuration
Le fichier de configuration de SCWS se trouve dans le répertoire /Applications/ServBay/etc/scws
, et le fichier de configuration par défaut est scws.ini
. Vous pouvez modifier ce fichier selon vos besoins pour ajuster le comportement de segmentation.
Contenu exemple du fichier de configuration :
[charset]
default = utf8
[rule]
rules = /Applications/ServBay/etc/scws/rules.ini
[dict]
dict = /Applications/ServBay/etc/scws/dict.utf8.xdb
2
3
4
5
6
7
8
Utilisation de base
SCWS fournit l'outil de ligne de commande scws
pour segmenter les textes. Voici quelques exemples d'utilisation de base :
Exemple de segmentation
Segmenter une chaîne de caractères
echo "这是一个中文分词的例子" | scws -i
Lire le texte à partir d'un fichier pour le segmenter
scws -i input.txt -o output.txt
Spécifier les règles de segmentation
scws -i input.txt -o output.txt -r /path/to/rules.ini
Spécifier le dictionnaire
scws -i input.txt -o output.txt -d /path/to/dict.utf8.xdb
Utilisation avancée
Dictionnaire personnalisé
Vous pouvez créer un dictionnaire personnalisé pour améliorer la précision de la segmentation. Le dictionnaire personnalisé doit être au format xdb
, que vous pouvez générer avec l'outil scws-gen
.
Créer un dictionnaire personnalisé
Créez un fichier texte de dictionnaire
custom_dict.txt
avec le contenu suivant :自定义词1 1 自定义词2 2
1
2Utilisez l'outil
scws-gen
pour générer le dictionnaire :bashscws-gen -i custom_dict.txt -o custom_dict.xdb
1Spécifiez le dictionnaire personnalisé dans le fichier de configuration :
[dict] dict = /Applications/ServBay/etc/scws/dict.utf8.xdb,/path/to/custom_dict.xdb
1
2
Ajuster les règles de segmentation
Le fichier de règles de segmentation rules.ini
définit comment segmenter les mots. Vous pouvez l'ajuster selon vos besoins. Le fichier de règles par défaut se trouve dans /Applications/ServBay/etc/scws/rules.ini
.
Contenu exemple du fichier de règles :
[rule]
# 自定义分词规则
2
Utilisation de l'API PHP
La version de PHP fournie par ServBay inclut le module SCWS, vous pouvez donc utiliser SCWS directement dans le code PHP pour segmenter le texte chinois.
Exemple d'utilisation
- Utiliser SCWS dans le code PHP :php
<?php // Ouvrir le segmentateur SCWS $sh = scws_open(); // Définir le jeu de caractères scws_set_charset($sh, 'utf8'); // Définir le dictionnaire et les règles de segmentation scws_set_dict($sh, '/Applications/ServBay/etc/scws/dict.utf8.xdb'); scws_set_rule($sh, '/Applications/ServBay/etc/scws/rules.ini'); // Envoyer le texte à segmenter scws_send_text($sh, "这是一个中文分词的例子"); // Obtenir les résultats de la segmentation while ($res = scws_get_result($sh)) { foreach ($res as $word) { echo $word['word'], "\n"; } } // Fermer le segmentateur SCWS scws_close($sh); ?>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Fonctions courantes
scws_open()
: ouvrir une instance du segmentateur SCWSscws_set_charset($sh, $charset)
: définir le jeu de caractèresscws_set_dict($sh, $dict_path)
: définir le chemin du dictionnairescws_set_rule($sh, $rule_path)
: définir le chemin des règles de segmentationscws_send_text($sh, $text)
: envoyer le texte à segmenterscws_get_result($sh)
: obtenir les résultats de la segmentationscws_close($sh)
: fermer l'instance du segmentateur SCWS
Questions fréquentes
1. Les résultats de la segmentation SCWS ne sont pas précis
- Solution : Vérifiez si le dictionnaire et les fichiers de règles sont correctement configurés. Vous pouvez essayer d'utiliser un dictionnaire personnalisé et d'ajuster les règles de segmentation pour améliorer la précision.
2. Les performances de SCWS sont médiocres
- Solution : Assurez-vous que SCWS utilise un format de dictionnaire efficace (comme
xdb
), et qu'il est correctement spécifié dans le fichier de configuration.
3. L'outil de ligne de commande SCWS ne fonctionne pas
- Solution : Vérifiez si SCWS est correctement installé et assurez-vous que les chemins des fichiers de configuration sont corrects. Si le problème persiste, consultez les journaux d'erreurs pour plus d'informations.
Conclusion
SCWS est un système de segmentation de mots chinois efficace, adapté à diverses tâches de traitement de texte chinois. Grâce à cet article, vous savez maintenant comment installer, configurer et utiliser SCWS dans ServBay pour segmenter le texte chinois.