Comment activer le module SCWS intégré de ServBay
En tant qu'outil puissant de développement Web intégré, ServBay est livré avec un module SCWS, et son processus d'activation est très simple. SCWS (Simple Chinese Word Segmentation) est un moteur de segmentation de mots chinois efficace, capable de segmenter rapidement et précisément les textes chinois, ce qui le rend très approprié pour les moteurs de recherche, l'analyse de texte, etc.
Présentation du module SCWS
SCWS est un moteur de segmentation de mots chinois open source, spécialement conçu pour traiter les textes chinois. Il combine le matching de dictionnaire et des modèles statistiques pour offrir des fonctionnalités de segmentation efficaces et précises. SCWS prend en charge non seulement la segmentation normale, mais aussi l'extraction de mots-clés, l'annotation des parties du discours, et d'autres fonctionnalités avancées.
Principales caractéristiques
- Segmentation efficace : SCWS utilise un algorithme de segmentation efficace, capable de traiter rapidement de grands volumes de textes chinois.
- Haute précision : En combinant le matching de dictionnaire et des modèles statistiques, SCWS a un avantage significatif en termes de précision de segmentation.
- Supporte diverses fonctionnalités : Outre les fonctions de segmentation de base, SCWS prend en charge l'extraction de mots-clés, l'annotation des parties du discours, et d'autres fonctionnalités avancées.
- Facile à intégrer : SCWS offre une API riche, permettant aux développeurs de l'intégrer facilement dans diverses applications.
- Open source : SCWS est un logiciel open source que les développeurs peuvent personnaliser et étendre selon leurs besoins.
Version du module SCWS intégré de ServBay
ServBay prend en charge plusieurs versions de PHP et a préinstallé le module SCWS correspondant pour chaque version. Les versions spécifiques sont les suivantes :
- PHP 5.6 - 8.4 : SCWS 1.2.3
Comment activer le module SCWS
Par défaut, le module SCWS est désactivé. Les étapes pour activer le module SCWS sont très simples ; il suffit de modifier le fichier de configuration de la version PHP correspondante. Voici les étapes détaillées :
Étape 1 : Trouver le fichier de configuration
Tout d'abord, localisez le répertoire conf.d
de la version PHP correspondante. Par exemple, pour activer le module SCWS pour PHP 8.3, nous devons éditer le fichier suivant :
/Applications/ServBay/etc/php/8.3/conf.d/scws.ini
Étape 2 : Éditer le fichier de configuration
Ouvrez le fichier scws.ini
et décommentez le contenu suivant :
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = gbk
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Étape 3 : Redémarrer le service PHP
Dans le panneau de gestion des services de ServBay, redémarrez le service PHP correspondant. Par exemple, redémarrez le service PHP 8.3. Une fois le redémarrage terminé, le module SCWS sera chargé avec succès.
Vérifier si le module SCWS a été chargé avec succès
Vous pouvez vérifier si le module SCWS a été chargé avec succès en créant un simple fichier PHP. Créez un fichier phpinfo.php
dans le répertoire racine du serveur Web avec le contenu suivant :
<?php
phpinfo();
?>
2
3
Accédez à https://servbay.host/phpinfo.php
et recherchez les informations relatives au module SCWS dans la page d'informations PHP affichée. Si vous voyez les informations relatives à SCWS, cela signifie que le module a été chargé avec succès.
Créer un dictionnaire SCWS
Avant d'utiliser SCWS pour la segmentation des mots, vous devez créer et configurer un fichier de dictionnaire. Le fichier de dictionnaire utilisé par SCWS peut être un fichier texte ordinaire ou un fichier binaire au format xdb. Voici les étapes pour créer un dictionnaire :
Étape 1 : Préparer un fichier de dictionnaire
Créez un fichier texte ordinaire contenant les mots et leur fréquence. Le format du fichier est le suivant :
Mot Fréquence
Mot Fréquence
2
Par exemple :
Chine 1000
Pékin 800
Shanghai 600
2
3
Enregistrez ce fichier sous le nom dict.txt
.
Étape 2 : Générer un fichier de dictionnaire au format xdb
SCWS fournit des outils pour générer des fichiers de dictionnaire au format xdb. L'outil SCWS est livré avec ServBay et vous pouvez utiliser la commande suivante pour générer un fichier xdb :
scws-gen-dict -i dict.txt -o dict.utf8.xdb
Cette commande convertira dict.txt
en un fichier dict.utf8.xdb
.
Étape 3 : Configurer SCWS pour utiliser le fichier de dictionnaire
Placez le fichier généré dict.utf8.xdb
dans le répertoire /Applications/ServBay/etc/scws
et assurez-vous de configurer correctement le chemin du dictionnaire dans le fichier scws.ini
:
[scws]
; Uncomment the following line to enable scws
extension = scws.so
scws.default.charset = utf8
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Exemple d'utilisation
Après avoir activé le module SCWS et configuré le dictionnaire, vous pouvez utiliser SCWS pour la segmentation des mots chinois dans le code PHP. Voici un exemple simple :
Code exemple
<?php
// Initialiser SCWS
$scws = scws_new();
$scws->set_charset('utf8');
$scws->set_dict('/Applications/ServBay/etc/scws/dict.utf8.xdb');
$scws->set_rule('/Applications/ServBay/etc/scws/rules.utf8.ini');
// Texte à segmenter
$text = "我是中国人,我爱我的祖国。";
// Effectuer la segmentation
$scws->send_text($text);
// Obtenir les résultats de la segmentation
while ($result = $scws->get_result()) {
foreach ($result as $word) {
echo $word['word'] . "\n";
}
}
// Libérer les ressources SCWS
$scws->close();
?>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Dans le code ci-dessus, nous avons d'abord initialisé SCWS et configuré le charset, le dictionnaire et le fichier de règles. Ensuite, nous avons transmis le texte à segmenter à SCWS et avons utilisé une boucle pour obtenir les résultats de la segmentation. Enfin, nous avons libéré les ressources SCWS.
Conclusion
ServBay offre une manière pratique de gérer et d'activer le module SCWS. Grâce à une configuration simple et une opération de redémarrage, les développeurs peuvent rapidement activer le module SCWS sur différentes versions de PHP, tirant ainsi parti de ses fonctionnalités de segmentation de mots efficaces et précises pour améliorer l'efficacité du traitement des textes chinois. La segmentation efficace, la haute précision et les fonctionnalités riches de SCWS en font un choix incontournable pour l'analyse et le traitement des textes chinois.