Comment activer le module SCWS intégré de ServBay
En tant qu'outil de développement web intégré puissant, ServBay est livré avec un module SCWS dont le processus d'activation est très simple. SCWS (Simple Chinese Word Segmentation) est un moteur de segmentation de mots chinois efficace, capable de traiter rapidement et précisément le texte chinois, idéal pour les moteurs de recherche, l'analyse de texte, et d'autres applications.
Présentation du module SCWS
SCWS est un moteur de segmentation de mots chinois open-source, spécialement conçu pour traiter le texte chinois. Il combine des méthodes de correspondance de dictionnaires et de modèles statistiques pour offrir une segmentation efficace et précise. SCWS ne se limite pas à la segmentation de base, il prend également en charge l'extraction de mots-clés, l'étiquetage des parties du discours et d'autres fonctionnalités avancées.
Principales caractéristiques
- Segmentation efficace: SCWS utilise un algorithme de segmentation efficace capable de traiter rapidement de grands volumes de texte chinois.
- Haute précision: En combinant des modèles de correspondance de dictionnaires et statistiques, SCWS possède un avantage significatif en termes de précision de la segmentation.
- Prend en charge de nombreuses fonctionnalités: Outre la segmentation de base, SCWS prend en charge l’extraction de mots-clés, l'étiquetage des parties du discours et d'autres fonctions avancées.
- Facile à intégrer: SCWS fournit une API riche, permettant aux développeurs de l'intégrer facilement dans diverses applications.
- Open-source: SCWS est un logiciel open-source que les développeurs peuvent personnaliser et étendre selon leurs besoins.
Version du module SCWS intégré de ServBay
ServBay prend en charge plusieurs versions de PHP et pré-installe le module SCWS correspondant à chaque version. Versions spécifiques:
- PHP 5.6 - 8.4: SCWS 1.2.3
Comment activer le module SCWS
Par défaut, le module SCWS est désactivé. Le processus pour l'activer est très simple : il suffit de naviguer vers Langue
-PHP
, de sélectionner la version PHP pour laquelle activer le module, par exemple PHP 8.4
, cliquer sur Extensions
à droite, puis activer le commutateur à gauche du module SCWS
et sauvegarder.
Les utilisateurs peuvent également activer ou modifier la configuration du module manuellement, les étapes détaillées sont les suivantes :
Étape 1 : Trouver le fichier de configuration
Tout d'abord, localiser le répertoire conf.d
de la version PHP correspondante. Par exemple, pour activer le module SCWS pour PHP 8.3, vous devez éditer le fichier suivant :
/Applications/ServBay/etc/php/8.3/conf.d/scws.ini
Étape 2 : Éditer le fichier de configuration
Ouvrez le fichier scws.ini
et décommentez les lignes suivantes :
[scws]
; Décommentez la ligne suivante pour activer scws
extension = scws.so
scws.default.charset = gbk
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Étape 3 : Redémarrer le service PHP
Dans le panneau de gestion des services de ServBay, redémarrez le service PHP correspondant. Par exemple, redémarrez le service PHP 8.3. Une fois le redémarrage terminé, le module SCWS sera chargé avec succès.
Vérifier si le module SCWS est chargé avec succès
Vous pouvez créer un simple fichier PHP pour vérifier si le module SCWS est chargé avec succès. Créez un fichier phpinfo.php
à la racine du serveur Web, avec le contenu suivant :
<?php
phpinfo();
?>
2
3
Accédez à https://servbay.host/phpinfo.php
, et dans la page d'information PHP générée, cherchez les informations relatives au module SCWS. Si vous voyez les informations SCWS, cela signifie que le module est correctement chargé.
Créer un dictionnaire SCWS
Avant d'utiliser SCWS pour la segmentation de mots, vous devez créer et configurer un fichier dictionnaire. Le fichier dictionnaire utilisé par SCWS peut être un fichier texte ordinaire ou un fichier binaire au format xdb. Voici les étapes pour créer le dictionnaire :
Étape 1 : Préparer le fichier dictionnaire
Créez un fichier texte ordinaire contenant les mots et leur fréquence. Le format du fichier est le suivant :
mot1 fréquence1
mot2 fréquence2
2
Par exemple :
Chine 1000
Beijing 800
Shanghai 600
2
3
Enregistrez ce fichier sous le nom dict.txt
.
Étape 2 : Générer le fichier dictionnaire au format xdb
SCWS fournit un outil pour générer un fichier dictionnaire au format xdb. L'outil SCWS est préinstallé avec ServBay et la commande suivante peut être utilisée pour générer un fichier xdb :
scws-gen-dict -i dict.txt -o dict.utf8.xdb
Cette commande convertira le fichier dict.txt
en dict.utf8.xdb
.
Étape 3 : Configurer SCWS pour utiliser le fichier dictionnaire
Placez le fichier généré dict.utf8.xdb
dans le répertoire /Applications/ServBay/etc/scws
et assurez-vous que le chemin du dictionnaire est correctement configuré dans le fichier scws.ini
:
[scws]
; Décommentez la ligne suivante pour activer scws
extension = scws.so
scws.default.charset = utf8
scws.default.fpath = /Applications/ServBay/etc/scws
2
3
4
5
Exemple d'utilisation
Après avoir activé le module SCWS et configuré le dictionnaire, vous pouvez utiliser SCWS pour la segmentation de texte chinois dans le code PHP. Voici un exemple simple :
Code exemple
<?php
// Initialiser SCWS
$scws = scws_new();
$scws->set_charset('utf8');
$scws->set_dict('/Applications/ServBay/etc/scws/dict.utf8.xdb');
$scws->set_rule('/Applications/ServBay/etc/scws/rules.utf8.ini');
// Texte à segmenter
$text = "我是中国人,我爱我的祖国。";
// Effectuer la segmentation
$scws->send_text($text);
// Obtenir les résultats de la segmentation
while ($result = $scws->get_result()) {
foreach ($result as $word) {
echo $word['word'] . "\n";
}
}
// Libérer les ressources SCWS
$scws->close();
?>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Dans le code ci-dessus, nous initialisons d'abord SCWS et définissons le jeu de caractères, le dictionnaire et le fichier de règles. Ensuite, nous transmettons le texte à segmenter à SCWS et récupérons les résultats de la segmentation via une boucle. Enfin, nous libérons les ressources SCWS.
Conclusion
ServBay offre un moyen pratique de gérer et d'activer le module SCWS. À travers des configurations simples et un redémarrage, les développeurs peuvent rapidement activer le module SCWS dans différentes versions de PHP, tirant ainsi parti de sa fonctionnalité de segmentation efficace et précise pour améliorer l'efficacité du traitement de texte chinois. La segmentation efficace, la haute précision et les nombreuses fonctionnalités de SCWS en font un choix incontournable pour l'analyse et le traitement du texte chinois.