وثائق استخدام SCWS
SCWS (تقسيم الكلمات الصينية البسيطة) هو نظام تقسيم نصوص صيني فعال، ويمكن استخدامه في مهام معالجة النصوص الصينية المختلفة. يتضمن ServBay عند التسليم SCWS ووحدة PHP الخاصة به، وستشرح هذه الوثيقة بالتفصيل كيفية تثبيت وتكوين واستخدام SCWS.
الفهرس
التثبيت والتكوين
التثبيت
يتضمن ServBay عند التسليم SCWS ووحدة PHP الخاصة به، ولا تحتاج إلى تثبيت إضافي.
التكوين
يقع ملف تكوين SCWS في دليل /Applications/ServBay/etc/scws
، وملف التكوين الافتراضي هو scws.ini
. يمكنك تعديل ملف التكوين حسب الحاجة لضبط سلوك تقسيم الكلمات.
محتوى ملف التكوين النموذجي:
[charset]
default = utf8
[rule]
rules = /Applications/ServBay/etc/scws/rules.ini
[dict]
dict = /Applications/ServBay/etc/scws/dict.utf8.xdb
2
3
4
5
6
7
8
الاستخدام الأساسي
توفر SCWS أداة سطر الأوامر scws
لتقسيم النصوص. فيما يلي بعض الأمثلة الأساسية للاستخدام:
أمثلة على تقسيم الكلمات
تقسيم سلسلة نصية
echo "这是一个中文分词的例子" | scws -i
قراءة النص من ملف لتقسيم الكلمات
scws -i input.txt -o output.txt
تعيين قواعد التقسيم
scws -i input.txt -o output.txt -r /path/to/rules.ini
تعيين القاموس
scws -i input.txt -o output.txt -d /path/to/dict.utf8.xdb
الاستخدام المتقدم
قاموس مخصص
يمكنك إنشاء قاموس مخصص لتحسين دقة تقسيم الكلمات. يجب أن يكون القاموس المخصص بتنسيق xdb
، ويمكنك إنشاؤه باستخدام أداة scws-gen
.
إنشاء قاموس مخصص
إنشاء ملف نصي للقاموس
custom_dict.txt
بالمحتوى التالي:自定义词1 1 自定义词2 2
1
2استخدم أداة
scws-gen
لإنشاء القاموس:bashscws-gen -i custom_dict.txt -o custom_dict.xdb
1تعيين القاموس المخصص في ملف التكوين:
[dict] dict = /Applications/ServBay/etc/scws/dict.utf8.xdb,/path/to/custom_dict.xdb
1
2
تعديل قواعد التقسيم
ملف قواعد التقسيم rules.ini
يحدد كيفية تقسيم الكلمات، ويمكنك تعديله حسب الحاجة. يقع ملف القواعد الافتراضي في /Applications/ServBay/etc/scws/rules.ini
.
محتوى ملف القواعد النموذجي:
[rule]
# 自定义分词规则
2
استخدام واجهة برمجة تطبيقات PHP
الإصدار الذي يخرج من المصنع من ServBay بالفعل يحتوي على وحدة SCWS لـ PHP، ويمكنك استخدام SCWS لتقسيم النصوص الصينية مباشرة في كود PHP.
مثال على الاستخدام
- استخدام SCWS في كود PHP:php
<?php // فتح مقسم SCWS $sh = scws_open(); // تعيين مجموعة الأحرف scws_set_charset($sh, 'utf8'); // تعيين القاموس وقواعد التقسيم scws_set_dict($sh, '/Applications/ServBay/etc/scws/dict.utf8.xdb'); scws_set_rule($sh, '/Applications/ServBay/etc/scws/rules.ini'); // إرسال النص لتقسيمه scws_send_text($sh, "这是一个中文分词的例子"); // الحصول على نتيجة التقسيم while ($res = scws_get_result($sh)) { foreach ($res as $word) { echo $word['word'], "\n"; } } // إغلاق مقسم SCWS scws_close($sh); ?>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
الدوال الشائعة
scws_open()
: فتح نسخة مقسم SCWSscws_set_charset($sh, $charset)
: تعيين مجموعة الأحرفscws_set_dict($sh, $dict_path)
: تعيين مسار القاموسscws_set_rule($sh, $rule_path)
: تعيين مسار قواعد التقسيمscws_send_text($sh, $text)
: إرسال النص الذي سيتم تقسيمهscws_get_result($sh)
: الحصول على نتيجة التقسيمscws_close($sh)
: إغلاق نسخة مقسم SCWS
الأسئلة الشائعة
1. نتيجة SCWS غير دقيقة
- الحل: تأكد من أن قاموس وقواعد التقسيم كليهما معينان بشكل صحيح. يمكنك تجربة استخدام قاموس مخصص وتعديل قواعد التقسيم لتحسين دقة التقسيم.
2. أداء SCWS ليس جيدًا
- الحل: تأكد من أن SCWS يستخدم تنسيق قاموس فعال (مثل
xdb
)، وتأكد من تعيينه بشكل صحيح في ملف التكوين.
3. لا يمكن تشغيل أداة سطر الأوامر SCWS
- الحل: تأكد من تثبيت SCWS بشكل صحيح، وتأكد من صحة مسار ملف التكوين. إذا استمرت المشكلة، قم بمراجعة سجل الأخطاء للحصول على مزيد من المعلومات.
الخلاصة
SCWS هو نظام تقسيم نصوص صيني فعال، يمكن استخدامه لمهام معالجة النصوص الصينية المختلفة. من خلال هذه الوثيقة، يمكنك تعلم كيفية تثبيت وتكوين واستخدام SCWS لتقسيم النصوص الصينية في ServBay.