SCWS Kullanım Kılavuzu
SCWS (Simple Chinese Word Segmentation), çeşitli Çince metin işleme görevleri için etkili bir Çince kelime bölme sistemidir. ServBay fabrikada SCWS ve PHP modülünü zaten içerir, bu yüzden ek bir kurulum gerekmez. Bu belgede SCWS'nin kurulumu, yapılandırılması ve kullanımı detaylı bir şekilde anlatılacaktır.
İçindekiler
Kurulum ve Yapılandırma
Kurulum
ServBay fabrikada SCWS ve PHP modülünü içerdiği için ek bir kurulum gerekmez.
Yapılandırma
SCWS'nin yapılandırma dosyası /Applications/ServBay/etc/scws
dizinindedir, varsayılan yapılandırma dosyası scws.ini
adını taşır. Kelime bölme davranışını ayarlamak için yapılandırma dosyasını ihtiyaçlarınıza göre değiştirebilirsiniz.
Örnek yapılandırma dosyası içeriği:
[charset]
default = utf8
[rule>
rules = /Applications/ServBay/etc/scws/rules.ini
[dict]
dict = /Applications/ServBay/etc/scws/dict.utf8.xdb
2
3
4
5
6
7
8
Temel Kullanım
SCWS, metin üzerinde kelime bölme işlemi yapmak için scws
komut satırı aracını sağlar. İşte temel kullanım örnekleri:
Kelime Bölme Örnekleri
Bir dizeyi kelime bölme
echo "这是一个中文分词的例子" | scws -i
Metni dosyadan okuyarak kelime bölme
scws -i input.txt -o output.txt
Kelime bölme kurallarını belirtme
scws -i input.txt -o output.txt -r /path/to/rules.ini
Sözlüğü belirtme
scws -i input.txt -o output.txt -d /path/to/dict.utf8.xdb
İleri Düzey Kullanım
Özel Sözlük
Bölme doğruluğunu artırmak için özel sözlük oluşturabilirsiniz. Özel sözlük xdb
formatında olmalıdır ve scws-gen
aracıyla oluşturulabilir.
Özel Sözlük Oluşturma
Bir sözlük metin dosyası
custom_dict.txt
oluşturun, içerik aşağıdaki gibi olsun:özel_kelime1 1 özel_kelime2 2
1
2scws-gen
aracıyla sözlük oluşturun:bashscws-gen -i custom_dict.txt -o custom_dict.xdb
1Yapılandırma dosyasında özel sözlüğü belirtin:
[dict] dict = /Applications/ServBay/etc/scws/dict.utf8.xdb,/path/to/custom_dict.xdb
1
2
Kelime Bölme Kurallarını Ayarlama
Kelime bölme kurallarını tanımlayan dosya rules.ini
dir, ihtiyaçlarınıza göre ayarlama yapabilirsiniz. Varsayılan kural dosyası /Applications/ServBay/etc/scws/rules.ini
dizinindedir.
Örnek kural dosyası içeriği:
[rule]
# Özel kelime bölme kuralları
2
PHP API Kullanımı
ServBay'in PHP çıktısı SCWS modülünü içerir, bu yüzden SCWS modülünü doğrudan PHP kodunda kullanabilirsiniz.
Kullanım Örneği
- PHP kodunda SCWS kullanımı:php
<?php // SCWS kelime segmenterini aç $sh = scws_open(); // Karakter setini ayarla scws_set_charset($sh, 'utf8'); // Sözlük ve kelime bölme kurallarını ayarla scws_set_dict($sh, '/Applications/ServBay/etc/scws/dict.utf8.xdb'); scws_set_rule($sh, '/Applications/ServBay/etc/scws/rules.ini'); // Metni gönder ve kelime segmentasyonu yap scws_send_text($sh, "这是一个中文分词的例子"); // Kelime segmentasyon sonuçlarını al while ($res = scws_get_result($sh)) { foreach ($res as $word) { echo $word['word'], "\n"; } } // SCWS kelime segmenterini kapat scws_close($sh); ?>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Yaygın Kullanılan Fonksiyonlar
scws_open()
: Bir SCWS kelime segmenteri örneği açarscws_set_charset($sh, $charset)
: Karakter setini ayarlarscws_set_dict($sh, $dict_path)
: Sözlük yolunu ayarlarscws_set_rule($sh, $rule_path)
: Kelime bölme kuralı yolunu ayarlarscws_send_text($sh, $text)
: Segmenter metni gönderirscws_get_result($sh)
: Kelime segmentasyon sonuçlarını alırscws_close($sh)
: SCWS kelime segmenteri örneğini kapatır
Sık Sorulan Sorular
1. SCWS'nin kelime segmentasyon sonuçları doğru değil
- Çözüm: Sözlük ve kural dosyasının doğru yapılandırıldığından emin olun. Özel sözlük kullanmayı deneyebilir ve kelime bölme kurallarını ayarlayarak doğruluğu artırabilirsiniz.
2. SCWS performansı düşük
- Çözüm: SCWS'nin verimli bir sözlük formatı (örneğin
xdb
) kullandığından emin olun ve yapılandırma dosyasında doğru bir şekilde belirttiğinizden emin olun.
3. SCWS komut satırı aracı çalışmıyor
- Çözüm: SCWS'nin doğru kurulduğundan ve yapılandırma dosyalarının yollarının doğru olduğundan emin olun. Sorun devam ederse, daha fazla bilgi edinmek için hata loglarını kontrol edin.
Özet
SCWS, çeşitli Çince metin işleme görevleri için etkili bir Çince kelime segmentasyon sistemidir. Bu kılavuz ile ServBay'de SCWS'yi nasıl kurup yapılandıracağınızı ve kullanacağınızı öğrenebilirsiniz.