pg_jieba Kullanım Kılavuzu
pg_jieba
, Jieba kelime ayırıcısına dayanan, PostgreSQL için üçüncü taraf bir genişletme modülüdür ve özellikle Çince tam metin arama için kullanılır. Bu modül, Çince metinleri verimli bir şekilde parcelleştirir, böylece tam metin arama işlevini destekler. Bu makalede, pg_jieba
'nın ServBay'de nasıl kurulacağı ve kullanılacağı detaylı bir şekilde anlatılacaktır.
pg_jieba Kurulumu
ServBay, pg_jieba
genişletme modülü ile birlikte gelir, bu yüzden yapmanız gereken tek şey veritabanınızda bunu etkinleştirmektir. İşte pg_jieba
'nın etkinleştirilme adımları:
PostgreSQL veritabanına bağlanın:
bashpsql -U your_username -d your_database
1Genişletme modülü oluşturun:
sqlCREATE EXTENSION pg_jieba;
1Kurulumu doğrulayın:
sql\dx
1
pg_jieba Konfigürasyonu
pg_jieba
etkinleştirildikten sonra, Çince kelime ayrımı ve tam metin araması için bazı ayarlamalar yapmanız gerekecektir.
Metin Arama Konfigürasyonu
Metin arama konfigürasyonu oluşturun:
sqlCREATE TEXT SEARCH CONFIGURATION chinese (PARSER = pg_jieba);
1Sözlük ekleyin:
sqlALTER TEXT SEARCH CONFIGURATION chinese ADD MAPPING FOR n,v,a,i,e,l WITH simple;
1
pg_jieba ile Tam Metin Araması Kullanımı
Aşağıda, pg_jieba
ile tam metin aramasının nasıl yapılacağını gösteren bir örnek bulunmaktadır.
Örnek Tablo ve Veri Oluşturma
Tablo oluşturun:
sqlCREATE TABLE documents ( id SERIAL PRIMARY KEY, content TEXT );
1
2
3
4Örnek veri ekleyin:
sqlINSERT INTO documents (content) VALUES ('doğal dili işleme seviyorum'), ('Çince kelime ayırma, metin işlemenin önemli bir adımıdır'), ('pg_jieba, harika bir Çince kelime ayırma aracıdır');
1
2
3
4
Tam Metin Arama İndeksi Oluşturma
- GIN indeksi oluşturun:sql
CREATE INDEX idx_gin_content ON documents USING gin (to_tsvector('chinese', content));
1
Tam Metin Araması Gerçekleştirme
Arama sorgusu çalıştırın:
sqlSELECT * FROM documents WHERE to_tsvector('chinese', content) @@ to_tsquery('chinese', 'Çince & kelime');
1
2Bu sorgu, "Çince" ve "kelime" kelimelerini içeren dokümanları döndürecektir.
Özelleştirilmiş Sözlük
Belirli uygulama ihtiyaçlarını daha iyi karşılamak için pg_jieba
'nın sözlüğünü özelleştirebilirsiniz.
Özelleştirilmiş Kelimeler Ekleme
Özelleştirilmiş sözlük dosyası oluşturun:
plaintext/Applications/ServBay/etc/scws/custom_dict.txt
1Dosyaya her satıra bir kelime ekleyin:
plaintextdoğal dili işleme Çince kelime
1
2pg_jieba
'yı özelleştirilmiş sözlüğü kullanacak şekilde yapılandırın:sqlSET pg_jieba.dict_path = '/Applications/ServBay/etc/scws/custom_dict.txt';
1
Sözlüğü Yeniden Yükleme
- Sözlüğü yeniden yükleyin:sql
SELECT jieba_reload_dict();
1
Özet
pg_jieba
, Çince kelime ayırımı için güçlü bir araçtır ve basit bir konfigürasyon ve kullanım ile PostgreSQL'de verimli Çince tam metin araması gerçekleştirebilirsiniz. ServBay, pg_jieba
genişletme modülü ile birlikte gelir, bu yüzden bu adımları takip ederek hızlıca kurulumu ve konfigürasyonu yapabilir ve kullanmaya başlayabilirsiniz. Özelleştirilmiş sözlük ile, belirli uygulama ihtiyaçlarını karşılamak için kelime ayırma performansını daha da optimize edebilirsiniz.