Derlem (Corpus) Nedir?

Markanızın veritabanında büyük miktarlarda depolanmış olan metinsel verilerinizin, doğal dil işleme (Natural Language Procesing – NLP) uygulamaları ile yapılandırılarak metin madenciliği, derin öğrenme, makine öğrenimi veya yapay zeka süreçlerine hazır hale getirilmiş koleksiyonuna derlem (corpus) denir.

Derleminiz, ihtiyacınıza yönelik seçmiş olduğunuz markanıza ait metinsel verilerden oluşturulduğu için hazır Türkçe derlemde yer alan ancak alanınızla alakası olmayan kelimeler bulunmaz. Sadece kendi sektörünüz / alanınızla ilgili kelimeler yer alır ve uygulanan doğal dil işleme uygulamalarına göre işaretlemeler yapılır. Böylece doğru etiketlendirme yapılan ve anlamları işaretlenen metinsel verilerinizi, metin madenciliği, derin öğrenme, makine öğrenimi veya yapay zeka süreçlerinize etkili bir şekilde entegre edebilirsiniz.

Hangi Verilerden Derlem Oluşturulabilir?

Metin madenciliği, derin öğrenme, makine öğrenimi veya yapay zeka süreçlerine dahil edilmek istenen her türlü metinsel veriden derlem oluşturulabilmektedir.

En çok derlem oluşturulan metinsel verilerden bazıları şunlardır:

  • Müşteri Yorumları
  • Müşteri Şikayetleri
  • Sosyal Medya Yorumları
  • İş Süreçlerine ait Dökümanlar
  •  İnternet Sitesinde Yer Alan Metinler

 

Hangi Doğal Dil İşleme Uygulamaları Derleminize Dahil Edilir?

İhtiyacınıza yönelik farklı doğal dil işleme uygulamaları derleminize dahil edilir. Bu uygulamalardan bazıları şunlardır: 

  • Kelimelere Ayırma (Tokenization)
  • Kelime Türü Etiketleme (POS Tagging)
  • Yanlış Yazım Düzeltme
  • Varlık İsimleri Etiketleme
  •  Anlamsal İşaretleme (Lexical Analysis)
  • İsim Öbekleri (Noun Chunks)

Derleminiz Neden Dil Bilimciler Tarafından Oluşturulmalıdır?

Derleminiz oluşturulurken dil bilimci ekibimiz, metinsel verilerinizde yer alan her bir kelimeyi titizlikle inceler.

  • Verilerinizin anlamını korursunuz.

    Doğal dil işleme (NLP) süreçlerine dahil edebildiğiniz farklı repolarda hazır bulunan sözlükler, metinsel verilerinizi doğru yapılandıramaz. Bunun nedeni Türkçenin sondan eklemeli kök temelli bir dil olması ve esnek bir dil olmasıdır. Dil bilimcilerden oluşan ekibimiz, yapılandırılmamış metinsel verinizi detaylı bir şekilde inceleyerek Türkçenin özelliklerine ve bulunduğunuz sektöre göre yapılandırır.

  • Süreçleriniz hızlanır ve doğru analizler elde edersiniz.

    Derleminiz (corpusunuz) sayesinde yapılandırılmamış metinsel verilerinizi yapılandırmak için uğraşmak zorunda kalmaz, süreçlerinizi hızlandırırsınız. Sektöre özgü kelimeler derleminizde yer aldığı için kelimelerin anlamları doğru işaretlenir böylece doğru analizler elde edersiniz.