blog image

Deasciification Nedir?

Teknolojinin oldukça büyük bir yer kazandığı günümüzde, özellikle cep telefonu gibi teknolojik aletlerin kullanımı sırasında Türkçe harflerin kullanımına gösterilen dikkatin büyük ölçüde azaldığını görmekteyiz. Azalan dikkat ile yazım esnasında ortaya çıkan bu tür sorunları çözmek için yapılan işe Deasciification denir. Deasciification işlemi yapılırken ASCII kullanılır. ASCII ile karakterler, Türkçe karakterlere çevrilebilir.

Özellikle resmi yazışmalarda Türkçe kelimelerin bu şekilde yanlış yazımı ortaya hem hoş bir görüntü vermemekte, hem de metin madenciliği üzerine çalışan araştırmacıların işini zorlaştırmaktadır. Oysa ki bu sorunu otomatik deasciification ile ortadan kaldırmak oldukça kolaydır.

Bir kullanıcının bir siteye yaptığı bir yorumu örnek alalım. “Verdiginiz hizmetten cok memnun kaldim.” Olarak yazılan cümle, deasciifier sayesinde Türkçe karakterler ile değiştirilebilir ve doğru versiyonuna ulaşabilir. Bu sayede cümlenin asıl versiyonu olan “Verdiğiniz hizmetten çok memnun kaldım.” şeklinde düzgün bir Türkçe ile işlenebilir.

Deasciification işlemiyle ilgili bazı noktalar kafa karıştırıcı olabilir. Bir kelimenin hem ASCII hem de Türkçe karakterlerle yazımının var olabildiği düşünülürse, bu noktada doğru kelimenin seçimi oldukça önemli olacaktır. “Oldu” ve “öldü” kelimelerinin ikisi de Türkçe dili içerisinde anlama sahiptir, ancak “Kedimin bir yavrusu oldu” ve “kedimin bir yavrusu öldü” birbirlerinden tamamen farklı anlamlara sahip iki cümledir. Bu durumda deasciification’dan öte, kelimelerin kullanım alanlarına, bir kelimeden sonra hangi kelimenin gelme ihtimalinin daha yüksek olduğuna bakılmalıdır. Bunun için NGram modelleme kullanılabilir, ancak bu gibi ekstrem örnekler dışında deasciifier düzgün Türkçe kullanılan metinler elde etmek için oldukça kullanışlıdır.

Özellikle doğal dil işleme (natural language processing – NLP) çalışılan durumlarda, çok büyük miktarlarda verinin işlendiği düşünülürse; deasciification ile bu verinin içerisindeki yazım yanlışlarından kaynaklanan hataların pek çoğunun giderilebileceği görülebilir zira büyük miktarlardaki verinin elle düzeltilebilmesi pek mümkün değildir. Bu noktada deasciifier, hem zaman kazanımı, hem de doğruluğundan emin olunan metinlerin elde edilmesini sağlar.

Starlang Yazılım olarak geliştirdiğimiz açık kaynak ve ücretsiz ulaşabileceğiniz Türkçe Deasciifier kütüphanesi ile Türkçe metinsel verilerinizi düzeltebilirsiniz.