Bir kelimenin ne anlama geldiğini nasıl biliriz? Eğer kelimemiz bir kalem ise işimiz kolay olabilir, yazı yazarken elimizde tuttuğumuz nesneyi kalem ifadesiyle eşleştirebiliriz. Peki ya “İki kalem erzak aldım.” cümlesindeki kalem elimdekiyle aynı olabilir mi? “kalem” kelimesinin “çeşit” anlamında mı, “yazma aleti” anlamında mı yoksa diğer dört anlamından biri olarak mı kullanıldığı bir anlam belirsizliğidir. Doğal dil işlemede, bu anlamlardan birini doğru olarak seçmek için yapılan işleme anlam belirsizliği giderme denir.
Basit görünen, somut bir kelime için bile tek ve her zaman geçerli bir tanımdan bahsetmek mümkün değil, bu yüzden sözlüklerde kelimelerin birden fazla anlam bölümü var. Hangi tanımı seçeceğimize karar vermek için ise kelimenin içinde geçtiği bağlamı bilmemiz gerekir. Bağlamda olan, kelimenin gerçek anlamıyla olan bağıntısını belirleyen kavrama ise içlem (sense) diyoruz.
Doğal dil işlemede anlam belirsizliği gidermenin kabaca iki yöntemi vardır.
Bunlardan birincisi “sözcüksel örnek” (lexical sample) yoludur. Anlamlarıyla birlikte küçük bir kelime grubu seçilir ve bu kelimelerden belirsizlik içerenler içinde geçtiği cümleler göz önünde bulundurularakbir insan tarafından etiketlenir. Bu metodun avantajlı yanı, kelimelerin mümkün olan bütün anlamlarını etiketleme anında tablodaki gibi listelemesidir. Çünkü işaretlemeciler kelimelerin bütün anlamlarını birden düşünemeyebilir ve yanlış işaretlemeler olabilir. Ayrıca her kelime için anlam araştırması yapmak da etiketleme süresini uzatacaktır.
Örneğin, aşağıdaki tabloda kalem kelimesi için altı farklı içlem vardır. “İki kalem erzak aldım” cümlesindeki kalem kelimesinin anlamını belirleyebilmek için işaretleyiciler tablodaki altı farklıanlamdan birini seçer.
İçlem | Tanım | Anlam |
---|---|---|
kalem1 | yazma, çizme vb. işlerde kullanılan araç | Kalem masanın üstünde. |
kalem2 | Resmî kuruluşlarda yazı işlerinin görüldüğü yer. | Kalemimiz bugün hizmet vermeyecektir. |
kalem3 | yontma işlerinde kullanılan ucu sivri veya keskin araç. | Oymacı kalemi. |
kalem4 | çeşit, tür | Beş kalem ilaç. |
kalem5 | bazı deyimlerde yazı | Kaleme almak. |
kalem6 | yazar | Peyami Safa, edebiyatımızın usta kalemlerindendir. |
İkinci yöntem ise “bütün kelimeler” (all words) metodudur. Bu yöntemde verideki bütün kelimeler aynı anda sisteme yüklenir ve işaretleyiciler cümlelerdeki bütün kelimeleri içlemlerine göre işaretler. Sistemi eğitmek için, bu yöntemle sisteme aktarılan kelimelerin her bir içlemi Tablo 1’deki gibi sınıflandırıcılarla işaretlenir. Bir sonraki adımda, kelimenin kökü, büyük harfle yazılıp yazılmadığı, cümlenin hangi ögesi olarak kullanıldığı gibi özellikleri her bir içlemi birbirinden ayırmak için kullanılır. İçlemler sınıflandırıldığında karar ağacı gibi sınıflandırıcı mekanizmalar sistemi yeni kelimelerin içlemlerini kendi kendine işaretlemesi için eğitebilir.