Türkçe doğal dil işleme, gelişmekte olan bir alandır. Türkçe zengin bir dil olarak birçok fazla anlamlı kelimeye sahiptir. Bu anlam fazlalığı özellikle, belirli bir alana özgü işaretleme çalışmalarında karışıklığa yol açabilmektedir.
Bu sebeple, turizm alanına özgü yaptığımız çalışmada büyük Türkçe veri setini kullanmanın yanı sıra elle işaretleme ile en doğru derlemi hazırlamayı amaçladık. Uyguladığımız yaklaşım ile kelimelerin otomatik işaretlenmesinin doğruluğunun artmasını hedefledik ve turizm alanına özgü ilk anlamsal veri setini ortaya koyduk.
Çalışmanın verileri, müşterilerin internet üzerinden yaptığı yorumlar arasından 14.000 girdi seçilerek hazırlanmıştır.
Çalışma iki aşamada gerçekleşmiştir. İlk aşamada 4 işaretleyici ortak olarak çalışarak her sözcük en uygun anlamı seçilerek elle işaretleme yapılmıştır. İkinci aşamada bütün cümleler ve kelimelerin tek pencerede aynı anda görülebildiği ara yüz kullanılarak kelimeler birbirleri ile karşılaştırılmış, bütün derlem bağlamında anlamlarına karar verilerek işaretleme yapılmıştır.
Türkçe kelimelerin anlamlarının çok değişken olabileceği görülmüş, bu anlamların kullanım alanlarına göre değerlendirilmesi gerektiği sonucuna varılmıştır.