Wordtovec, doğal dil işleme alanında oldukça kullanılan algoritmalar bütünüdür. Bu algoritma, kelimeler arasındaki uzaklığı hesaplamayı amaçlar. Wordtovec, word embedding’i (kelime temsil) destekleyen bir modeldir. Word embedding’de (kelime temsil), bir kelime vektörel olarak sınıflandırılır: Numaralarla. Peki kelimelerin, numaralarla ifade edilmesini neden isteriz? Kelime üzerinde çalışırken, verinin makinenin anlayacağı biçime dönüştürülmesi gerekir. Kelimelerin numaralara çevrilmesi ile derin öğrenme gerçekleştirilebilir.
Wordtovec, tahmin tabanlı bir word embedding (kelime temsil) yöntemidir. Algoritma, cümleleri kelimelere bölmekten daha fazlasını yapar ve pek çok uygulamaya adapte edilebilir. Aynı zamanda, benzer kelimelerin vektörlerini (numaralandırılmış versiyonlarını) bir araya gruplar. Bu sayede matematiksel olarak benzerlikleri tespit eder. Bu benzerlikler, kelimelerin diğer kelimelerle ilişkisini de gösterir ve kelimeleri alanlarına göre kümeler. Örneğin, e-ticaret ile ilgili kelimeler matematiksel olarak numaralandırılıp gruplandırılabilir ve doğal dil işleme için kullanılabilecek önerilere bir temel oluşturabilir. Her kelimenin kendisine bağlı bir vektörü vardır, bu vektör ile ilişkiler sorgulanabilir.
Bu duruma bir örnek vermek gerekirse, çikolata kelimesi hem abur cubur grubuna girebilir, hem de tatlı grubuna. Bu kelimenin iki farklı grubu olacaktır, kelimenin vektörel numarasına ve yakın kelimelerine bakınca iki küme olarak şekillendiği görülebilir. Bir kümede çikolata, bisküvi, cips, kek gibi kelimeler ile, diğer kümede ise şeker, pasta, kurabiye gibi kelimeler ile gruplanmış olur. Burada kümelerin kesişme noktası da olacaktır. Örneğin, kurabiye hem abur cubur olarak sayılabilen hem de tatlı olan bir kelimedir. Çikolata kelimesinin yakınlığı iki gruba da yakın olduğundan kesişme kümesi içinde olması doğal olacaktır.
Wordtovec’in kullandığı iki model vardır: CBOW (Continuous Bag of Words) ve Skip-Gram Model. CBOW’da, pencere boyutu merkezinde olmayan kelimeler girdi olarak alınır ve pencere boyutu merkezinde olan kelimeler çıktı olarak tahmin edilmeye çalışılır. Skip-Gram’da ise, tam tersi bir modelleme mevcuttur. Pencere boyutu merkezinde olan kelimeler girdi olarak alınırken, pencere boyutu merkezinde olmayan kelimeler çıktı olarak tahmin edilmeye çalışılır. Bu modellemeler arasında, CBOW modeller küçük datasetler ile daha iyi çalışırken, Skip-Gram modeller ile büyük datasetler daha iyi çalışır.
Wordtovec’in kullanım alanlarının daha iyi anlaşılması açısından bir örnek vermek gerekirse, bir tatile gitmek isteyen müşteri, internet üzerinden seçeneklerini turizm acenteleri üzerinden araştırırken belirli kriterler girer. Bu kriterlerden birisinin Avrupa ülkeleri olmasını varsayalım. Müşteri, Almanya’ya uygun fiyatlı bir tatil gerçekleştirmek isteyebilir, acente ise müşteriye Avrupa’da olan uygun fiyatlı ülkeleri de önerecektir. Buradaki kesişim kümesi, ülkelerin birbirine yakınlığı olacaktır. Böylece müşteri, Almanya yerine daha uygun fiyatlı olan Avrupa ülkeleri arasından bir seçim yapabilecektir.
Bu örnekten ilerlemek gerekirse, Wordtovec algoritmasının kullanım alanının çok geniş olduğu görülebilir. Bunların arasında, e-ticaret, turizm, havayolu, eğitim gibi sektörler oldukça ön plandadır ve bu gibi teknolojilerin ilerleyen zamanlarda günlük hayatımıza etki edeceğini söyleyebiliriz.