Veri İşaretleme Mantığı

Bu doküman veri işaretleme mantığını anlamak içindir. Katkı sağlamak için direkt olarak Algoritmayı Eğit sayfasına gidebilirsiniz.

Veri İşaretleme Nedir?

Veri işaretleme herhangi bir verinin bir insan tarafından okunarak değerlendirilmesi ve bu değerlendirmenin sistematik olarak veri üzerine işlenmesidir. Ham veri olarak adlandırılan bir veya birden fazla ifade veri işaretlemesinden geçtikten sonra işaretlenmiş veri haline gelir. Örneğin aşağıdaki gibi bir liste bir ham veridir.

Ham Veri:

Kelime
adi
alçak
kahpe
saldırı

Ancak bu verileri bir değerlendirici kişi şöyle işaretleyebilir. Bu durumda işaretlenmiş veri elde edilir. Elde edilen bu bilgi birebir "algoritma eğitim verisidir" başka bir deyimle algoritma yakıtıdır. Yapay zeka uzmanı bu verilerden çok büyük ve yeterli miktarda veriye sahip olduğunda artık algoritma insanın yaptığı bu işaretlemeyi kendi yapabilir hale gelir.

Kelime Etiket
adi ötekileştirici
alçak ötekileştirici
muhalif ötekileştirici değil
saldırı ötekileştirici değil

Haber İşaretleme Nedir?

Yukarıdaki işaretleme türü verinin işaretlemesinin ayrı bir kolonda yapılması şeklindeydi. Haber işaretleme çalışmalarında ise veri metnin üzerine işaretlenmelidir. Örneğin ham verimiz diyelim ki Youtube'da bir videoun altında geçen şu yorumlar olsun:

Metin
Suriyelilere bile bu imkanlar sağlanıyor ama esnafa hiç bir şey verilmiyor!
Memleket ne idüğü belirsiz kafirlerin cirit attığı yer oldu. Bu memleket bunları hak etmiyor

Yukarıdaki gibi iki haber ya da tek bir satırda yer alan haber fark etmez, değerlendirici tarafından okunup şu hale getirildiğinde yine eğitim verisidir. Bu örnekte, yani haber işaretleme yaparken cümleleri işaretlediğimize dikkat edin.

Metin
Suriyelilere bile bu imkanlar sağlanıyor. Esnafa hiç bir şey verilmiyor!
Bu memleket bunları hak etmiyor.Memleket ne idüğü belirsiz kafirlerin cirit attığı yer oldu.

Son tablomuzda da haberlerimizi işaretlemiş olduk. Peki bunu nasıl yaptık. Çok basit: problemli gördüğümüz ifadeyi 'otekilestime' yazan etiket içine koyarak.

<xsuriyeli>Problemli ifade</xsuriyeli>

Bir ifadeyi bu şekilde yazmak onu makinenin anlayabileceği hale getirmektedir. Makine sadece ötekileştirici ifadeleri değil, ötekileştirici olmayan ifadeleri de tanımak zorundadır. Bunu yapmak için ise ekstra bir şeye gerek yok. Aşağıdaki örnekte makine ilk cümleyi ötekileştirici olarak öğrenecek. Sonraki cümle olan Esnafa hiç bir şey yok ifadesinde bir etiketleme olmadığı için normal kabul edecek ve böylece öğrenecektir.

<xsuriyeli>Suriyelilere bile bu imkanlar sağlanıyor</xsuriyeli>. Esnafa hiç bir şey verilmiyor!

Turnusol için ne yapabilirim

Yukarıdaki karışık prosese ihtiyaç yok direkt olarak şu kısa kılavuza bakarak başlayın: Cümle Değerlendirme Kılavuzu