Veri Madenciliği ve Makine Öğrenmesi Temel Algoritmaları ve R Dili ile Uygulamaları

Günümüzde büyüyen veri kaynakları ile ihtiyaç duyulan veri analizlerinde en önemli algoritmalar Veri Madenciliği ve Makine Öğrenmesi şemsiyesi altında toplanmıştır. Bu konuda dış kaynaklı bir çok yayın olmasına karşın yeterince Türkçe kaynak özellikle uygulamalı kitap bulunmamaktadır. Prof.Dr. M. Erdal Balaban ve Dr. Elif Kartal’ın ele aldığı bu kitapta algoritmaların anlaşılması için Excel uygulamaları ile küçük örnekler ele alınmış, farklı sektördeki daha büyük ölçekli örneklerin R programlama dili ile uygulamaları yapılmış ve R programlama dilindeki kodları verilmiştir. Bu konuda çalışmak isteyenlere önemli bir kaynak olarak gösterilebilir nitelikte olup kitabın özeti aşağıda verilmiştir.

Araştırmacılar; neredeyse devrim sayılacak bilgisayarların icadından sonra bir adım daha atarak, onların insan gibi çıkarım yapmasını ve karar vermesini hedefleyen yapay zeka çalışmalarına yönelmiştir. Makine Öğrenmesi ve Veri Madenciliği, günümüzde birbirinden farklı pekçok problemin çözümünde kullanılan bu çalışmalara birer örnektir. Her iki alan da veride gizli kalmış örüntünün ortaya çıkarılmasını, gizli bilginin keşfedilmesini; bir nevi veriden öğrenmeyi sağlayan algoritmaları kullanmaktadır.

Tıp, Mühendislik, İşletmecilik gibi belirsizlik taşıyan alanlarda geleceği öngörebilmek ve proaktif kararlar verebilmek için Makine Öğrenmesi ve Veri Madenciliği tekniklerinden yararlanmak oldukça önemli hale gelmiştir. Günümüzde kurum ve kuruluşların elektronik ortamda depoladığı veri miktarındaki artış da bu düşünceyi destekler niteliktedir. Geliştirilen yeni yönetim anlayışı ile insan gücü, para, hammadde ve makineleri yönetmek yerine, bilginin üretilmesi ve yönetilmesine odaklanılmıştır. Rekabet üstünlüğü sağlamak isteyen bireyler, kurumlar ve ülkeler de bıkmadan usanmadan bilginin peşinden koşmaktadırlar.

Veri Madenciliği ve Makine Öğrenmesi’nin ortak paydası olan veriden gizli kalmış bilgiyi çıkarma amacı taşıyan bu kitap; makine öğrenmesi ve veri madenciliğindeki temel algoritmaları ele almıştır. Veriden öğrenme yoluyla sınıflandırma ve kümeleme algoritmaları kullanılarak basit Excel örnekleri ile model kurmanın anlaşılmasına öncelik verilmiştir. Uygulama aracı olarak R programlama dili seçilmiş ve kitapta R programlama diline giriş amacı niteliğinde bir bölüme yer verilmiştir. Kitabın devamı R programlama dili ile yapılan farklı disiplinlerden uygulamaları ve performans ölçümlerini kapsamaktadır. İşletme, Eğitim, Tıp ve Spor alanlarında daha büyük veri setleri üzerinde R kodları ile uygulamalar yapılmıştır.

Kitabın birinci bölümünde yapay zekâ, veri madenciliği ve makine öğrenmesine ilişkin temel kavramlar ele alınmıştır. Danışmanlı Öğrenme, Danışmansız Öğrenme ve Pekiştirmeli Öğrenme kavramları açıklanmış, makine öğrenmesi sürecine örnek olarak Veri Madenciliği için Çapraz Endüstri Standard Süreç Modeli (CRISP Modeli) ele alınmıştır. Oluşturulan modellerin karşılaştırmalarının yapabilmesi için Performans Değerlendirme Yöntemleri ve Ölçütlerine yer verilmiştir. İkinci bölüm Uzaklık Ölçüleri ile başlamaktadır. Sonrasında temel algoritmalardan k-En Yakın Komşu, Basit Bayes Sınıflandırıcı, Logistik Regresyon Analizi, Karar Ağaçları ve k-Ortalamalar algoritmaları teorik çerçevede ele alınmıştır. Basit örneklerle, algoritmaların anlaşılabilirliği pekiştirilmiştir. ID3 ve C4.5 karar ağacı algoritmalarına ek olarak ağaç dallanma niteliğinin seçimi için “Farklılık Kazancı-1” ve “Farklılık Kazancı-2” adında iki yeni öneri getirilmiştir. Algoritma uygulamalarına temel teşkil etmesi için üçüncü bölümde R programlama diline kısa bir giriş yapılmıştır. Sonraki bölümde algoritmaların R programlama dili ile uygulamalarına yer verilmiştir. Eğitim uygulaması olarak Öğretim Performansının Değerlendirmesi, işletme uygulaması olarak Kredi Risk Tahmini, Potansiyel Banka Müşterilerinin Öngörülmesi, spor uygulaması olarak Tenis Maçı Sonucunun Tahmini ile başarı yol haritası, bölümün son örneği olarak da Satışların Kümelenmesi verilmiştir. Beşinci bölümde Kardiyolojik Risk Değerlendirmesi uygulama süreci; problemin tanımlanması, veriyi anlama, veriyi hazırlama, model kurma ve performans değerlendirme, genel değerlendirme ve model seçimi adımlarıyla işlenmiştir. Kitapta ele alınan tüm algoritmalarla ayrı ayrı modeller oluşturulmuş ve bu modellerin performansı ölçülerek model seçimi gerçekleştirilmiştir.

Makine öğrenmesi ve veri madenciliğinin bir arada açıklandığı bu kitabın yazılmasındaki amaçlar aşağıda sıralanmıştır.

  • Ele alınan algoritmaların anlatım dilini sadeleştirmek, böylece sadece matematik ya da mühendislik alanında değil, her alandan araştırmacı için başucu kitabı
    olabilmesi,
  • Gerçek hayattan verilen örnekler yardımı ile algoritmaların ve konunun daha iyi anlaşılmasının sağlanması,
  • Algoritmaların farklı disiplinlerden ve alanlardan alınan veri setleri ile uygulama alanlarının genişletilmesi,
  • Makine öğrenmesi ve veri madenciliği alanında Türkçe literatürün zenginleştirilmesidir.

Bu kitap; akademik hayatta ve iş hayatında veri’den bilgi çıkarımında bulunmak, öngörüye dayalı bu bilgiyi kararlarında kullanmak ve uygulamak isteyenlere tavsiye edilmektedir. Kitap Çağlayan Kitabevinden (www.caglayan.com) edinilebilir.

About the Author