VERİ MADENCİLİĞİ ve MAKİNE ÖĞRENMESİ

VERİ MADENCİLİĞİ ve MAKİNE ÖĞRENMESİ

ISTQL 2016-TURKISH SERIES

29 Ağustos-3 Eylül 2016

Doç. Dr. Seda Tolun

İ.Ü İşletme Fakültesi Sayısal Yöntemler Anabilim Dalında Öğretim Üyesi

stolun@istanbul.edu.tr

DERS İÇERİĞİ

Eldeki veri yığınından faydalı bilgi çıkartmak olarak tanımlanan veri madenciliğinin kullanımı, veri yapılarının çeşitliliği, veriye erişimin nispeten kolaylaşması, ve sofistike makine öğrenmesi yöntem ve tekniklerinin geliştirilmesi ile birlikte oldukça önemli hale gelmiştir. Veri madenciliği; istatistik, yapay zeka, görselleştirme, bilgisayar bilimi ve pek çok farklı bilim dalının kesişim noktasında bulunması nedeniyle de farklı uzmanlık alanları tarafından ilgi görmektedir. Eğitim süresince, veri madenciliği yöntemleri ile cevap verilebilecek farklı sorular ve bu sorulara ilişkin farklı veri madenciliği görevleri üzerinde durulacaktır. Bu kapsamda öncelikle genel veri madenciliği süreçleri ve amaçları incelenecektir. İkinci günde ise veriyi tanımamızı sağlayan önanaliz sürecinden ve temel hesaplama ve görselleştirmelerden bahsedilecektir. Kalan günlerde ise çeşitli makine öğrenmesi teknikleri ve bunlara ilişkin R ve Weka uygulamaları gerçekleştirilecektir. Ek olarak da modellerin değerlendirmesi ve seçimi üzerinde durulacaktır.

Bu eğitim veri madenciliğinde kullanılan temel yöntem ve algoritmalar ile R ve Weka programlarındaki uygulamalarını içermektedir. R programı açık kaynak kodlu bir yazılımdır ve http://www.r-project.org adresinden elde edilebilir. Eğitim süresince kullanılacak olan Rstudio ise, R programına entegre edilmiş açık kaynak kodlu bir yazılımdır ve http://www.rstudio.com adresinden indirilebilir. Rstudio’nun kurulumu için bilgisayarınızda öncelikle R programının kurulu olması gerekmektedir. Eğitimde kullanılacak bir başka program olan Weka da yine açık kaynak kodlu bir yazılım olup http://www.cs.waikato.ac.nz/ml/weka/ adresinden indirilebilir.

Eğitim sonunda, çalıştığınız alanla ilgili olarak hangi sorulara hangi veri madenciliği görevleri ile yaklaşmanız gerektiğini çıkartabiliyor, ve elinizdeki veri setleri ile temel makine öğrenmesi tekniklerini kullanarak, R ve Weka programları yardımıyla, uygulama yapabilir düzeyde olmanız beklenmektedir.

Ders Planı   Dersler her gün 9-13 saatleri arasında yapılacaktır

Pazartesi  27 Ağustos

Teorik Kısım: Veri Madenciliğine Giriş (süreçler, amaçlar ve amaçlara ilişkin kullanılan yöntem ve teknikler, uygulama alanları)

Bilgisayar Uygulaması

 

Salı 28 Ağustos

Teorik Kısım: Veri Önanalizi (temel istatistikler, uç değer analizi, görselleştirme)

Bilgisayar Uygulaması

Çarşamba 29 Ağustos

Teorik Kısım: Kümeleme (k-ortalamalar, hiyerarşik kümeleme)

Bilgisayar Uygulaması

Perşembe 30 Ağustos

Teorik Kısım: Birliktelik Kuralları ve Ardışık Örüntüler

Bilgisayar Uygulaması

Cuma 1 Eylül

Teorik Kısım: Tahminleyici Modeller (sınıflandırma ve regresyon ağaçları, destek vektör makineleri, k-en yakın komşu)

Bilgisayar Uygulaması

Cumartesi 2 Eylül

Teorik Kısım: Tahminleyici Modeller (devam)

Model değerlendirme ve seçimi

Bilgisayar Uygulaması

 

Kaynaklar:

Luis Torgo, Data Mining with R: learning with case studies, CRC Press, 2010.

Ian Witten, Eibe Frank, Mark Hall, Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann, 2011.

ve veri madenciliği ve makine öğrenmesi üzerine tüm ulusal ve uluslararası kaynaklar

Bilgisayar Yazılımı: R, Rstudio, Weka