Basit bir tanım yapmak gerekir ise veri madenciliği, büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. Ya da bir anlamda büyük veri yığınları içerisinden gelecek ile ilgili tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranmasıdır. Veri madenciliği deyimi yanlış kullanılan bir deyim olabileceğinden buna eş değer başka kullanımlar da literatüre geçmiştir. Veritabanlarında bilgi madenciliği (knowledge mining from databases), Bilgi çıkarımı(knowledge extraction), data/pattern anaysis (veri ve örüntü analizi), veri arkeolojisi gibi.
Bunların arasındaki en popüler kullanım Veritabanlarında Bilgi Keşfi (VBK – Knowledge Discovery From Databases – KDD) ‘dir. Alternatif olarak veri madenciliği aslında bilgi keşfi sürecinin bir parçası şeklinde kabul görmektedir. Bu adımlar:
1- Veri Temizleme (gürültülü ve tutarsız verileri çıkarmak)
2- Veri Bütünleştirme (birçok veri kaynağını birleştirebilmek)
3- Veri Seçme (Yapılacak olan analiz ile ilgili olan verileri belirlemek )
4- Veri Dönüşümü (Verinin veri madenciliği tekniğinden kullanılabilecek hale dönüşümünü gerçekleştirmek)
5- Veri Madenciliği (Veri örüntülerini yakalayabilmek için akıllı metotları uygulamak)
6- Örüntü Değerlendirme (Bazı ölçümlere göre elde edilmiş bilgiyi temsil eden ilginç örüntüleri tanımlamak)
7- Bilgi Sunumu (Madenciliği yapılmış olan elde edilmiş bilginin kullanıcıya sunumunu gerçekleştirmek),
Veri madenciliği adımı, kullanıcı ve bilgi tabanı ile etkileşim halindedir. İlginç örüntüler kullanıcıya gösterilir, ve bunun ötesinde istenir ise bilgi tabnına da kaydedilebilir. Buna göre, veri madenciliği işlemi, gizli kalmış örüntüler bulunana kadar devam eder.
Bir veri madenciliği sistemi, aşağıdaki temel bileşenlere sahiptir: ·Veritabanı, veri ambarı ve diğer depolama teknikleri ·Veritabanı ya da veri ambarı Sunucusu ·Bilgi Tabanı ·Veri Madenciliği Motoru ·Örüntü Değerlendirme ·Kullanıcı Arayüzü
Veri madenciliği, eldeki verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilginin çıkarılmasıdır. Bu da; kümeleme, veri özetleme, değişikliklerin analizi, sapmaların tespiti gibi belirli sayıda teknik yaklaşımları içerir.
Başka bir deyişle, veri madenciliği, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesidir.
Temel olarak veri madenciliği, veri setleri arasındaki desenlerin ya da düzenin, verinin analizi ve yazılım tekniklerinin kullanılması ile ilgilidir. Veriler arasındaki ilişkiyi, kuralları ve özellikleri belirlemekten bilgisayar sorumludur. Amaç, daha önceden fark edilmemiş veri desenlerini tespit edebilmektir.
Veri madenciliğini istatistiksel bir yöntemler serisi olarak görmek mümkün olabilir. Ancak veri madenciliği, geleneksel istatistikten birkaç yönde farklılık gösterir. Veri madenciliğinde amaç, kolaylıkla mantıksal kurallara ya da görsel sunumlara çevrilebilecek nitel modellerin çıkarılmasıdır. Bu bağlamda, veri madenciliği insan merkezlidir ve bazen insan – bilgisayar arayüzü birleştirilir.
Veri madenciliği sahası, istatistik, makine bilgisi, veritabanları ve yüksek performanslı işlem gibi temelleri de içerir.
Veri madenciliği konusunda bahsi geçen geniş verideki geniş kelimesi, tek bir iş istasyonunun belleğine sığamayacak kadar büyük veri kümelerini ifade etmektedir. Yüksek hacimli veri ise, tek bir iş istasyonundaki ya da bir grup iş istasyonundaki disklere sığamayacak kadar fazla veri anlamındadır. Dağıtık veri ise, farklı coğrafi konumlarda bulunan verileri anlatır.
1. Giriş
Bilgisayar sistemleri her geçen gün hem daha ucuzluyor, hem de güçleri artıyor. İşlemciler gittikçe hızlanıyor, disklerin kapasiteleri artıyor. Artık bilgisayarlar daha büyük miktardaki veriyi saklayabiliyor ve daha kısa sürede işleyebiliyor. Bunun yanında bilgisayar ağlarındaki ilerleme ile bu veriye başka bilgisayarlardan da hızla ulaşabilmek olası. Bilgisayarların ucuzlaması ile sayısal teknoloji daha yaygın olarak kullanılıyor. Veri doğrudan sayısal olarak toplanıyor ve saklanıyor. Bunun sonucu olarak da detaylı ve doğru bilgiye ulaşabiliyoruz.
Örneğin eskiden süpermarketteki kasa basit bir toplama makinesinden ibaretti. Müşterinin o anda satın almış olduğu malların toplamını hesaplamak için kullanılırdı. Günümüzde ise kasa yerine kullanılan satış noktası terminalleri sayesinde bu hareketin bütün detayları saklanabiliyor. Saklanan bu binlerce malın ve binlerce müşterinin hareket bilgileri sayesinde her malın zaman içindeki hareketleri ve eğer müşteriler bir müşteri numarası ile kodlanmışsa bir müşterinin zaman içindeki verilerine ulaşmak ve analiz etmek olası.
Veri kendi başına değersizdir. İstediğimiz amacımız doğrultusunda bilgidir. Bilgi bir amaca yönelik işlenmiş veridir. Veriyi bilgiye çevirmeye veri analizi denir. Bilgi de bir soruya yanıt vermek için veriden çıkardığımız olarak tanımlanabilir. Veri sadece sayılar veya harfler değildir; veri, sayı ve harfler ve onların anlamıdır. Veri hakkındaki bu veriye metaveri diyoruz.
Süpermarket örneğimizde veri analizi yaparak her mal için bir sonraki ayın satış tahminleri çıkarılabilir; müşteriler satın aldıkları mallara bağlı olarak guruplanabilir; yeni bir ürün için potansiyel müşteriler belirlenebilir; müşterilerin zaman içindeki hareketleri incelenerek onların davranışları ile ilgili tahminler yapılabilir. Binlerce malın ve müşterinin olabileceği düşünülürse bu analizin gözle ve elle yapılamayacağı, otomatik olarak yapılmasının gerektiği ortaya çıkar. Veri madenciliği burada devreye girer:
Veri madenciliği büyük miktarda veri içinden gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların bilgisayar programları kullanarak aranmasıdır.
Geleceğin, en azından yakın geleceğin, geçmişten çok fazla farklı olmayacağını varsayarsak geçmiş veriden çıkarılmış olan kurallar gelecekte de geçerli olacak ve ilerisi için doğru tahmin yapmamızı sağlayacaktır.
2. Örnek Uygulamalar
BAĞINTI: “Çocuk bezi alan müşterilerin %30’u bira da satın alır.”
Sepet analizinde (basket analysis) müşterilerin beraber satın aldığı malların analizi yapılır. Buradaki amaç mallar arasındaki pozitif veya negatif korelasyonları bulmaktır. Çocuk bezi alan müşterilerin mama da satın alacağını veya bira satın alanların cips de alacağını tahmin edebiliriz ama ancak otomatik bir analiz bütün olasılıkları gözönüne alır ve kolay düşünülemeyecek, örneğin çocuk bezi ve bira arasındaki bağıntıları da bulur.
SINIFLANDIRMA: “Genç kadınlar küçük araba satın alır, yaşlı, zengin erkekler büyük, lüks araba satın alır.”
Amaç bir malın özellikleri ile müşteri özelliklerini eşlemektir. Böylece bir müşteri için ideal ürün veya bir ürün için ideal müşteri profili çıkarılabilir. Örneğin bir otomobil satıcısı şirket geçmiş müşteri hareketlerinin analizi ile yukarıdaki gibi iki kural bulursa genç kadınların okuduğu bir dergiye reklam verirken küçük modelinin reklamını verir.
REGRESYON: “Ev sahibi olan, evli, aynı iş yerinde beş yıldan fazladır çalışan, geçmiş kredilerinde geç ödemesi bir ayı geçmemiş bir erkeğin kredi skoru 825’dir.”
Başvuru skorlamada (application scoring) bir finans kurumuna kredi için başvuran kişi ile ilgili finansal güvenilirliğini notlayan örneğin 0 ile 1000 arasında bir skor hesaplanır. Bu skor kişinin özellikleri ve geçmiş kredi hareketlerine dayanılarak hesaplanır.
ZAMAN İÇİNDE SIRALI ÖRÜNTÜLER: “İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla kanuni takibe gidiyor.”
Davranış skoru (behavioral score), başvuru skorundan farklı olarak kredi almış ve taksitleri ödeyen bir kişinin sonraki taksitlerini ödeme/geciktirme davranışını notlamayı amaçlar.
BENZER ZAMAN SIRALARI: “X şirketinin hisse fiyatları ile Y şirketinin hisse fiyatları benzer hareket ediyor.”
Amaç zaman içindeki iki hareket serisi arasında bağıntı kurmaktır. Bunlar örneğin iki malın zaman içindeki satış miktarları olabilir. Örneğin dondurma satışları ile kola satışları arasında pozitif, dondurma satışları ile sahlep satışları arasında negatif bir bağıntı beklenebilir.
İSTİSNALAR (FARK SAPTANMASI): “Normalden farklı davranış gösteren müşterilerim var mı?”
Amaç önceki uygulamaların aksine kural bulmak değil, kurala uymayan istisnai hareketleri bulmaktır. Bu da örneğin olası sahtekarlıkların saptanmasını (fraud detection) sağlar. Örneğin Visa kredi kartı için yapılan CRIS sisteminde bir yapay sinir ağı kredi kartı hareketlerini takip ederek müşterinin normal davranışına uymayan hareketler için müşterinin bankası ile temasa geçerek müşteri onayı istenmesini sağlar.
DÖKÜMAN MADENCİLİĞİ: “Arşivimde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?”
Amaç dökümanlar arasında ayrıca elle bir tasnif gerekmeden benzerlik hesaplayabilmektir (text mining). Bu genelde otomatik olarak çıkarılan anahtar sözcüklerin tekrar sayısı sayesinde yapılır.
3. Veri Ambarları ve Veri Madenciliği
Veri madenciliği büyük miktarda veri inceleme amacı üzerine kurulmuş olduğu için veri tabanları ile yakından ilişkilidir. Gerekli verinin hızla ulaşılabilecek şekilde amaca uygun bir şekilde saklanması ve gerektiğinde hızla ulaşılabilmesi gerekir. Günümüzde yaygın olarak kullanılmaya başlanan veri ambarları günlük kullanılan veri tabanlarının birleştirilmiş ve işlemeye daha uygun bir özetini saklamayı amaçlar.
Günlük veri tabanlarından istenen özet bilgi seçilerek ve gerekli önişlemeden sonra veri ambarında saklanır. Ardından amaç doğrultusunda gerekli veri ambardan alınarak veri madenciliği çalışması için standart bir forma çevrilir.
Veri ambarında veri oluşturulduktan sonra bu verinin elle veya gözle analizi yapılabilir. Bunun için OLAP (Online Analytical Processing) programları kullanılır. Bu programlar veriye her boyutu veride bir alana karşılık gelen çokboyutlu bir küp olarak bakmayı ve incelemeyi sağlar. Böylece boyut bazında guruplama, boyutlar arasındaki korelasyonları inceleme ve sonuçları grafik veya rapor olarak sunma olanağı sağlar.
Veri madenciliğinde amaç, kullanıcının bilgi çıkarma sürecinde katkısının olabildiğince az tutulması, işin olabildiğince otomatik olarak yapılabilmesidir. Çünkü OLAP programlarını kullanırken bulunabilecek sonuçlar kullanıcının sormayı düşündüğü sorgularla sınırlıdır. Ama veri içinde çocuk bezi ile bira örneğindeki bağıntı gibi kullanıcının hiç aklına gelmeyecek bilgiler de olabilir. Zaten veri madenciliğinde esas amaç bu tip bilgileri bulabilmektir.
4. Bir Veri Madenciliği Çalışması Örneği
Bir finans kurumu olduğumuzu ve insanlara kredi verdiğimizi varsayalım. Geçmişte kredi verdiğimiz insanların bazıları kredilerini normal olarak geri ödemiş, bazılarıysa ödeyememiş ve kanuni takibe düşmüş olsun. Bu örnekte yapmak istediğimiz bu kişilerin özelliklerine bakarak ödemelerini düzenli yapan müşterileri, kanuni takibe düşmüş (defaulted) müşterilerden ayırabilmektir.
Bu uygulama için standart formda veri her kolonunun bir alan, her satırının da bir kişi ile ilgili bilgilerin olduğu bir tablodur. Amaç, alanlardan birinin değerini (Kredi durumu) ilgili diğer alan bilgileri cinsinden açıklayan bir kural bulabilmektir. Veri analizini karmaşık yapan satır (kayıt) sayısından çok, sütün sayısı, yani boyut sayısı (istatistiksel terimle) veya alan sayısıdır (bilgisayar terimiyle).
Veriyi görselleştirebilmek için sadece iki alan olduğunu varsayalım. Bunlar yıllık gelir ve birikim olsun. Örnek veri bu iki boyutlu uzayda noktalar olarak çizilebilir. Amacımız bu iki boyutlu uzayda kredisini normal ödemiş ve kanuni takipe düşmüş iki gurup kişilere karşılık gelen noktaları birbirinden ayıran bir sınır bulabilmektir. Bu bir sınıflandırma problemidir. Eğer böyle bir sınır bulabilirsek yeni bir kredi başvurusunda bu kişinin birikim ve yıllık gelirine bakarak iki boyutlu uzayda sınırın hangi tarafında kaldığına bakarak, hangi guruba ait olduğuna dair karar verilebilir.
Sınıflandırma için kullanılabilecek birçok teknik vardır. Bunlardan bir tanesi de karar ağaçlarıdır (decision trees). Bu veri üzerinde karar ağacı kullanılınca bulunan sınır Şekil 3’de, karşılık gelen karar ağacının yapısı da Şekil 4’te verilmiştir. Bu karar ağacı şu kurala karşılık gelir:
EĞER yıllık gelir> 1 VE birikim> 2 İSE Normal Ödeme
DEĞİLSE Kanuni Takip
Karar ağaçlarının en büyük yararı veriden öğrenilen kuralın anlaşılır bir şekilde yazılabilmesidir. 1 ve 2 iki boyuttaki eşik değerleridir. Karar ağacının yapısı ve bu eşik değerleri karar ağacı öğrenme algoritması tarafından veriden otomatik hesaplanır.
Veri örneği. Kullanılan iki alanın tanımladığı iki boyutlu uzayda standart formdaki her kişi ile ilgili bilgi bir noktaya karşılık gelir. Sınıflandırmada amaç bu uzayda iki sınıfa ait (normal ödenmiş ve kanuni takibe gitmiş) noktaları birbirinden ayıran bir sınır bulabilmektir.
5. Metodoloji
Bir veri madenciliği çalışmasında kullanılan metodoloji Şekil 6’da verilmiştir. Standart form içinde verilen veri, öğrenme ve deneme olmak üzere ikiye ayırılır. Her uygulamada kullanılabilecek birden çok teknik vardır ve önceden hangisinin en başarılı olacağını kestirmek olası değildir. Bu yüzden öğrenme kümesi üzerinde L değişik teknik kullanılarak L tane model oluşturulur. Sonra bu L model deneme kümesi üzerinde denenerek en başarılı olanı, yani deneme kümesi üzerindeki tahmin başarısı en yüksek olanı seçilir.
Eğer bu en iyi model yeterince başarılıysa kullanılır, aksi takdirde başa dönerek çalışma tekrarlanır. Tekrar sırasında başarısız olan örnekler incelenerek bunlar üzerindeki başarının nasıl arttırılabileceği araştırılır. Örneğin standart forma yeni alanlar ekleyerek programa verilen bilgi arttırılabilir; veya olan bilgi değişik bir şekilde kodlanabilir; veya amaç daha değişik bir şekilde tanımlanabilir.
6. Kullanılan teknikler
İSTATİSTİKSEL YÖNTEMLER: Veri madenciliği çalışması esas olarak bir istatistik uygulamasıdır. Verilen bir örnek kümesine bir kestirici oturtmayı amaçlar. İstatistik literatüründe son elli yılda bu amaç için değişik teknikler önerilmiştir. Bu teknikler istatistik literatüründe çokboyutlu analiz (multivariate analysis) başlığı altında toplanır ve genelde verinin parametrik bir modelden (çoğunlukla çokboyutlu bir Gauss dağılımından) geldiğini varsayar. Bu varsayım altında sınıflandırma (classification; discriminant analysis), regresyon, öbekleme (clustering), boyut azaltma (dimensionality reduction), hipotez testi, varyans analizi, bağıntı (association; dependency) kurma için teknikler istatistikte uzun yıllardır kullanılmaktadır (Rencher, 1995).
BELLEK TABANLI YÖNTEMLER: Bellek tabanlı veya örnek tabanlı bu yöntemler (memory-based, instance-based methods; case-based reasoning) istatistikte 1950’li yıllarda önerilmiş olmasına rağmen o yıllarda gerektirdiği hesaplama ve bellek yüzünden kullanılamamış ama günümüzde bilgisayarların ucuzlaması ve kapasitelerinin artmasıyla, özellikle de çok işlemcili sistemlerin yaygınlaşmasıyla, kullanılabilir olmuştur. Bu yönteme en iyi örnek en yakın k komşu algoritmasıdır (k-nearest neighbor) (Mitchell, 1997).
YAPAY SİNİR AĞLARI: 1980’lerden sonra yaygınlaşan yapay sinir ağlarında (artificial neural networks) amaç fonksiyon birbirine bağlı basit işlemci ünitelerinden oluşan bir ağ üzerine dağıtılmıştır (Bishop, 1996). Yapay sinir ağlarında kullanılan öğrenme algoritmaları veriden üniteler arasındaki bağlantı ağırlıklarını hesaplar. YSA istatistiksel yöntemler gibi veri hakkında parametrik bir model varsaymaz yani uygulama alanı daha geniştir, ve bellek tabanlı yöntemler kadar yüksek işlem ve bellek gerektirmez.
KARAR AĞAÇLARI: İstatistiksel yöntemlerde veya yapay sinir ağlarında veriden bir fonksiyon öğrenildikten sonra bu fonksiyonun insanlar tarafından anlaşılabilecek bir kural olarak yorumlanması zordur. Karar ağaçları ise veriden oluşturulduktan sonra yukarıdaki örnekte de olduğu gibi ağaç kökten yaprağa doğru inilerek kurallar (IF-THEN rules) yazılabilir (Mitchell, 1997). Bu şekilde kural çıkarma (rule extraction), veri madenciliği çalışmasının sonucunun geçerlenmesini sağlar. Bu kurallar uygulama konusunda uzman bir kişiye gösterilerek sonucun anlamlı olup olmadığı denetlenebilir. Sonradan başka bir teknik kullanılacak bile olsa karar ağacı ile önce bir kısa çalışma yapmak, önemli değişkenler ve yaklaşık kurallar konusunda bize bilgi verir ve tavsiye edilir.
7.Kredi Skor Hesabı
Kredi, bir finansal kurum tarafından bir müşteriye ödünç verilen ve faiz eklendikten sonra genelde düzenli aralıklı taksitler halinde geri ödenmesi gereken paradır. Bir kredi başvurusunda müşterinin krediyi geriye ödeyememesi olasılığını (propensity to default) hesaplamaya kredi skorlama (credit scoring) denir. Buna davranış veya performans skorlamadan ayırmak için başvuru skorlama da denir. Başvuru skorlamada (application scoring) kredi başvurusu sırasında müşterinin kredi talebi için not verilir. Davranış veya performans skorlama (behavior/performance scoring) ise kredi almış ve taksitlerini ödemekte olan bir müşteriyi değerlendirmekte kullanılır; örneğin kredi kartının limitini değiştirmek, yenilemede yeni kartın süresi, olası sorunların tahmini, geç ödeme durumunda alınacak eylem bu şekilde belirlenebilir.
Skorlama yaparak yüksek riskli müşterilere kredi vermeyi reddetmek finansal kurumun olası zararını azaltacak, düşük riskli müşterilere kredi vererek kârını arttıracak, üstelik müşterilerin ödeyemeyecekleri kredilerden dolayı rahatsızlığını azaltacaktır.
Skorkartı (score-card) denilen bir istatistiksel model, müşterinin başvuru formundaki bilgilere ve diğer —örneğin kredi izleme bürosundan gelen— bilgilere dayanarak kredinin geriye ödenememesi olasılığını hesaplar. Bu değer uygun bir eşik değeri ile karşılaştırılarak kredi talebi kabul veya red edilir.
Skorkartı geçmiş müşterilerin verilerinden oluşturulur ve genelde basit bir ağırlıklı toplamadır. Tipik olarak kullanılan alanlar şunlardır:
• İkamet adresinde oturduğu zaman: 0-1, 1-2, 3-4, 5+ yıl
• Ev durumu: Sahip, kiracı, diğer
• Postakodu: Kodlanmış
• Telefon: Evet, hayır
• Yıllık gelir: Kodlanmış
• Kredi kartı: Evet, hayır
• Yaş: 18-25, 26-40, 41-55, 55+ yıl
• Meslek: Memur, işçi, serbest, işsiz, …
• Medeni hali: Evli, bekar, diğer
• Bankanın müşterisi olduğu zaman: yıl
• Çalıştığı kurumda çalışma zamanı: yıl
Müşteri ile ilgili her bilginin iyi müşteriyi kötüden ayırmaktaki etkisine göre bir ağırlığı vardır. Kullanılan alanlar ve ağırlıkları veriden otomatik olarak hesaplanır. Örneğin:
Kredi kartı Evet: +50
Hayır: –20
Kredi talep kararlarının elle değilde otomatik olarak verilmesinin birçok yararı vardır:
• Daha doğru karar vermeyi sağlar; kârı arttırır.
• Bir skorkartı standardizasyon ve nesnel karar getirir; kişilerin değerlendirmesi öznel olabilir. Böylece kurumun bütün şubelerinde tutarlı olarak aynı kararın verilmesi sağlanır.
• Hızlı ve ucuzdur; talebin yoğun olduğu durumlarda kredi başvuruları konusundaki kararların elle verilebilmesi olası değildir.
• Kullanılan tek skorkartının üzerinde kurumun kontrolü vardır ve örneğin eşik değeri ile oynayarak müşterilerin kalitesi denetlenebilir.
• Müşterilerin (veya genel ekonominin) değişmesi durumunda (population drift), yeni skorkartı otomatik olarak kolay ve hızlı bir şekilde hesaplanabilir.
Skorkartının oluşturulabilmesi için geçmiş müşterilerin iyi risk ve kötü risk olarak guruplanabilmesi gerekir. İyi risk örneğin hiç geç ödemesi olmayan müşteri, kötü risk de örneğin üç veya daha fazla arka arkaya geç ödeme yapmış müşteriler olabilir; bir veya iki defa arka arkaya geç ödemesi olan müşteriler belirsizdir ve skor kartı oluşturmada kullanılmaz.
Kötü riski tanımlamak kolay değildir; belki geç ödemeler daha yüksek faiz nedeniyle kurum için kârlı olabilir. Gerçekte tanımlamak istediğimiz zarara neden olan müşteridir. Yapmak istediğimiz kârlı ve zararlı müşterileri birbirinden ayırabilmektir.
Bu şekilde kârlı ve zararlı müşterilerin bilgileri iki gurup olarak verildikten sonra genelde doğrusal regresyon veya doğrusal ayırıcı (linear discriminant) kullanılarak alanların ağırlıkları hesaplanır. Bu ağırlıklar hesaplandıktan sonra kabul/red eşiği hesaplanır. Bunun için her iyi müşterinin kuruma kaç birim kârlı, her kötü müşterinin kuruma kaç birim zararlı olduğunun verilebilmesi gerekir. Hangi değerin üstünde beklenen toplam kâr beklenen toplam zararı aşarsa o değer eşik olarak kabul edilir.
Kredi skoru kredi talebini kabul/red kararı dışında da kullanılabilir: Kredi verirken riske bağlı fiyatlandırma yapılabilir. Örneğin yüksek riskli bir müşteriyi reddetmek yerine daha yüksek bir faizle veya daha küçük bir miktarla kabul edebiliriz. İyi müşteriler için başka ürünler (cross-selling), daha yüksek kredi limitleri gibi kararlar verebiliriz. Davranış skorlamada kredi skoruna göre eylemimiz değişir: Geç ödeme durumunda iyi bir müşteriyi hiç rahatsız etmeyiz, başka bir müşteriye telefon açarız, daha kötü (skoru daha düşük) bir müşteri için kanuni takibe gideriz.
Sınıflandırma başarısı bir skorkartı sisteminin tek performans kıstası değildir. Bundan başka skor hesap hızı, gerektiğinde skorkartının güncelleştirilme hızı, skorkartının anlaşılma kolaylığı ve verilen kararın kolay açıklanabilmesi önemlidir.
Bir müşteri için kabul kararı verince zaman içinde o müşterinin kârlı mı, zararlı mı olduğunu görüyoruz ama reddettiğimiz bir müşteri için gerçek sonucu bilemeyiz. Bu da örnek kümemizin gittikçe daralması anlamına gelir. Buna neden olmamak ve skorkartımızın sınıflandırma başarısını iyileştirebilmek için normalde red edeceğimiz müşterilerle ilgili ek bilgi almaya çalışmak yararlıdır. Bunun için örneğin kredi izleme bürosundan o kişiye kredi vermiş başka finans kurumlarının o kişi ile ilgili bilgisine başvurulabilir; ya da reddetmek yerine daha küçük bir miktarla müşteri olarak kabul edilebilir veya böyle kişilerden çok azı denemek ve bilgi kazanmak için kabul edilebilir. Eğer skorkartımızın başarısını arttırmak bizim için bir miktar zarardan daha önemli ise bu ticari olarak mantıklı bir davranış olur.
8. Sepet Analizi
Sepet analizinde amaç alanlar arasındaki ilişkileri bulmaktır. Bu ilişkilerin bilinmesi şirketin kârını arttırmak için kullanılabilir. Eğer X malını alanların Y malını da çok yüksek olasılıkla aldıklarını biliyorsanız ve eğer bir müşteri X malını alıyor ama Y malını almıyorsa o potansiyel bir Y müşterisidir.
Örneğin internet üzerinden kitap satan Amazon şirketi (http://www.amazon.com) BookMatcher adlı programıyla müşterilerine okudukları ve sevdikleri kitaplara göre satın almaları için kitap tavsiye etmektedir.
Eğer elimizdeki veride mallar için sadece satın alındı/alınmadı bilgisi varsa, sepet analizinde mallar arasındaki bağıntı, destek ve güven kıstasları aracılığıyla hesaplanır. İki mal, X ve Y, için destek (support) ve güven (confidence) tanımları şöyledir:
Destek: P(X ve Y) = X ve Y mallarını satın almış müşteri sayısı / Toplam müşteri sayısı
Güven: P(X|Y)=P(X ve Y)/P(Y)
= X ve Y mallarını satın almış müşteri sayısı / Y malını satın almış müşteri sayısı
Destek veride bu bağıntının ne kadar sık olduğunu, güven de Y malını almış bir kişinin hangi olasılıkla X malını alacağını söyler. Bağıntının önemli olması için her iki değerin de olabildiğince büyük olması gerekir.
Eğer elimizde malların müşteri tarafından ne kadar tüketildiği, ne kadar beğenildiği ile ilgili bilgi varsa o zaman bağıntı daha iyi hesaplanabilir. Örneğin süpermarkette müşterinin aylık toplam X malı kullanma miktarı hesaplanabilir. Amazon’un BookMatcher programı okuyuculara okudukları her kitap için 1 ile 5 arasında bir beğeni notu vermelerini ister. Bu durumda X ve Y nümerik veriler olduğundan X ile Y’nin korelasyonu hesaplanabilir:
Corr(X,Y)=Cov(X,Y)/(Std(X)*Std(Y))
X ile Y’nin kovaryansı birbirlerine göre doğrusal olarak nasıl değer aldıklarını belirtir:
Cov(X,Y)=E[(X-mX) (Y-mY)]
mX X’lerin ortalaması, std(X)’de standart sapmasıdır. Örneğimizde mX X malının ortalama olarak ne kadar beğenildiğini, std(X) de beğenilerin bu ortalama etrafında ne kadar değişken olduğunu gösterir.
Eğer X’i sevenler genelde Y’yi de sevdiyse hem X, hem de Y değeri ortalamadan daha yüksek olacak ve Cov(X,Y)>0 olacaktır. Aynı şekilde X ve Y beraber beğenilmiyorsa her iki değer de ortalamadan küçük olacak ve yine Cov(X,Y)>0 olacaktır. Eğer X’i beğenenler Y’yi beğenmediyse (veya aksi takdirde) değerlerden biri ortalamadan yüksek, diğeri ortalamadan düşük olacak ve Cov(X,Y)
Bu şekilde olası bütün mallar arasında korelasyon bilgileri varsa X’i kullanan ve seven kişiye tavsiye edilecek Y müşterinin kullanmadığı diğer bütün mallar arasında X ile korelasyonu en fazla ve olabildiğince 1’e yakın olan mal olmalıdır.
9. Sonuçlar
VERİNİN ÖNEMİ: Veri madenciliğinde amaç çok büyük miktardaki ham veriden değerli bilginin çıkarılmasıdır. Çok miktarda güvenilir (hata ve eksiklerin olmadığı) veri önşarttır çünkü çözümün, yani çıkarılan kuralların kalitesi öncelikle verinin kalitesine bağilıdır. Veri madenciliği simya değildir; taşı altına çeviremeyiz.
UZMANIN ÖNEMİ: Veri madenciliği çalışması bilgisayarcıların ve uygulama konusundaki uzmanların ortak çalışmasıdır. Her ne kadar olabildiğince otomatik olmasını istesek de uzmanların yardımı ve desteği olmadan başarılı olmak sözkonusu değildir. Uzmanlar amacı tanımlar. Uygulama ile ilgili sonuca yararlı olabilecek her tür bilginin sisteme verilmesi gerekir ve bunları da ancak uzmanlar bilir. Ayrıca çalışma ile alınan sonuçların yorumlanması ve geçerlenmesi uzmanlar tarafından yapılır.
SABRIN ÖNEMİ: Veri madenciliği tek aşamalı bir çalışma değildir, tekrarlıdır. Sistem ayarlanana dek birçok deneme gerektirebilir. Çalışma uzun olabilir. Buna çalışan ekibin ve yönetimin hazırlıklı olması, kısa vadede çok büyük beklentilere sahip olunmaması gerekir.
10. Sonuç
Bir veri madenciliği çalışması için öncelikle çok miktarda kaliteli veri gerekir. Amaç bu veri içinde saklı, gelecekle ilgili tahmin yapmakta kullanılabilecek kural ve bağıntıların çıkarılmasıdır. Böyle bir çalışmanın başarılı olması için uygulama konusundaki uzmanların veri tabanları ve veri madenciliği konusundaki uzmanlarla beraber çalışması gerekir. Çalışma uzun sürebilir; zaman ve sabır gerekir.
Kaynaklar
A.C. Rencher (1995) Methods of Multivariate Analysis, Wiley.
T. Mitchell (1997) Machine Learning, McGraw-Hill.
C. Bishop (1996) Neural Networks for Pattern Recognition, Oxford Univ Press.
S. M. Weiss, N. Indurkhya (1998) Predictive Data Mining: A Practical Guide, Morgan Kaufmann.
ACM Special Interest Group on Knowledge Discovery and Data Mining, SIGKDD Explorations Journal’,’Veri Madenciliği