Özet:
Bilginin yapı taşını oluşturan veri, üretim kaynaklarının hacmi, çeşitliliği ve hızı nedeniyle devasa bir büyüklüğe ulaşmıştır. Meydana gelen bu nicelik içinden nitelikli faydanın elde edilmesi ise ayrı bir disiplin olarak ele alınması gereken bir yapıya dönüşmüştür. Bu sebeple yapay zeka, iletişim ağları, güvenlik, depolama ve gizlilik gibi birçok alt disiplini bünyesinde bütünleyen Büyük Veri olgusu doğmuştur. Veri biliminin ihtiyaç duyduğu tek çatı altında birleşme ile, bilgi birkez daha çeşitli sahalarda önemini perçinlemiştir. Büyük verilerin işlenmesi ile biyomedikal alanda doktorlar daha nesnel kararlar verebilirken, hastalara ait veriler daha sistematik bir şekilde planlanabilmektedir. Finans sektöründe yatırımlar sezgisel adımlar yerine, piyasaların duyarlılığının kesitirilmesi ile elde edilen veriler doğrultusunda yapılmaktadır. Endüstriyel uygulamalarda organizasyon planlamaları yine iş zekası çerçevesinde geliştirilmektedir. Bunlarla birlikte nesnelerin interneti ve bulut bilişim gibi teknolojiler, geniş-ölçek seviyesindeki veri akışını ve yönetimini mümkün kılarak büyük veri olgusunu geniş bir uygulama yelpazesine yaymaktadır. Büyük veri kavramı, bütünleşik veya dağıtık verinin saklanması ve organize edilmesinin yanı sıra analitik olarak işlenmesini de içermektedir. Veri madenciliği alanında geliştirilen geleneksel algoritmalar ve donanımlar, işlenmesi gereken örnek miktarının üssel olarak artması nedeniyle hesaplama yükü ve depolama ihtiyaçları bakımından yetersiz kalmaktadır. Yeni nesil geliştirilen yöntemlerin en temel özelliklerinden birinin ölçeklenebilir olması kaçınılmaz olmuştur. Bu bağlamda, öne sürülen algoritmaların paralel çalışma teknikleri veya grafik işlemcilerinin güçlü mimarileri üzerinden geliştirilmesiyle büyük veri analitiği etkin araçlara kavuşmuştur. Özellikle derin öğrenme temelinde üretilen modellerin çok fazla veri ile eğitilmesi ile sergiledikleri başarımlar, makine öğrenmesi ve büyük veri kombinasyonunun çığır açıcı etkilerini gözler önüne sermiştir. Eğiticili sınıflandırma problemlerinde sınıf başına düşen eğitim örneği ne kadar fazla ise modellerin veriyi betimleme kabiliyetleri o derece iyi olmaktadır. Bu çerçevede, geniş-ölçek veriler büyük bir fırsat sağlamaktadır. Diğer taraftan çok sınıflı (>1000) ve sınıf başına az örnek (<10) kullanılarak modellerin eğitilmesi, üzerinde çalışılması gereken önemli bir konudur. Bu tanım, gerçek hayatta biyometrik verilerin sınıflandırılması problemi ile yakından ilgilidir. Dolayısıyla tez kapsamında, eğiticili öğrenme alanına yönelik olarak evrişimsel sinir ağı temelinde özgün bir sınıflandırma modeli önerilmiştir. Az sınıflı veri setleri, içerdikleri verinin çok fazla ve yoğun olması nedeniyle istatistiksel yöntemlerin analiz menziline girebilmektedirler. Özellikle, veri setindeki sınıflar arasında ayırt edici öznitelikler istatistiksel olarak çıkartılabilmesi eğitim sürecini hızlandırmaktadır. Bu doğrultuda, eğiticili öğrenme içinde belirlenen bu alana yönelik yerel histogram tabanlı bir yöntem ortaya koyulmuştur. Yerel histogramlar öznitelik olarak ele alınmış ve örnekler arası benzerlik metriği için simetrik Kullback-Leibler Diverjansı kullanılmıştır. Sınıflandırmaya yönelik ağırlıklı K-En Yakın Komşu algoritması tercih edilmiştir. Bu adımlar bütününde oluşturulan algoritma, serviks dokularının sınıflandırılması probleminde test edilmiştir. Ayrıca, eğiticisiz öğrenme dahilinde var olan bölütleme problemi kapsamında, yüksek çözünürlüğe sahip görüntülerde çakışık nesnelerin ayrıştırılması konusu ele alınmış, uyarlamalı olarak veri azaltma tekniği temelinde etkili bir algoritma geliştirilmiştir. Bu algoritma, çakışık nesneleri sınır pikselleri üzerinden çözebilecek şekilde k-Ortalama algoritmasının temelini oluşturan kayıp fonksiyonunun yeniden tanımlanması ile ortaya konmuştur. Geliştirilen yöntem histopatoloji alanında önemli bir problem olan çakışık hücrelerin bölütlenmesine uyarlanarak literatüre katkılar sunulmuştur.