Özet:
İçerik tabanlı müzik tanıma sistemleri müzik parçalarını müzik parmak izi olarak isimlendirilen imzalar şeklinde saklarlar. Müzik parmak izi, müzik kaydını özetleyen içerik tabanlı kompakt bir imzadır. Bu yöntem, müzik parçalarının herhangi bir tanım bilgisine ihtiyaç duymadan, formattan bağımsız olarak tanınmasına imkan sağlar. Bu tez çalışmasında bir müzik parçasını kısa bir bölümünden tanıyabilen içerik tabanlı bir Müzik Bilgi Erişimi Sistemi tasarlanmış ve gerçekleştirilmiştir.Sistemde, müzik parçalarından Mel Frekansı Kepstral Katsayıları (Mel Frequency Cepstrum Coefficents - MFCC) özellikleri ile tanımlayıcı akustik bilgiler çıkarılmış ve Saklı Markov Modeli (Hidden Markov Model ? HMM) ile modellenmiştir.MFCC özellikleri müzik verisine ilişkin özelliklerin ortaya konmasında etkili bir yöntemdir. HMM de ardışıl özelliklerin geliş sırası dikkate alınarak sınıflandırılmasını sağlayan bir yöntemdir. MFCC adımlarının müzik verisine uygulanmasıyla elde edilen 12 uzunluklu özellik vektörlerine delta özellikleri eklenerek 36 uzunluklu olarak kullanılmıştır. Özellik vektörleri gerekli normalizasyon işlemlerinin ardından modellemeye uygun hale getirilmiştir.Konuşma tanımada her HMM bir fonemi modeller. Fakat müzikte fonem kavramı yoktur. Çalışmada, konuşma tanımadaki fonemlere benzer yapıda müziği ifade eden akustik müzik birimlerinin eğitmensiz olarak HMM ile modellemesi yapılmıştır. Bu akustik müzik birimlerinin her biri ayrı bir müzik olayını ifade ettiği için AudioGen olarak ifade edilir. AudioGen'lerin eğitimi için eğitim verisinde bulunan müzik parçalarından rastgele alınmış 10-15 sn'lik bölümler birleştirilip toplu bir eğitim seti hazırlanmıştır. Oluşturulan eğitim setinden kümeleme ve HMM eğitim algoritmaları ile istenilen sayıda AudioGen üreten tasarım çalışması yapılmıştır. Her bir AudioGen 3 olaylı ergonomik HMM modelinden oluşmaktadır. Çalışmada 32 adet AudioGen kullanılmıştır.Müzik parçalarının parmak izlerinin üretilebilmesi için AudioGen'ler kullanılır. Müzik parçası küçük parçalara bölünür ve her parçaya kendisini oluşturmuş olma olasılığı en yüksek olan AudioGen atanır. Müzik parçasından dakikada 800 AudioGen içerecek şekilde parmak izleri oluşturulur. Parmak izleri AudioGen'ler dizilimi şeklinde olduğu için AudioDNA olarak adlandırılır.Sistem, eğitim seti içerisinde bulunan müzik parçalarının, farklı kaynaklardan çalınan 10 saniyelik bölümlerinden tanıma yapılması deneysel kurgusu üzerine tasarlanmış ve test edilmiştir. Bu müzik parçası bölümleri için kısa AudioDNA'ler oluşturulur ve veritabanındaki müzik parçası parmak izleri ile karşılaştırılır. Tasarlanan müzik parmak izi yapısının canlı genlerine benzerliğinden ötürü karşılaştırma yöntemi olarak biyoinformatikte kullanılan Smith-Waterman gen hizalama algoritması kullanılmıştır. Dış kaynaktan gelen müzik verisinde ortam gürültüsünün etkisini azaltmak için bilgisayarın mikrofon portu ile müzik çalar arasından ses kablosu kullanılmıştır. Farklı deneysel kurgularla yapılan testlerde %60 -%87,5 arasında tanıma başarısı elde edilmiştir.