MDLP NOTES
1- Keeping Neural Networks Simple By Minimizing the Description Length of the Weights
Şimdi, ilk makale ile başlıyorum. 1993 Minimum Description Length Principle ile iligli.
Eğer eğitim sırasında weightlerde, output vectorlerinden daha az bilgi varsa network daha iyi genelleme yapıyormuş. Yani eğitim sırasında weightleri basit tutmak baya önemliymiş. Bunu yapmak işçin de weightin içerdiği biligi miktarını cezalandırabiliriz. Bunu kontrol etmek için Gaussian noise eklenebiliriz böylece bu noise leveller, ağın expected squared error’u ile weight’lerdeki bigi miktarı arasındaki dengeyi optimize etmek için öğrenme sırasında kullanılabiilr.
Non-linear hidden birimler layerı içeren bir networkün beklenen squared error’un ve noisy weightslerde bulunan bilgi miktarının türevlerini kullanaran bir yöntemini açıklımışlar.
Outputlar doğrusal olduğu takdirde, zaman alıcı Monte Carlo simülasyonlarına gerek kalmadan kesin türevler verimli bir şekilde hesaplanabilir.
Bu neural networklerdeki weightlerin iletilmesi için gereken bilgi miktarını azaltma fikri encoding the weights için bir dizi ilginç şemaya yol açarmış.
Yani burdan çıkarılacak sonuç: bu MDL prensibi, bazı dataların en iyi modelleri modelin description lengthi ile o model kullanılarak encode edilen verilerin uzunluğunun toplamını en aza indiren modeldir.
Eğer model complexityi control altına almak ve overfittingi önlemek istiyorsak, MDL prensibini kullanabiliriz.
Description length of the weightsi en aza indirmek için weight-sharing kullanıyor. Yani aynı weightleri birden fazla yerde kullanıyoruz. Bu da modelin complexityini azaltıyor.
—-
2- A Tutorial Introduction to the Minimum Description Length Principle
İkinci makale 2004 - A Tutorial Introduction to the Minimum Description Length Principle Bu aslında bir makale değil 80 sayfalık bir açıklama dökümanı. MDL prensibini detaylı bir şekilde anlamak için bu dökümanı okumak gerekiyor.
—-