Torbalama (Bootstrap Toplama) - Genel Bakış, Nasıl Çalışır, Avantajlar

Topluluk makine öğrenimi, temel olarak torbalama ve güçlendirme olarak kategorize edilebilir. Torbalama tekniği hem regresyon hem de istatistiksel sınıflandırma için kullanışlıdır. Torbalama, varyansın azaltılmasında ve doğruluğun iyileştirilmesinde modellerin kararlılığını önemli ölçüde artırdığı ve aşırı uydurma zorluğunu ortadan kaldıran karar ağaçları ile kullanılır.

Torbalama

Şekil 1. Torbalama (Bootstrap Toplama) Akışı. Kaynak

Toplu makine öğreniminde torbalama, birkaç zayıf model alır ve en iyi tahmini seçmek için tahminleri bir araya getirir. Zayıf modeller, özellik alanının farklı bölümlerinde uzmanlaşır ve bu da, en yüksek amaca ulaşmak için her modelden torbalama kaldıraç tahminlerinin gelmesini sağlar.

Hızlı Uygulama

  • Torbalama ve güçlendirme, toplu makine öğreniminin iki ana yöntemidir.
  • Torbalama, regresyon ve sınıflandırmada kullanılabilen toplu bir yöntemdir.
  • Aynı zamanda, torbalamanın iki sınıflandırmasını oluşturan bootstrap aggregation olarak da bilinir.

Bootstrapping nedir?

Torbalama iki bölümden oluşur: toplama ve önyükleme. Önyükleme, değiştirme yöntemi kullanılarak bir kümeden bir örneğin seçildiği bir örnekleme yöntemidir. Öğrenme algoritması daha sonra seçilen örnekler üzerinde çalıştırılır.

Önyükleme tekniği, seçim prosedürünü tamamen rastgele yapmak için örneklemeyi değiştirmelerle kullanır. Değiştirilmeden bir örnek seçildiğinde, sonraki değişken seçimleri her zaman önceki seçimlere bağlıdır ve bu nedenle kriterleri rastgele olmaz.

Toplama nedir?

Model tahminleri, mümkün olan tüm sonuçları göz önünde bulundurmak için nihai tahmin için bunları birleştirmek üzere bir araya getirilir. Toplama, toplam sonuç sayısına veya prosedürdeki her modelin önyüklemesinden türetilen tahminlerin olasılığına dayalı olarak yapılabilir.

Topluluk Yöntemi nedir?

Hem torbalama hem de güçlendirme, en önde gelen topluluk tekniklerini oluşturur. Topluluk yöntemi, aynı öğrenme algoritmasını kullanarak eğitimde birden çok modele yardımcı olan bir makine öğrenimi platformudur. Topluluk yöntemi, daha büyük bir çoklu sınıflandırıcılar grubunun bir katılımcısıdır.

Çoklu sınıflandırıcılar, ortak bir sorunu kaynaştırıp çözebilen ortak bir hedefe sahip binlerce öğrenciden oluşan bir gruptur. Çoklu sınıflandırıcıların bir başka kategorisi de hibrit yöntemlerdir. Karma yöntemler bir dizi öğrenci kullanır, ancak çoklu sınıflandırıcılardan farklı olarak, farklı öğrenme yöntemleri kullanabilirler.

Öğrenme, esas olarak önyargı, gürültü ve sapmadan kaynaklanan hatalar gibi birçok zorlukla karşı karşıyadır. Makine öğreniminin doğruluğu ve kararlılığı, torbalama ve güçlendirme gibi toplu yöntemlerle garanti edilir. Çoklu sınıflandırıcı kombinasyonları, özellikle sınıflandırıcıların kararsız olduğu durumlarda varyansı azaltır ve tek bir sınıflandırıcıdan daha güvenilir sonuçlar sunmada önemlidir.

Torbalama veya güçlendirme uygulaması, önce temel bir öğrenci algoritmasının seçilmesini gerektirir. Örneğin, biri bir sınıflandırma ağacı seçerse, o zaman yükseltme ve torbalama, kullanıcının tercihine eşit büyüklükte bir ağaç havuzu olacaktır.

Torbalamanın Avantaj ve Dezavantajları

Rastgele Orman Rastgele Orman Rastgele orman, tahminlerin modellenmesinde ve davranış analizinde kullanılan bir tekniktir ve karar ağaçları üzerine inşa edilmiştir. Rastgele bir orman birçok karar ağacı içerir, en popüler torbalama algoritmalarından biridir. Torbalama, birçok zayıf öğrencinin tek bir güçlü öğrenciyi aşma çabalarını birleştirmesine izin verme avantajını sunar. Aynı zamanda varyansın azaltılmasına da yardımcı olur, dolayısıyla aşırı uydurmayı ortadan kaldırmak Aşırı uydurma, bir fonksiyon prosedürdeki belirli bir model veri kümesine çok yakın olduğunda ortaya çıkan bir modelleme hatasını ifade eden istatistiklerde kullanılan bir terimdir.

Torbalamanın bir dezavantajı, bir modelin yorumlanabilirlik kaybına neden olmasıdır. Ortaya çıkan model, uygun prosedür göz ardı edildiğinde çok fazla önyargı yaşayabilir. Torbalama son derece doğru olmasına rağmen, hesaplama açısından pahalı olabilir ve bu, belirli durumlarda kullanılmasını engelleyebilir.

Torbalama ve Artırma

Torbalama ve güçlendirme arasında kullanılacak en iyi teknik, mevcut verilere, simülasyona ve o andaki mevcut koşullara bağlıdır. Bir tahminin varyansı, kombinasyon prosedürü sırasında torbalama ve artırma teknikleriyle önemli ölçüde azaltılır ve böylece doğruluk artar. Bu nedenle, elde edilen sonuçlar, bireysel sonuçlardan daha yüksek stabilite göstermektedir.

Bir etkinlik düşük performans zorluğunu ortaya koyduğunda, torbalama tekniği daha iyi bir önyargı ile sonuçlanmayacaktır. Bununla birlikte, güçlendirme tekniği, tek bir modelde avantajların optimizasyonu ve eksikliklerin azaltılmasına odaklandığından, daha düşük hatalarla birleşik bir model oluşturur.

Tek bir modeldeki zorluk fazlasıyla uygun olduğunda, torbalama yöntemi, güçlendirme tekniğinden daha iyi performans gösterir. Güçlendirme, kendi içinde fazla oturtma ile birlikte geldiğinden, aşırı oturtma işleminin zorluğuyla karşı karşıyadır.

İlgili Okumalar

Finans, Finansal Modelleme ve Değerleme Analisti (FMVA) ™ FMVA® Sertifikasyonunu sunar Kariyerlerini bir sonraki seviyeye taşımak isteyenler için Amazon, JP Morgan ve Ferrari gibi şirketlerde çalışan 350.600'den fazla öğrenciye katılın. Bilgi tabanınızı öğrenmeye ve geliştirmeye devam etmek için lütfen aşağıdaki ek ilgili Finans kaynaklarını keşfedin:

  • Küme Örnekleme Küme Örneklemesi İstatistikte, küme örneklemesi, çalışmanın tüm popülasyonunun harici olarak homojen ancak dahili olarak bölündüğü bir örnekleme yöntemidir.
  • Aşırı güven Önyargı Aşırı Güvende Önyargı Aşırı güven önyargısı, becerilerimizin, zekamızın veya yeteneklerimizin yanlış ve yanıltıcı bir değerlendirmesidir. Kısacası, gerçekte olduğumuzdan daha iyi olduğumuza dair egoist bir inanç. Tehlikeli bir önyargı olabilir ve davranışsal finans ve sermaye piyasalarında çok üretkendir.
  • Regresyon Analizi Regresyon Analizi Regresyon analizi, bir bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkilerin tahmin edilmesi için kullanılan bir dizi istatistiksel yöntemdir. Değişkenler arasındaki ilişkinin gücünü değerlendirmek ve aralarındaki gelecekteki ilişkiyi modellemek için kullanılabilir.
  • Zaman Serisi Veri Analizi Zaman Serisi Veri Analizi Zaman serisi veri analizi, belirli bir süre boyunca değişen veri kümelerinin analizidir. Zaman serisi veri kümeleri, aynı değişkenin çeşitli zaman noktalarında gözlemlerini kaydeder. Finansal analistler, hisse senedi fiyat hareketleri veya bir şirketin zaman içindeki satışları gibi zaman serisi verilerini kullanır.