PODSUMOWANIE I WNIOSKI
1) Analiza funkcjonalności mieszkań (Klasyfikacja binarna)
W pytaniu o funkcjonalność modele osiągnęły teoretycznie najwyższą skuteczność (do 95,109% w przypadku regresji logitowej), jednak wyniki te są silnie determinowane przez specyfikę zbioru danych. Głównym wyzwaniem była bardzo mała liczebność próby mieszkań niefunkcjonalnych, co sprzyjało zjawisku przeuczenia i tendencji algorytmów do wskazywania klasy dominującej. Najlepszą odporność na tę nierównowagę wykazała Regresja Logitowa (One-to-Many) – wysoki współczynnik Kappa (0,742) potwierdził, że model ten realnie wyłapuje wzorce rynkowe, a nie tylko statystycznie powiela większość. Na tym tle Naive Bayes wypadł znacznie słabiej (81,522% celności), co wynika z jego naiwnego założenia o niezależności cech; ignorowanie silnych korelacji między metrażem a liczbą pokoi prowadziło w tym modelu do błędnej oceny funkcjonalności lokali.
2) Klasyfikacja standardu mieszkania (Klasyfikacja wieloklasowa i binarna)
Przewidywanie standardu lokalu okazało się zadaniem znacznie bardziej złożonym. Warto zaznaczyć, że w tym obszarze Regresja Logitowa operowała na uproszczonym schemacie binarnym, dzieląc mieszkania jedynie na dwie kategorie: wysoki standard oraz standard średni/niski (połączone). Mimo tego ułatwienia, model logitowy osiągnął celność jedynie na poziomie 69,565%. Co istotne, modele oparte na drzewach, mimo obsługi pełnego podziału na trzy osobne kategorie (niski, średni, wysoki), uzyskały lepsze wyniki – Las Losowy osiągnął celność 73,91% i najwyższą Kappę (0,475). Dowodzi to, że uproszczenie klasyfikacji w regresji logitowej nie zrekompensowało jej liniowego charakteru, a nieliniowe zależności rynkowe są znacznie lepiej odwzorowywane przez algorytmy drzewiaste. Najsłabszy wynik ponownie odnotował Naive Bayes (60,326% celności), który przez brak analizy synergetycznego wpływu udogodnień nie był w stanie trafnie rozróżnić standardów.
Rekomendacja modelu: Mimo najwyższej celności Lasu Losowego, osobiście rekomenduję zastosowanie Drzewa Decyzyjnego do oceny standardu mieszkania. Model ten osiągnął zbliżoną wartość użytkową (poprawnie sklasyfikował 131 mieszkań względem 136 w Lesie Losowym), oferując przy tym kluczowe zalety praktyczne:
Pełna przejrzystość: Pozwala na łatwe prześledzenie ścieżki decyzyjnej (czytelny graf), co umożliwia logiczne uzasadnienie przypisanego standardu na podstawie konkretnych cech, takich jak obecność windy czy metraż.
Wydajność: Działa błyskawicznie przy minimalnym obciążeniu zasobów, co czyni go najbardziej optymalnym narzędziem do codziennej, masowej analizy rynku.
3) Estymacja cen czynszu (Regresja)
Uzupełnieniem klasyfikacji była multiregresja, która wyjaśnia 70% zmienności cen w Rydze (R2 = 0,69). Choć średni błąd procentowy (MAPE) wynosi 32%, model ten poprawnie identyfikuje główne czynniki cenotwórcze, stanowiąc niezbędne wsparcie dla modeli klasyfikacyjnych i pozwalając na obiektywne powiązanie kosztów najmu z fizycznymi cechami lokalu.
4) Porównanie charakterystyki i wydajności modeli
Zestawienie wyników wykazuje wyraźną hierarchię skuteczności algorytmów w zależności od ich założeń matematycznych. Modele nieliniowe, takie jak Las Losowy i Drzewo Decyzyjne, najlepiej poradziły sobie z wielowymiarową naturą standardu mieszkania, skuteczniej wychwytując zależności niż Regresja Logitowa czy SVM, które przy bardziej złożonych podziałach wykazywały mniejszą stabilność. Największy dystans dzielił pozostałe metody od modelu Naive Bayes – jego statystyczne założenie o całkowitej niezależności cech okazało się błędne w realiach rynku nieruchomości, gdzie parametry takie jak cena i metraż są ze sobą nierozerwalnie związane. W efekcie, podczas gdy modele drzewiaste i logitowe dostarczyły precyzyjnych narzędzi decyzyjnych, podejście probabilistyczne i geometryczne (SVM) posłużyło głównie jako punkt odniesienia, obnażając trudności w klasyfikacji przy niesymetrycznym rozkładzie danych.