Słownik opanowanych pojęć
Wykład 11 - Zespoły klasyfikatorów
Zespół – zbiór indywidualnych rozwiązań zintegrowanych dla wytworzenia jednego wspólnego werdyktu końcowego (dotyczy klasyfikatorów lub systemów regresyjnych).
Integracja zespołu – sposób wytworzenia końcowego werdyktu zespołu (fuzja wyników członków zespołu).
Głosowanie większościowe – sposób wyłonienia zwycięzcy w systemie klasyfikacyjnym poprzez bezpośrednie zliczanie głosów na określoną klasę.
Głosowanie większościowe ważone – sposób wyłonienia zwycięzcy w systemie klasyfikacyjnym poprzez zliczanie głosów na określoną klasę z uwzględnieniem wagi każdego klasyfikatora.
Naiwna reguła Bayesa – metoda wyłonienia klasy na podstawie analizy prawdopodobieństwa a priori i aposteriori (stosowana między innymi w integracji zespołu).
Bagging – technika stosowana w uczeniu członków zespołu trenowanych na losowo wybranych danych uczących.
Boosting – technika wzmacniania stosowana w uczeniu członków zespołu trenowanych na wybranych danych uczących uwzględniająca błędy popełniane na każdej próbce uczącej.
AdaBoost – technika uczenia ze wzmacnianiem, w której każdy nowo dodawany członek zespołu jest trenowany na losowo wybranym zestawie danych uczących, przy czym każda próbka ucząca ma przypisaną wagę, której wartość jest uzależniona od aktualnego statystycznego błędu dla danej obserwacji.
Gradient boosting – technika tworzenia zespołu koncentrująca się na gradiencie funkcji strat.
Wykład 12 - Metody oceny jakości rozwiązań
Chwilowy błąd estymacji – różnica między wartością estymowaną a wartością dokładną mierzonej wielkości.
Miara jakości rozwiązania – przyjęty sposób oceny jakości wyników działania systemu w stosunku do wartości rzeczywistych.
MAE – błąd średni absolutny (ang. Mean Absolute Error).
MAPE – średni błąd względny absolutny (ang. Mean Absolute Percentage Error).
RMSE – średni błąd kwadratowy (ang. Root Mean Squared Error).
MAXE – maksymalny błąd bezwzględny (ang. Maximum Error )
MAXPE –względny (procentowy) błąd maksymalny (ang. Maximum Percentage Error - MAXPE)
Miara korelacyjna – miara uwzględniająca korelację wyników wyjściowych z wartościami rzeczywistymi.
Współczynnik Theila – współczynnik porównujący względną wartość błędu średniego badanej metody z odpowiadającą mu wartością błędu prognozy naiwnej.
Macierz niezgodności klasowej – macierz prezentująca wyniki rozpoznania klas na tle wartości prawdziwych.
Klasa rzadka – klasa reprezentowana przez małą liczbę obserwacji.
Klasa większościowa – klasa reprezentowana przez dominującą liczbę obserwacji.
TP – (ang. True Positive) oznacza przypadki prawdziwie pozytywne w rozpoznaniu pożądanej (rzadkiej) klasy (traktowanej jako pozytywna).
TN – (ang. True Negative) oznacza przypadki prawdziwie negatywne w rozpoznaniu klasy przeciwnej (traktowanej jako negatywna) .
FP – (ang. False Positive) oznacza przypadki prawdziwie negatywne rozpoznane jako klasa rzadka.
FN – (ang. Frue Negative) oznacza przypadki prawdziwie pozytywne (rzadkie) rozpoznane jako klasa większościowa.
TPR – (ang. True Positive Rate) oznacza stosunek liczby poprawnie rozpoznanych przypadków rzadkich do liczby wszystkich przypadków rzadkich – wielkość traktowana jako czułość klasowa.
TNR – (ang. True Negative Rate) oznacza stosunek liczby poprawnie rozpoznanych przypadków większościowych do liczby wszystkich przypadków większościowych – wielkość zwana również specyficznością.
FPR – (ang. False Positive Rate) zdefiniowany jako stosunek liczby przypadków większościowych sklasyfikowanych jako rzadkie do liczby wszystkich przypadków większościowych.
FNR – (ang. False Negative Rate) zdefiniowany jako stosunek liczby przypadków rzadkich sklasyfikowanych jako większościowe do liczby wszystkich przypadków rzadkich.
Precyzja klasowa – stosunek prawdziwej liczby rozpoznanych przypadków danej klasy do wszystkich przypadków rozpoznanych przez klasyfikator jako dana klasa.
ACC – (ang. ACCuracy) dokładność klasyfikatora określająca procent dobrze sklasyfikowanych przypadków przynależności klasowej.
F1 – miara jakości klasyfikatora uwzględniająca jednocześnie precyzję i czułość rozpoznania danej klasy (określana dla każdej klasy oddzielnie).
ROC – (ang. Receiver Operating Characteristics) charakterystyka przedstawiająca graficznie relację między miarą TPR (oś pionowa) a miarą FPR (oś pozioma).
AUC – (ang. Area Under Curve) – wielkość pola pod krzywą ROC.
Kodowanie rozproszone – sposób kodowania klas na wyjściu sieci w którym liczba jedynek użyta w kodowaniu klasy może być dowolna.
K-krotna walidacja krzyżowa – (ang. k-cross validation) technika oceny jakości systemu w której dostępny zbiór danych dzieli się na k części (często k jest równe 10), spośród których (k-1) jest użyte w uczeniu a jedna część pozostawiona do testowania.
Leave-one-out – technika k-krotnej walidacji krzyżowej, w której zbiór testujący zawiera tylko jedną daną, pozostałe służą uczeniu.
Wykład 13 - Przykłady zastosowań sieci neuronowych w zadaniach biznesowych
Dane biznesowe – wielkości związane z biznesem należące do trzech podstawowych grup: dane typu ilościowego, jakościowego oraz informacje pozyskiwane z instytucji zewnętrznych.
Inflacja – zjawisko monetarne wywołane szybszym przyrostem ilości pieniądza niż produkcji.
Stopa
zwrotu akcji - wielkość definiowana w postaci
, gdzie Kt oznacza wartość akcji na t-tej sesji
giełdowej.
WIG – Warszawski indeks giełdowy typu dochodowego, obejmujący akcje spółek notowanych na rynku podstawowym giełdy warszawskiej.
Zdolność kredytowa – zdolność kredytobiorcy, czyli podmiotu ubiegającego się o kredyt, do spłaty kwoty kredytu, rozumianego jako kapitał wraz z odsetkami w umownych terminach płatności.
Standard & Poor’s (S&P) – agencja ratingowa publikująca analizy i raporty dotyczące spółek akcyjnych, emitowanych przez nie obligacji, a także przeprowadzająca ratingi różnych podmiotów gospodarczych (spółki akcyjne, miasta, państwa) przyznając im oceny ratingowe w skali od „AAA” do „D”.
Bankructwo – procedura wszczynana w razie niewypłacalności dłużnika, polegająca głównie na wspólnym dochodzeniu roszczeń przez wszystkich jego wierzycieli (zwana również upadłością lub plajtą).
Rentowność przedsiębiorstwa – wskaźnik liczbowy wyrażany poprzez stosunek różnego rodzaju dochodów do innych danych finansowych.
Wiarygodność firmy – wielkość wyrażana przez takie wskaźniki jak stosunek płatności do należności i jego zmiana, stosunek płatności do aktualnych zobowiązań i jego zmiana, zmiana stosunku należności do bieżącego majątku firmy itp.
Wykład 14 - Prognozowanie obciążeń 24-godzinnych w systemie elektroenergetycznym z użyciem zespołu sieci neuronowych
PSE – Polski System Elektroenergetyczny
Mały system elektroenergetyczny – ograniczony pod względem obszaru rejon działania PSE na terenie kraju.
Model predykcji – system sztucznej inteligencji oparty na rozwiązaniach neuronowych lub innych używany do przewidywania wartości szeregów czasowych na podstawie znanych wielkości z przeszłości.
Profil obciążeń – wycentrowany wektor obciążeń 24-godzinnych z uwzględnieniem wartości średniej i odchylenia standardowego.
Sieci neuronowe predykcyjne – rodzaje rozwiązań predykcji opartych na sieciach neuronowych (MLP, RBF, SVM, LSTM).
Zespół predyktorów – zbiór równolegle działających rozwiązań predykcyjnych zintegrowanych w jeden system prognozy.
Integracja zespołu predyktorów – metoda wypracowania wspólnego wyniku predykcji na podstawie wyników indywidualnych członków (najczęściej fuzja wyników poprzez uśrednianie zwykłe lub ważone).
Integracja dynamiczna zespołu – metoda wybierająca do końcowej predykcji lub klasyfikacji tego z M predyktorów który najlepiej sprawdził się na uczących danych wejściowych xl najbliższych danym testującym xt. Wybrany członek zespołu generuje ostateczną prognozę zespołu.