Data mining

Programovacie jazyky, rady, poradňa...
Asiv
Novice
Novice
Príspevky: 3
Registrovaný: 13 feb 2014, 12:51

Data mining

Príspevok od používateľa Asiv »

Zdravim,potreboval by som poradit ohladom DM a predspracovania dat.Mam velky data set ,ale su v nom nerovnomerne zastupene kategorie....Jedna kategoria ma 80 % a dve maju len do 1%.Na jednom fore som cital,ze by sa to dalo vyriesit tym ,ze by som jednotlivym kategoriam pridal vahy ,ktore budu v obratenom pomere k ich vyskytu.Cize kategoria ,ktora ma najpocetnejsie zastupenie by mala najmensiu vahu a naopak najmenej pocetna kategoria by mala najvyssiu vahu.Bolo by to mozne vyriesit takto?Celkom to dava zmysel,ale nikde neviem najst nejaku literaturu,ktora by to potvrdila.Dakujem za odpoved.
harrison314
Hardcore addict
Hardcore addict
Používateľov profilový obrázok
Príspevky: 8219
Registrovaný: 27 máj 2009, 20:42
Bydlisko: Bratislava
Kontaktovať používateľa:

Re: Data mining

Príspevok od používateľa harrison314 »

Z tvojho opisu sa to povedat neda.
Aky problem riesis? Co to ma robit? Co tym chces dosiahnut?
Asiv
Novice
Novice
Príspevky: 3
Registrovaný: 13 feb 2014, 12:51

Re: Data mining

Príspevok od používateľa Asiv »

Riesim tuto vzorku vid https://kdd.ics.uci.edu/databases/kddcu ... cup99.html
Ide o vybudovanie nejakeho modelu(klasifikatora), ktory vlastne bude vediet rozlisit normalne spravanie od utoku.Skusam to robit v Rku,ale po nacitani udajov som zistil,ze je velky nepomer v kategoriach.
harrison314
Hardcore addict
Hardcore addict
Používateľov profilový obrázok
Príspevky: 8219
Registrovaný: 27 máj 2009, 20:42
Bydlisko: Bratislava
Kontaktovať používateľa:

Re: Data mining

Príspevok od používateľa harrison314 »

Asi najdolezitejsie je aky klasifikator chces pouzit. Podla toho, na mnohe to nepotrebujes vahovat.
Asiv
Novice
Novice
Príspevky: 3
Registrovaný: 13 feb 2014, 12:51

Re: Data mining

Príspevok od používateľa Asiv »

Chcem pouzit rozhodovaci strom. Pre kategorie pod 1 percento vysli nulove vysledky,ked som im pridelil obratene vahy tak sa uspesnost zvysila na 30 percent.
harrison314
Hardcore addict
Hardcore addict
Používateľov profilový obrázok
Príspevky: 8219
Registrovaný: 27 máj 2009, 20:42
Bydlisko: Bratislava
Kontaktovať používateľa:

Re: Data mining

Príspevok od používateľa harrison314 »

sprav n-fold cross validation a uvidis ci ti to ovazenie naozaj pomohlo
Napísať odpoveď