๋ฐ์ดํฐ๋ช
Mushroom Data Set
๋ ๋ฒ์ฏ ๋ถ๋ฅ ๋ฐ์ดํฐ ์ ๋ ์ฝ๋์
8124 ๊ฐ
์ปฌ๋ผ๊ฐ์
23๊ฐ (๋ถ๋ฅ class 1๊ฐ, ์์ฑ attributes 22๊ฐ)
๋ฐ์ดํฐ ์ค๋ช
์ด ๋ฐ์ดํฐ๋ 8,124์ข ๋ฅ ๋ฒ์ฏ์ ํน์ง๊ณผ ๋ ์ฑ ์ฌ๋ถ๊ฐ ์ ํ์๋ ๋ฐ์ดํฐ ์ ์ ๋๋ค.
๋์ด๋ธ๋ฒ ์ด์ฆ, ์์ฌ๊ฒฐ์ ํธ๋ฆฌ ๋ฑ์ ๋ถ๋ฅ ์๊ณ ๋ฆฌ์ฆ์ ์์ ๋ก ๋ง์ด ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ ์ ๋๋ค.
์ปฌ๋ผ ์ค๋ช
๋ฐ์ดํฐ์ ์ดํด๋ฅผ ๋๊ธฐ ์ํด ํฌํจ๋ 23๊ฐ์ ๋ณ์์ ๋ํ ๊ฐ๋ตํ ์ค๋ช ์ ๋๋ค.
* loc ํจ์
์์ฑ | ์ค๋ช |
loc | ์ธ๋ฑ์ค ๊ธฐ์ค์ผ๋ก ํ ๋ฐ์ดํฐ ์ฝ๊ธฐ |
iloc | ํ ๋ฒํธ๋ฅผ ๊ธฐ์ค์ผ๋ก ํ ๋ฐ์ดํฐ ์ฝ๊ธฐ |
์ค์น ๋ฐฉ๋ฒ : https://graphviz.gitlab.io/_pages/Download/Download_windows.html
* ์๋์ฐ ํ๊ฒฝ์ ๋ง๋ ์ต์ ๋ฒ์ ์ ๋ค์ด๋ฐ์์ฃผ์.
์์คํ ํ๊ฒฝ ๋ณ์ -> ์์ชฝ path ์ค์ ํด์ฃผ๊ธฐ
1-user ์ธก ํ๊ฒฝ๋ณ์ ์ค์ :
2-์์คํ ์ธก ํ๊ฒฝ๋ณ์ ์ค์ :
(์ค๊ฐ ์๊ฐํ ์ฝ๋)
๊ฒฐ์ ํธ๋ฆฌ(Decision Tree)
- ํ๊น ๊ฐ์ด ํ ๊ฐ์ธ ๋ฆฌํ ๋ ธ๋๋ฅผ ์์ ๋ ธ๋๋ผ๊ณ ํ๋จ
- ๋ชจ๋ ๋ ธ๋๊ฐ ์์ ๋ ธ๋๊ฐ ๋ ๋ ๊น์ง ํ์ตํ๋ฉด ๋ณต์กํด์ง๊ณ ๊ณผ๋ ์ ํฉ์ด ๋๋ค
- ์๋ก์ด ๋ฐ์ดํฐ ํฌ์ธํธ๊ฐ ๋ค์ด์ค๋ฉด ํด๋นํ๋ ๋ ธ๋๋ฅผ ์ฐพ์ ๋ถ๋ฅ๋ผ๋ฉด ๋ ๋ง์ ํด๋์ค๋ฅผ ์ ํํ๊ณ , ํ๊ท๋ผ๋ฉด ํ๊ท ์ ๊ตฌํ๋ค.
๊น์ด
์ง๋ฌธ์ 1๊ฐ
๊ทธ ๋ค์์ ์ง๋ฌธ 2๊ฐ๋ฅผ ํตํด 4๊ฐ ์์ฑ๋๋ค
๊ฐ ์ธต์ ๊ฐ๊ฐ์ ๊น์ด๋ผ๊ณ ํ๋ค.
๊น์ด๊ฐ ๊น์ด์ง์๋ก ๋ชจ๋ธ์ด ๋ณต์กํด์ง๊ณ , ๋ ธ๋๊ฐ ๋ง์์ง๋ฉด ๊ณผ๋ ์ ํฉ์ด ๋ฐ์ํ ํ๋ฅ ์ด ๋๋ค.
๋ ธ๋๋ฅผ ๋ง๋ค๋, ๊ณผ๋์ ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํด์ ์ ์ดํ๊ธฐ ์ํด '๊น์ด'๋ผ๋ ๊ฐ๋ ์ด ๋์ ์ด๋๋ค.
Decision Tree(๊ฒฐ์ ํธ๋ฆฌ) ๊ณผ๋์ ํฉ ์ ์ด
-๋ ธ๋ ์์ฑ์ ๋ฏธ๋ฆฌ ์ค๋จํ๋ ์ฌ์ ๊ฐ์ง์น๊ธฐ(pre-puning)์ ํธ๋ฆฌ๋ฅผ ๋ง๋ ํ์ ํฌ๊ธฐ๊ฐ ์์ ๋ ธ๋๋ฅผ ์ญ์ ํ๋ ์ฌํ ๊ฐ์ง์น๊ธฐ(pruning)๊ฐ ์๋ค.
* sklearn์ ์ฌ์ ๊ฐ์ง์น๊ธฐ๋ง ์ง์
-ํธ๋ฆฌ์ ์ต๋ ๊น์ด๋ ๋ฆฌํ ๋ ธ๋์ ์ต๋ ๊ฐ์๋ฅผ ์ ์ด
-๋ ธ๋๊ฐ ๋ถํ ํ๊ธฐ ์ํ ๋ฐ์ดํฐ ํฌ์ธํธ์ ์ต์ ๊ฐ์๋ฅผ ์ง์
์ฌํ ๊ฐ์ง์น๊ธฐ ๋ฐฉ๋ฒ
์ฌ์ ๊ฐ์ง์น๊ธฐ ๋ฐฉ๋ฒ
scikit-learn์ ๊ฒฝ์ฐ
DecisionTreeClassifier(max_depth, max_leaf_nodes, min_sample_leaf)
- max_depth : ํธ๋ฆฌ์ ์ต๋ ๊น์ด, ๊ฐ์ด ํด์๋ก ๋ชจ๋ธ์ ๋ณต์ก๋๊ฐ ์ฌ๋ผ๊ฐ๋ค
- max_leaf_nodes : ๋ฆฌํ ๋ ธ๋์ ์ต๋ ๊ฐ์
- min_sample_leaf : ๋ฆฌํ ๋ ธ๋๋ฅผ ๊ตฌ์ฑํ๋ ์ต์ ์ํ์ ๊ฐ์
๊ฒฐ์ ํธ๋ฆฌ ์ฅ๋จ์ ๋ฐ ์ฃผ์ ๋งค๊ฐ๋ณ์(Hyperparameter)
๊ฐ ํน์ฑ์ด ๊ฐ๋ณ ์ฒ๋ฆฌ๋๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ ์ค์ผ์ผ์ ์ํฅ์ ๋ฐ์ง ์์ ํน์ฑ์ ์ ๊ทํ๋ ํ์คํ๊ฐ ํ์์์
ํธ๋ฆฌ ๊ตฌ์ฑ์ ๊ฐ ํน์ฑ์ด ์ค์๋๋ฅผ ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ ํน์ฑ ์ ํ(Feature selection)์ ํ์ฉ๋ ์ ์์
๊ฐ์ง์น๊ธฐ๋ฅผ ์ฌ์ฉํจ์๋ ๋ถ๊ตฌํ๊ณ ๊ณผ๋์ ํฉ๋๋ ๊ฒฝํฅ์ด ์์ด ์ผ๋ฐํ ์ฑ๋ฅ์ด ์ข์ง ์์
์๊ณ์ด ๋ฐ์ดํฐ์ ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ์ธ ์ ์๋?
์๋ค, ํ๋ จ ๋ฐ์ดํฐ ๋ฒ์ ๋ฐ์ ํฌ์ธํธ๋ ์์ธก ํ ์ ์๋ค
๊ฒฐ์ ํธ๋ฆฌ์ ๊ฐ์ฅ ํฐ ํน์ง
์ ํ ๋ชจ๋ธ๋ณด๋ค ๊ฐ ์ง ์ง์ฌ๊ฐํ ๋ชจ๋ธ์ ๋ ์ ํฉํ๋ค.
'๐๏ธ์ํํธ์จ์ด > ๐ปpython' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Python] 1๋ถ๋ง์ ์ ๋ฆฌํ๋ python ํจ์ 2 (0) | 2021.11.04 |
---|---|
[Python] 1๋ถ๋ง์ ์ ๋ฆฌํ๋ python ํจ์ 1 (0) | 2021.11.04 |
๋ฐฑ์ค story 1 (0) | 2021.11.01 |
python resample (0) | 2021.10.20 |
vscode๋ก ์ฃผํผํฐ notebook ์ฌ์ฉํ๊ธฐ (0) | 2021.10.20 |