2 ๋ฐ์ดํฐ ์ ์ฌ
์ฌ๊ธฐ์ load_iris ์ ๊ดํธ๋ฅผ ๋ฃ์ง ์์ผ๋ฉด load_iris ๋ผ๋ function ์ด iris_dataset ์ด ๋์ด๋ฒ๋ฆฐ๋ค.
๊ทธ๋ ๊ธฐ ๋๋ฌธ์, ๊ผญ () ๊ดํธ๋ฅผ ๋ฃ์ด์ ํด๋น ๋ฐ์ดํฐ๋ฅผ iris_dataset์ ๋ฃ๋๋ก ํ์
train_test_split ๋ค์ด์ค๋ ์ธ์
- test_size: ํ ์คํธ ์ ๊ตฌ์ฑ์ ๋น์จ์ ๋ํ๋ ๋๋ค. train_size์ ์ต์ ๊ณผ ๋ฐ๋ ๊ด๊ณ์ ์๋ ์ต์ ๊ฐ์ด๋ฉฐ, ์ฃผ๋ก test_size๋ฅผ ์ง์ ํด ์ค๋๋ค. 0.2๋ ์ ์ฒด ๋ฐ์ดํฐ ์ ์ 20%๋ฅผ test (validation) ์ ์ผ๋ก ์ง์ ํ๊ฒ ๋ค๋ ์๋ฏธ์ ๋๋ค. default ๊ฐ์ 0.25 ์ ๋๋ค.
- shuffle: default=True ์ ๋๋ค. split์ ํด์ฃผ๊ธฐ ์ด์ ์ ์์๊ฑด์ง ์ฌ๋ถ์ ๋๋ค. ๋ณดํต์ default ๊ฐ์ผ๋ก ๋๋ก๋๋ค.
- stratify: default=None ์ ๋๋ค. classification์ ๋ค๋ฃฐ ๋ ๋งค์ฐ ์ค์ํ ์ต์ ๊ฐ์ ๋๋ค. stratify ๊ฐ์ target์ผ๋ก ์ง์ ํด์ฃผ๋ฉด ๊ฐ๊ฐ์ class ๋น์จ(ratio)์ train / validation์ ์ ์งํด ์ค๋๋ค. (ํ ์ชฝ์ ์ ๋ ค์ ๋ถ๋ฐฐ๋๋ ๊ฒ์ ๋ฐฉ์งํฉ๋๋ค) ๋ง์ฝ ์ด ์ต์ ์ ์ง์ ํด ์ฃผ์ง ์๊ณ classification ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค๋ฉด, ์ฑ๋ฅ์ ์ฐจ์ด๊ฐ ๋ง์ด ๋ ์ ์์ต๋๋ค.
- random_state: ์ธํธ๋ฅผ ์์ ๋ ํด๋น int ๊ฐ์ ๋ณด๊ณ ์์ผ๋ฉฐ, ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ฅผ ํ๋์ ์ด ๊ฐ์ ๊ณ ์ ํด๋๊ณ ํ๋ํด์ผ ๋งค๋ฒ ๋ฐ์ดํฐ์ ์ด ๋ณ๊ฒฝ๋๋ ๊ฒ์ ๋ฐฉ์งํ ์ ์์ต๋๋ค.
mglearn?
mglearn ๊ณผ matplotlib ์ ๊ฐ๊ณตํ ๋ฐ์ดํฐ๋ฅผ ์๊ฐํ ํ ๋ ์ฌ์ฉํ๋ค .
- mglearn ์ ์ ์๊ฐ ๊ต์ฌ์์ ์ฝ๋๋ฅผ ๊ฐ๋ตํ๊ฒ ํํํ๊ธฐ ์ํด ์ ์ํ ์ด ๊ต์ฌ ์ ์ฉ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ด๋ค.
- ๋๋คํ ๋ฐ์ดํฐ์ ์ ์์ฑํ๊ฑฐ๋ ๋จธ์ ๋ฌ๋ ์ ์ฉ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ธฐ์ข๊ฒ ํํํ๊ธฐ ์ํ ํจ์๋ค์ด ๋๋ถ๋ถ์ด๋ค.
- "pip install mglearn" ์ผ๋ก ์ค์นํ ์ ์๋ค. (์๋์ฝ๋ค ํ๋กฌํํธ๋ฅผ ์ด์ฉํด์ผ ํ๋ค.)
pip
PIP(Python Package Index)์ ํ์ด์ฌ์ผ๋ก ์์ฑ๋ ํจํค์ง ์ํํธ์จ์ด๋ฅผ ์ค์น · ๊ด๋ฆฌํ๋ ํจํค์ง ๊ด๋ฆฌ ์์คํ ์ด๋ค.
๊ฐ๋จํ ๋งํด ํ์ด์ฌ์์ ์ ์ฉํ ํจ์๋ค์ ๋ชจ์๋ ๊ฒ์ ๋ชจ๋ ๋๋ ํจํค์ง๋ผ๊ณ ํ๋ฉฐ, ์ด๋ฅผ ์ฝ๊ฒ ์ค์น, ์ ๋ฐ์ดํธ ๋ฐ ์ ๊ฑฐ๋ฅผ ํ๊ฒ ํด์ฃผ๋ ๊ฒ์ด ๋ฐ๋ก PIP์ธ ๊ฒ์ด๋ค. ์๋์ด๋ ธ ide์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ด๋ฆฌ ๊ธฐ๋ฅ๊ณผ ์ ์ฌํ๋ค.
์ฌ์ฉ๋ฒ์ ์ฝ์์ฐฝ์์ ์๋์ pip ๋ช ๋ น์ด๋ฅผ ์์ฑํ๋ฉด ๋๋ค. (๋น์ฅฌ์ผ ์คํ๋์ค ์ฝ๋ ์ฝ์์ฐฝ ๊ธฐ์ค)
๊ฐ๋ pip ๋์ pip2๋ pip3๋ผ ์ ํ์๋ ๊ฒ์ ํ์ด์ฌ ๋ฒ์ ์ ๋ฐ๋ฅธ ํจํค์ง ์ค์น์ ๊ดํ ๋ช ๋ น์ด์ด๋ค.
๊ธฐ๋ณธ์ ์ผ๋ก๋ ์ต์ ๋ฒ์ ์ค์น๋ฅผ ํ๊ธฐ ๋๋ฌธ์ ๋ฌธ์ ๊ฐ ์๊ธฐ์ง ์๋ ํ pip๋ง ์จ๋ ๋ฌด๋ฐฉํ๋ค.
๋ช ๋ น์ด | ์ |
pip ์ ๋ฐ์ดํธ | - python -m pip install --upgrade pip (์๋์ฐ) - pip install pip --upgrade (๋ฆฌ๋ ์ค) |
ํจํค์ง ์ค์น | pip install ํจํค์ง ์ด๋ฆ |
numpy ํจํค์ง ์ ๋ฐ์ดํธ | pip install ํจํค์ง ์ด๋ฆ --upgrade |
numpy ํจํค์ง ์ ๊ฑฐ | pip uninstall ํจํค์ง ์ด๋ฆ |
๋๋ํ ์ฒ๋ฆฌ
! pip install ๋ผ์ด๋ธ๋ฌ๋ฆฌ
์ฅฌํผํฐ๋ ธํธ๋ถ์์ ! ๋ "! ์ดํ์ ๋์ค๋ ๋ด์ฉ๋ค์ ์ปค๋งจ๋์ฐฝ์์ ์ ๋ ฅํ๋ ๊ฒ๊ณผ ๋์ผํ๊ฒ ์ฒ๋ฆฌํด์ค~ "
๋ผ๋ ์๋ฏธ๋ก ์ฌ์ฉํ ์ ์๋ค.
์ฐ์ ๋ ํจ์(pd plotting scatter matrix)
pd.plotting.scatter_matrix(iris_dataframe, c = y_train, figsize=(15,15), marker='o',
hist_kwds={'bins' : 20}, s = 60, alpha = .8, cmap = mglearn.cm3)
marker
marker = 'o' | marker = 's' |
alpha : ์งํ๊ธฐ ์ฐจ์ด
0.8 | 0.1 |
s : ์ ์ ๊ตต๊ธฐ
60 | 10 |
hist_kwds
20 : ๊ฐ์ด ์์์๋ก ํฌ๊ฒ ํํ | 100 : ํด์๋ก ์๋ค(์ ํํ ์์น) |
cmap
์๊ฐํ ๋ฐฉ๋ฒ์ผ๋ก ์ข ๋ฅ๋ ๋ค์๊ณผ ๊ฐ์ด ์ฝ 30๊ฐ๊ฐ ์๋ค.
Reb1 | cm2 | cm3 |
X | X | X |
datasets | discrete_scatter | make_blobs |
X | X | X |
plot_2d_separator | plot_agglomerative | plot_animal_tree |
X | X | X |
plot_cross_validation | plot_dbscan | plot_decomposition |
๊ฒฐ๋ก : x,y ๊ฐ์ด ์ฐ์ํ์ด๊ฑฐ๋ ๋ฒ์ฃผํ์ด๊ฑฐ๋, ํ์ ์ ๋ฐ๋ผ ์๊ฐํ ๋ฐฉ๋ฒ์ ์ฐจ์ด๊ฐ ์์์ ์ ์ ์๋ค.
'๐๏ธ์ํํธ์จ์ด > ๐ปpython' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] sklearn (0) | 2021.11.04 |
---|---|
[ML] ๋ถ๊ฝ ํ์ข ๋ถ๋ฅ Story 1 (0) | 2021.11.04 |
[Python] 1๋ถ๋ง์ ์ ๋ฆฌํ๋ python ํจ์ 4 (0) | 2021.11.04 |
[Python] 1๋ถ๋ง์ ์ ๋ฆฌํ๋ python ํจ์ 3 (0) | 2021.11.04 |
[Python] 1๋ถ๋ง์ ์ ๋ฆฌํ๋ python ํจ์ 2 (0) | 2021.11.04 |