๐ชช HOME CREDIT #1:Intro
์บ๊ธ ๋ํ ๋งํฌ : https://www.kaggle.com/competitions/home-credit-default-risk
๊นํ๋ธ ๋งํฌ : https://github.com/Solxcero/my-domains/tree/main/HomeCreditDefault
๐ํ๋ก์ ํธ ํ๊ณ
-
๋ชจ๋ธ๋ง๋ณด๋ค ์ค์ํ ‘๋ฐ์ดํฐ ์ค๊ณ์’์ ์ญํ
์ด๋ฒ ํ๋ก์ ํธ๋ฅผ ์งํํ๋ฉฐ ๋ฐ์ดํฐ ๋ถ์์์ ๊ฐ์ฅ ์ค์ํ ๊ฒ์ ๋๋ฉ์ธ ์ง์์ ๊ธฐ๋ฐํ ๋ช ํํ ๋ฐ์ดํฐ์ ๊ตฌ์ถ์์ ๋ค์ ํ๋ฒ ์ฒด๊ฐํ๋ค.
์ด๋ฏธ ๊ณ ๋ํ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ค์ด ๋ชจ๋ธ๋ง์ ๋ด๋นํ๋ ํ๊ฒฝ์์, ๋ถ์๊ฐ์ธ ๋์ ํต์ฌ ์ญํ ์ ์์ง๋ ๋ฐ์ดํฐ๋ฅผ ๋น์ฆ๋์ค ๋ฌธ๋งฅ์ ๋ง๊ฒ ๋ถ๋ฅํ๊ณ , ๊ฐ์ฅ ํจ๊ณผ์ ์ธ ์ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ๋ก ์ ์ค๊ณํ๋ ๊ฒ์ด์๋ค.
์ด ์ค๊ณ ๊ณผ์ ์ ๋จธ๋ฆฌ์ํ๊ฒ ๊ณ ๋ฏผํ๋ ๊ณผ์ ์์ ๋ฐ์ดํฐ ๋ถ์์ ์ง์ ํ ์ฌ๋ฏธ๋ฅผ ๋๋ ์ ์์๋ค. -
๊ธฐ์ ๊ณผ ๋๋ฉ์ธ์ ๊ฒฐํฉ์ด ์ฃผ๋ ํฌ์ด
๋จ์ํ ์ซ์๋ฅผ ๋ง์ถ๋ ๊ฒ์ ๊ทธ์น์ง ์๊ณ , IV(Information Value) ํ ์ด๋ธ์ด๋ SHAP ๊ฒฐ๊ณผ๋ฅผ ํด์ํ๋ฉฐ ์ด๋ฅผ ๊ฒฝ์ ์์ ๋ฐ ๊ธ์ต ๋น์ฆ๋์ค ๋ก์ง๊ณผ ์ ๋ชฉํ ๋ ๊ฐ์ฅ ํฐ ์พ๊ฐ์ ๋๊ผ๋ค.
‘์ ์ด ๋ณ์๊ฐ ์ค์ํ๊ฐ?‘์ ๋ํด ๊ฒฝ์ ํ์ ํ๋น์ฑ์ ๋ถ์ฌํ๋ ๊ณผ์ ์ ์ฐ๊ตฌ์๋ก์ ๋ชจ๋ธ์ ์ ๋ขฐ์ฑ์ ๋์ด๋ ์์คํ ๊ฒฝํ์ด์๋ค. -
ํ๊ณ์ ๋ฐ ํฅํ ๊ณผ์
์๊ฐ๊ณผ ์์์ ์ ์ฝ์ผ๋ก ์ธํด ์๋ํ์ง ๋ชปํ ๋ถ๋ถ๋ค์ ๋ค์ ํ๋ก์ ํธ์ ๊ฐ์ ์ฌํญ์ผ๋ก ๋จ๊ธฐ๊ฒ ๋ค.
-
๋ฐ์ดํฐ ์ปค๋ฒ๋ฆฌ์ง ํ์ฅ: ํ์ฌ๋ application.csv ์์ฃผ๋ก ๋ถ์ํ์ง๋ง, ๊ณผ๊ฑฐ ๋์ถ ์ํ ์ด๋ ฅ(bureau, previous_application)๊ณผ ์ธ๋ถ ์ ์ฉํ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํ๋ค๋ฉด ํจ์ฌ ๋ ์ ๊ตํ ๋ฆฌ์คํฌ ์ธก์ ์ด ๊ฐ๋ฅํ๋ค.
-
๊ตฌ๊ฐํ(Binning)์ ์ ๊ตํ: ์๊ฐ ๊ด๊ณ์ ์๋ตํ๋ Fine & Coarse Classing ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ์ต์ ์ ๊ตฌ๊ฐํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋๋ค๋ฉด, ๋ณ์์ ๋จ์กฐ์ฑ์ ํ๋ณดํ๋ฉด์๋ ์ ๋ณด ์์ค์ ์ต์ํํ ์ ์์ ๊ฒ์ด๋ค.
-
ํ์๋ณ์ ๊ณ ๋ํ: ๋จ์ ๋น์จ ์ฐ์ ์ ๋์ด, ๊ณ ๊ฐ์ ๊ธ์ต ํจํด์ ์ฝ์ ์ ์๋ ๋ค์ํ ๋ณ์๋ฅผ ์์ฑํ์ฌ ๋ชจ๋ธ์ ๋ณ๋ณ๋ ฅ์ ๋์ฌ๋ณด๊ณ ์ถ๋ค.
-
๋ชจ๋ํฐ๋ง ๋จ๊ณ : ์ค๋ฌด์์๋ ๋จ์ ๋ชจ๋ธ๋ง์ ๊ทธ์น์ง ์๊ณ psi๋ฅผ ํตํด ๋ชจ๋ํฐ๋ง๊น์ง ์งํํ๋ค๊ณ ํ๋ค. ์ด ๋ถ๋ถ์ ๋ ๊ณต๋ถํด์ ์ถํ ํ๋ก์ ํธ์๋ ๋ฐ์ํด๋ณด๋ ค ํ๋ค.
- ๋ง๋ฌด๋ฆฌํ๋ฉฐ
์ด๋ฒ ํ๋ก์ ํธ๋ ๋ฐ์ดํฐ ์ ํ์ฅ + ๊ตฌ๊ฐํ ํ๋ + ์ ๋ต์ ํ์๋ณ์ ์์ฑ ์ด๋ผ๋ ์ธ ๋ฐ์๊ฐ ๋ง๋ฌผ๋ฆด ๋ ๋น๋ก์ ๊ฐ๋ ฅํ ์ ์ฉํ๊ฐ ๋ชจ๋ธ์ด ์์ฑ๋๋ค๋ ๊ฒ์ ๊นจ๋ซ๊ฒ ํด์ค ๊ธฐํ์๋ค. ๋จ์ ๊ธฐ์ ์คํ์ ๋งค๋ชฐ๋์ง ์๊ณ , ๋น์ฆ๋์ค ๊ฐ์น๋ฅผ ์ฐฝ์ถํ๋ ๋ถ์๊ฐ๊ฐ ๋๊ธฐ ์ํ ๋ ธ๋ ฅ์ ๊ณ์ ํด์ผ๊ฒ ๋ค.
์๋๋ ์ด๋ฒ ํ๋ก์ ํธ ์งํ ์ ์ ๊ณต๋ถํ๋ ์ฃผ์ ๊ฐ๋ ๋ค.
ํต์ฌ ์์ง๋์ด๋ง ๊ฐ๋
์ ์ฉํ๊ฐ๋ ๊ฒฐ๊ตญ ํด๋น ๊ณ ๊ฐ์๊ฒ ๋์ถ์ ํด์ค์ง ๋ง์ง ์ฆ, 0์ด๋ 1์ด๋์ ๋ถ๋ฅ ๋ฌธ์ . ๋ถ๋ฅ ๋ชจ๋ธ์ ์ด๋ค๊ณ ํ ๋ ์์นํ ๋ณ์๋ค์ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ WoE์ IV๊ฐ ์์
WoE (Weight of Evidence)
ํน์ ๋ ๋ฆฝ ๋ณ์์ ๋ฒ์ฃผ(Bin)๊ฐ ์ข ์ ๋ณ์(Good/Bad)๋ฅผ ์ผ๋ง๋ ์ ์ค๋ช ํ๋์ง๋ฅผ ์์นํํ ๊ฐ.
“์ด ๊ณ ๊ฐ์ด ํน์ ์ง๋จ์ ์ํด ์๋ค๋ ์ฌ์ค์ด ๋ถ๋ ํ๋ฅ ์ ๋์ด๋๊ฐ, ๋ฎ์ถ๋๊ฐ?”
$$ WoE_{i} = ln(\frac{Distr Good_{i}}{Distr Bad_{i}}) = ln(\frac{G_i / G_{total}}{B_i/B_{total}}) $$
Gi : i๋ฒ์งธ ๊ตฌ๊ฐ์ ์ ์ ๊ณ ๊ฐ ์
Bi : i๋ฒ์งธ ๊ตฌ๊ฐ์ ๋ถ๋(์ฐ์ฒด ๊ณ ๊ฐ ์)
์ฃผ์ ํน์ง
- ๋น์ ํ์ฑ์ ์ ํํ : ๋น์ ํ์ ์ธ ๊ด๊ณ๋ฅผ ๊ฐ์ง ๋ณ์๋ WoE๋ก ๋ณํํ๋ฉด ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์์ ์ ํ์ ์ธ ๊ด๊ณ๋ฅผ ๊ฐ๊ฒ ๋์ด ๋ชจ๋ธ ์ฑ๋ฅ์ด ์์ ํ ๋จ.
- Outlier ์ฒ๋ฆฌ : ๋ณ์๋ฅผ ๊ตฌ๊ฐํํ๊ธฐ ๋๋ฌธ์ ๊ทน๋จ์ ์ธ ๊ฐ์ ์ํฅ๋ ฅ์ด ์ค์ด๋ฆ
- WoE > 0 : ์ ์ ๊ณ ๊ฐ ๋น์ค์ด ๋ ๋์ (์๋์ ์ผ๋ก ์์ ํ ์ง๋จ)
- WoE < 0 : ๋ถ๋ ๊ณ ๊ฐ ๋น์ค์ด ๋ ๋์ (์๋์ ์ผ๋ก ์ํํ ์ง๋จ)
๋น์ ํ์ ์ ํํ๋ ?
์๋ฅผ ๋ค์ด ๋์ด ๋ฐ์ดํฐ๊ฐ ์๋ค๊ณ ํ์ ๋ ์๋์ด ๋ถ์์ ํ 20๋์ ์๋์ด ์๋ 60๋์ ๊ฒฝ์ฐ ์ ์ฉ์ ์๊ฐ ๋ฎ๊ณ 30~40๋์ ๊ฒฝ์ฐ ์๋์ด ์์ ์ ์ด๋ผ ์ ์ฉ์ ์๊ฐ ๋์ ๊ฒ. -> ์ด ๊ฒฝ์ฐ ๋์ด์ ์ ์ฉ ์ ์๋ ๋น์ ํ๊ด๊ณ
ํ์ง๋ง WoE๋ฅผ ์ฌ์ฉํ๋ฉด ์ํ๋น์ค์ด ๋์ ๊ตฌ๊ฐ๋ถํฐ ๋ด๋ฆผ์ฐจ์์ผ๋ก ๊ตฌ๊ฐ์ ์ ๋ ฌํ๊ฒ ๋๋ฏ๋ก ๋์ด ๊ตฌ๊ฐ๊ณผ ์ ์ฉ ์ ์๋ ์ ํ๊ด๊ณ๋ก ๋ํ๋ผ ์ ์์
IV (Information Value)
ํด๋น ๋ ๋ฆฝ ๋ณ์๊ฐ ์ข ์ ๋ณ์๋ฅผ ์ผ๋ง๋ ์ ์์ธก(๋ณ๋ณ)ํ ์ ์๋์ง๋ฅผ ๋ํ๋ด๋ ์งํ. ๋ณ์ ์ ํ ๋จ๊ณ์์ ํต์ฌ์ ์ธ ๊ธฐ์ค
$$ IV = \sum_{i=1}^{n}(DistrGood_i - DistrBad_i) * WoE_i $$
๋ชจ๋ ๊ตฌ๊ฐ(n)์ WoE๊ฐ์ ํ์ฉํ์ฌ ํฉ์ฐํจ
์ฃผ์ ํน์ง
| IV ๊ฐ ๋ฒ์ | ๋ณ๋ณ๋ ฅ ์์ค (Predictive Power) |
|---|---|
| < 0.02 | ๊ฑฐ์ ์์ (Useless) |
| 0.02 ~ 0.1 | ๋ฎ์ (Weak) |
| 0.1 ~ 0.3 | ๋ณดํต (Medium) |
| 0.3 ~ 0.5 | ๋์ (Strong) |
| > 0.5 | ๋งค์ฐ ๋์ (์ฃผ์ ํ์) |
IV๊ฐ 0.5๋ณด๋ค ๋๋ฌด ๋์ผ๋ฉด ‘Target Leakage(๋ฏธ๋์ ์ ๋ณด๊ฐ ๋ณ์์ ํฌํจ๋จ)‘๋ฅผ ์์ฌํด๋ด์ผ ํจ. (ํ์ฌ ์ฐ์ฒด ์ฌ๋ถ๋ก ๋ฏธ๋ ๋ถ๋๋ฅผ ์์ธกํ๋ ๊ฒฉ์ผ ์ ์์)
์์ฝํ๋ฉด,
WoE๋ “ํน์ ๊ตฌ๊ฐ์ ์ํ๋๊ฐ ์ด๋ ํ๊ฐ?”
IV๋ “์ด ๋ณ์ ์์ฒด๊ฐ ๋ชจ๋ธ์ ์ธ๋ชจ ์๋๊ฐ?”
๋ฅผ ํ๋ณํด ์ค
fine classing
๋ณ์ ๊ตฌ๊ฐ ๋๋๋ ๊ธฐ๋ฒ1
- ๋ณ์๋ฅผ ๋งค์ฐ ์ธ๋ฐํ ๊ตฌ๊ฐ์ผ๋ก ๋๋. (๋์ด๋ฅผ 5๋ ๋จ์๋ก ๋๋๊ธฐ ๋ฑ) -> ๋ ์ ๋ฐํ ์์ธก ๊ฐ๋ฅ but ๊ณผ์ ํฉ ์ํ์์ผ๋ฏ๋ก ์ถฉ๋ถํ ๋ฐ์ดํฐ ํ๋ณด๋ ๊ฒฝ์ฐ์ ์ฃผ๋ก ์ฌ์ฉ
coarse classing
๋ณ์ ๊ตฌ๊ฐ ๋๋๋ ๊ธฐ๋ฒ2
- ๋ณด๋ค ํฐ ๊ตฌ๊ฐ์ผ๋ก ๋ณ์ ๋๋ (๋์ด๋ฅผ 10๋ ๋จ์๋ก ๋๋๊ธฐ ๋ฑ) -> ๋ฐ์ดํฐ ๋ถ์กฑํ๊ฑฐ๋ ๊ณผ์ ํฉ ๋ฐฉ์งํ๊ณ ์ ํ ๋
์ ์ฉ ํ๊ฐ์์ ์ฃผ์ ๊ณผ์ ๋ ์ถฉ๋ถํ ์ ๋ณด๋ฅผ ์ ์งํ๋ฉด์๋ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ์ ์ ํ ๊ด๋ฆฌํ๋ ๊ฒ.
๋ณ์ ์ ํ
- ํํฐ ๋ฐฉ๋ฒ
- ๋ฐ์ดํฐ์ ํน์ฑ๊ณผ ๋ชฉํ ๋ณ์์์ ๊ด๋ จ์ฑ์ ์์นํํ์ฌ ๋ณ์๋ฅผ ์ ํํ๋ ๊ธฐ๋ฒ.
- ํผ์ด์จ ์๊ด๊ณ์, ์นด์ด์ ๊ณฑ ๊ฒ์ , ANOVA, ํผ์ ์ ์, IV ๋ฑ์ ํฌํจํ ๋ค์ํ ํต๊ณ์ ๋ฐฉ๋ฒ ์ฌ์ฉ
- ๊ณ์ฐ์ด ๋น ๋ฅด๊ณ ๊ฐ๋จ. ํ์ง๋ง ๋ณ์ ๊ฐ์ ์ํธ์์ฉ์ ๊ณ ๋ คํ์ง ์์
- ๋ํผ ๋ฐฉ๋ฒ
- ๋ชจ๋ธ์ ์์ธก ์ฑ๋ฅ์ ๊ธฐ์ค์ผ๋ก ๋ณ์์ ์ค์๋๋ฅผ ํ๊ฐ
- RFE(recursive feature elimination), ํ์ง ์๊ฑฐ๋ฒ, ์ ์ง ์ ํ๋ฒ ๋ฑ
- ๋ณ์ ์ ํ ๊ณผ์ ์ด ๋ชจ๋ธ ํ๋ จ๊ณผ ๋ฐ์ ํ๊ฒ ์ฐ๊ฒฐ๋์ด ์์ด, ๋ณ์ ๊ฐ์ ์ํธ์์ฉ๋ ๊ณ ๋ คํ ์ ์์. ํ์ง๋ง ๊ณ์ฐ ๋น์ฉ์ด ๋์.
- ์์ธก ์ ํ๋ ์ต์ ํํ๋ ๋์์ ํ์ํ ๋ณ์ ์๋ฅผ ์ต์ํํ๋ ค๋ ๋ชฉ์ ์ผ๋ก ์ฌ์ฉ
- ์๋ฒ ๋๋/๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ
- ๋ชจ๋ธ ์์ฒด์์ ์ ๊ณตํ๋ ๋ณ์์ ์ค์๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ณ์ ์ ํ
- ํผ์ณ์ค์๋, ์ ๊ทํ ๊ธฐ๋ฒ
- ๋ชจ๋ธ ์ฑ๋ฅ๊ณผ ๋ณ์ ๊ฐ ์ํธ์์ฉ ๋ชจ๋ ๊ณ ๋ คํ๋ฉฐ ๊ณ์ฐ ๋น์ฉ ์ ์ .
์ค์ฝ์ด๋ง
์ ์ฉ ํ๊ฐ ๋ชจ๋ธ์์ ํ๋ฅ ์ ์ฌ์ฉํ์ฌ ์ ์ฉ ์ ์๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ ๋ชจ๋ธ์ด ์ ๊ณตํ๋ ํ๋ฅ ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ๊ณ ๊ฐ์ ์ ์ฉ ์ํ์ ์์นํํจ.
์ด ๊ณผ์ ์์ Base Score (๋ชจ๋ ๊ณ ๊ฐ์๊ฒ ๊ธฐ๋ณธ์ ์ผ๋ก ํ ๋น๋๋ ์ ์)์ PDO (point to double the odds, ํ๋ฅ ์ ๋ณํ๊ฐ ์ ์ฉ์ ์์ ์ผ๋ง๋ ์ํฅ์ ๋ฏธ์น๋์ง)๊ฐ ์ค์ํ ์ญํ ์ ํจ.
์ ์ ๊ณ์ฐ ์์
- ๋ชจ๋ธ ํ๋ฅ ๊ฐ์ ์ทจ๋ : ์ ์ฉ ํ๊ฐ ๋ชจ๋ธ(ex.XGBoost)์ ํตํด ๊ณ ๊ฐ์ ์ฐ์ฒด ๊ฐ๋ฅ์ฑ์ ๋ํ ํ๋ฅ ๊ฐ์ ์ฐ์ถ. ์ด ํ๋ฅ ๊ฐ์ ๊ณ ๊ฐ์ด ํน์ ์๊ฐ ๋ด์ ์ฐ์ฒดํ ๊ฐ๋ฅ์ฑ์ ๋ํ๋
- Odds ๊ณ์ฐ : ํ๋ฅ ๊ฐ(P)์ ์ฌ์ฉํ์ฌ Odds ๊ณ์ฐ. Odds๋ ์ฐ์ฒด ๊ฐ๋ฅ์ฑ์ ๋ํ ํ๋ฅ ๊ฐ์ ๋ํ ๋น์จ๋ก,
P/(1-P)๊ณต์์ผ๋ก ๊ณ์ฐ. ์ด๋ ๊ณ ๊ฐ์ด ์ฐ์ฒดํ ๊ฐ๋ฅ์ฑ ๋๋น ์ฐ์ฒดํ์ง ์์ ๊ฐ๋ฅ์ฑ์ ๋น์จ - PDO์ Base Score ์ ์ฉ
- Factor ๊ณ์ฐ :
Factor = PDO/ln(2). ํ๋ฅ ์ ๋ณํ๊ฐ ์ ์ฉ ์ ์์ ๋ฏธ์น๋ ์ํฅ๋ ฅ ์กฐ์ - Offset ๊ณ์ฐ :
Offset = Base Score - (Factor * ln(Target Odds)). Target Odds๋ ๋ชจ๋ธ ๊ฐ๋ฐ ์ ์ ์ ํ ๊ธฐ์ค Odds
- Factor ๊ณ์ฐ :
- ์ต์ข
์ ์ฉ ์ ์ ๊ณ์ฐ :
score = Offset + (Factor * ln(Odds)). ๊ณ์ฐํ ์ ์ฉ ์ ์๋ ์ผ๋ฐ์ ์ผ๋ก ํน์ ๋ฒ์ ๋ด์์ ์กฐ์ ํ ์ ์์ผ๋ฉฐ, ์ด๋ ๊ธ์ต๊ธฐ๊ด์ ์๊ตฌ ์ฌํญ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง ์ ์์.
OptBinning
์ ์ฉ ํ๊ฐ์ ๊ฒฝ์ฐ ๋ค๋ฅธ ๋๋ฉ์ธ๋ฉ ๋นํด ๋ชจ๋ธ์ ์ฑ๋ฅ ๋งํผ์ด๋ ๋ชจ๋ธ์ ์ค๋ช
๊ฐ๋ฅ์ฑ์ด ์ค์.
์ ์ฉํ๊ฐ์ ๋ชจ๋ธ ์ค๋ช
๋ ฅ์ ๋์ฌ์ฃผ๊ธฐ ์ํด ์ด๋ฒ ์ค์ต์์๋ OptBinning ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ ์์ .
๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ด๋ฆ๋๋ก ์ต์ ์ ๋ฐ์ดํฐ ๊ตฌ๊ฐ์ ์ฐพ์์ฃผ๋๋ฐ, ๊ตฌ์ฒด์ ์ผ๋ก๋ IV๋ฅผ ๊ทน๋ํํ๊ฑฐ๋ ํน์ ๋ชฉ์ ํจ์๋ฅผ ์ต์ ํํ๋ ๊ตฌ๊ฐ.
๋ํ ๋จ์กฐ์ฑ ์ ์ฝ์ ํตํด ๋ณ์์ ๋ถ๋์จ ๊ฐ์ ๊ด๊ณ๊ฐ ์์์ ์ธ ๋ฐฉํฅ์ผ๋ก ํ๋ฅด๋๋ก ๊ฐ์ ํ ์ ์๋ค๋ ์ ์์ ์ ์ฉ.
๋๋ถ์ด ์ค์ฝ์ด์นด๋ ์์ฑ ๊ธฐ๋ฅ๋ ๋ด์ฅ๋์ด ์์ด ๋ณ๋์ ๊ธฐ๋ฅ ๊ตฌํ์ด ํ์๊ฐ ์๋ค๋ ์ ์์ ๊ฐํธ.
๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ณต์ ๋ฌธ์ : https://gnpalencia.org/optbinning/
๋ชจ๋ธ ํด์๋ ฅ
๋ก์ปฌ ํด์๋ ฅ
๋ชจ๋ธ์ด ํน์ ๊ฐ๋ณ ์์ธก์ ๋ด๋ฆด ๋ ์ด๋ค ๋ณ์๊ฐ ์ฃผ์ํ๊ฒ ์์ฉํ๋์ง ์ค๋ช
.
์ด๋ ๋ชจ๋ธ์ ๊ฒฐ์ ๊ณผ์ ์ ํน์ ์ฌ๋ก์์ ํฌ๋ช
ํ๊ฒ ๋ง๋ค์ด ํด๋น ๊ฒฐ์ ์ ๋ํ ์ ๋ขฐ์ฑ์ ๋์.
- LIME (local interpretable model-agnostic explanation)
- ๊ฐ๋ณ ๋ฐ์ดํฐ ํฌ์ธํธ ์ฃผ๋ณ์์ ๊ฐ๋จํ ๋ชจ๋ธ(์ ํ๋ชจ๋ธ ๋ฑ)์ ํ์ตํ์ฌ ํด๋น ํฌ์ธํธ์์ ๋ณต์กํ ๋ชจ๋ธ์ ์์ธก์ ๊ทผ์ฌํ๊ณ ์ค๋ช
- SHAP (shapley additive explanation)
- ๊ฐ ํน์ฑ์ด ๊ฐ๋ณ ์์ธก์ ์ผ๋ง๋ ๊ธฐ์ฌํ๋์ง ์ค๋ช ํ๋ ๋ฐ ์ฌ์ฉ.
- ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ์ ๋ํ ์์ธก์ ๋ถํดํ์ฌ ํน์ฑ ์์ค์์์ ๊ธฐ์ฌ๋ ๊ณ์ผ
- ๋ฐ์ฌ์ค์ ์ค๋ช (counterfactual explanation)
- ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ์ฝ๊ฐ ๋ณ๊ฒฝํ์ฌ ๋ชจ๋ธ ์์ธก์ด ์ด๋ป๊ฒ ๋ฐ๋๋์ง ๊ด์ฐฐ. ํด๋น ๋ฐ์ดํฐ ํฌ์ธํธ์์ ๋ชจ๋ธ ์์ธก์ด ์ด๋ค ํน์ฑ์ ํฌ๊ฒ ์ํฅ์ ๋ฐ์๋์ง ํ์ ๊ฐ๋ฅ
๊ธ๋ก๋ฒ ํด์๋ ฅ
๋ชจ๋ธ ์ ์ฒด์ ์๋ ๋ฐฉ์์ ์ดํดํ๋ ๋ฐ ์ด์ .
- ์์ด ์ค์๋ (permutation importance)
- ๊ฐ ํน์ฑ์ ํ๋์ฉ ๋ฌด์์๋ก ์์ด์ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ผ๋ง๋ ์ํฅ์ ๋ฏธ์น๋์ง ์ธก์
- ํน์ฑ์ ์ ๊ฑฐํ์ ๋ ๋ชจ๋ธ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋๋ฉด ๊ทธ ํน์ ์ ์ค์ํ ์์ธ์ผ๋ก ๊ฐ์ฃผ
- PDP (partial dependence plot)
- ํน์ ํน์ฑ๊ฐ์ด ๋ณํ ๋ ๋ชจ๋ธ ์์ธก์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ๋ณด์ฌ์ฃผ๋ ๊ทธ๋ํ.
- SHAP
- ๊ฐ ํน์ฑ์ด ์์ธก์ ์ผ๋ง๋ ๊ธฐ์ฌํ๋์ง ํ๊ฐ.
- ์๊ด๊ด๊ณ ๋ถ์
- ํน์ฑ์ด ์์ธก์ ์ด๋ป์ ์ํฅ์ ๋ฏธ์น๋์ง ํ์ . ์ ํ๋ชจ๋ธ์์ ํนํ ์ ์ฉ
- KAN (kolmogrov-Arnold network) ์๊ณ ๋ฆฌ์ฆ
- ๋ณต์กํ ๋ค๋ณ์ ํจ์๋ฅผ ๋จ์ผ ๋ณ์ ํจ์์ ๋จ์ํ ์ฐ์ฐ์ผ๋ก ๋ถํดํ๋ ์ ๊ฒฝ๋ง. (์ต๊ทผ ์ฃผ๋ชฉ)
- ๋ชจ๋ธ ์์ธก ๊ณผ์ ์ ์ ๋ฐ์ ์ผ๋ก ํด์ + ๋ณ์ ๊ธฐ์ฌ๋ ํ์ + ํจ์ ๊ทผ์ฌ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๊ณ ๋ชจ๋ธ์ ๊ธ๋ก๋ฒ ํด์ ๊ฐ๋ฅ์ฑ ๋์.
๋ชจ๋ธ ๋ฐฐํฌ
-
์น ์๋น์ค ๋ฐฐํฌ : ํ๋ผ์คํฌ, ์ฅ๊ณ ์ ๊ฐ์ ์น ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ REST API๋ก ๋ง๋ค๊ณ ์น ์๋น์ค ๋ฐฐํฌ. ์ด ๋ฐฉ๋ฒ์ ํตํด ์น ๋ธ๋ผ์ฐ์ ๋ ๋ค๋ฅธ ์ ํ๋ฆฌ์ผ์ด์ ์์ HTTP์์ฒญ์ ํตํด ๋ชจ๋ธ ์ด์ฉ.
-
ํด๋ผ์ฐ๋ ์๋น์ค : amazon sagemaker, google cloud AI platform, Azure Machine learning ๊ฐ์ ํด๋ผ์ฐ๋ ํ๋ซํผ์ ์ด์ฉํด ๋ชจ๋ธ ๋ฐฐํฌ. ๋ชจ๋ธ ํ์ต + ๋ฐฐํฌ + ๋ชจ๋ํฐ๋ง ๋ฑ ๊ณผ์ ๊ด๋ฆฌ ๊ธฐ๋ฅ ์ ๊ณต
-
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ์๋ฒ ์ด์ฉ : TensorFlow Serving, NVIDIA Triton Interface Serer, Sheldon ๊ณผ ๊ฐ์ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ์๋ฒ๋ฅผ ์ด์ฉํ ์ ์์. ๋ชจ๋ธ์ ๋ฐฐํฌ์ ๊ด๋ฆฌ ํจ์จ์ ์ผ๋ก ์ํํ๋ ๊ธฐ๋ฅ ์ ๊ณต
- ์จ๋ผ์ธ ์์ธก(์ค์๊ฐ ์ฒ๋ฆฌ), ๋ฐฐ์น ์์ธก(์ฃผ๊ธฐ์ ์ผ๋ก ๋์ฉ๋ ์ฒ๋ฆฌ)
๋ชจ๋ํฐ๋ง
๋ฐ์ดํฐ ๋ถํฌ์ ๋ณํ, ์ฆ ๋ฐ์ดํฐ ๋ถํฌ ์ํธ ์ฃผ๋ชฉ.
๋ชจ๋ธ์ด ์ฒ์ ํ๋ จ๋ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ์๋ณธ ๋ถํฌ๋ผ๊ณ ํ๋ค๋ฉด, ๋ชจ๋ธ์ด ์ค์ ์ด์ ํ๊ฒฝ์์ ๋ง๋๊ฒ ๋๋ ๋ฐ์ดํฐ์ ๋ถํฌ๋ ๋์ ๋ถํฌ. ์๋๋ ๋ฐ์ดํฐ ๋ถํฌ ์ํํธ ์ข
๋ฅ
- ๊ณต๋ณ๋ ์ํํธ : ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ถํฌ๊ฐ ๋ณํ๋ ๊ฒฝ์ฐ. ์์_ ๊ฒฝ์ ์ํฉ์ ๋ณํ๋ก ์๋น์ ์ง์ถ ํจํด ๋ณํ
- ๋ ์ด๋ธ ์ํํธ : ์ถ๋ ฅ ๋ ์ด๋ธ์ ๋ถํธ๊ฐ ๋ณํ๋ ๊ฒฝ์ฐ. ์์_ ์ ์ฉ ์ํ์ด ์ฆ๊ฐํ๊ฑฐ๋ ๊ฐ์ํ๊ธฐ๋ ์๊ธฐ์ ๋ฐ์ ๊ฐ๋ฅ
- ๊ฐ๋ ๋๋ฆฌํํธ : ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ์ฌ์ด์ ๊ด๊ณ๊ฐ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ๊ฒฝ์ฐ. ์์_ ์ ์ฉ ํ๊ฐ ๊ธฐ์ค ๋ณ๊ฒฝ
์ด๋ฌํ ๋ณํ๋ฅผ ๊ฐ์งํ๊ณ ๋์ํ๊ธฐ ์ํด ๋ค์ํ ๋๊ตฌ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ฐ๋ฐ๋จ.
Alibi Detect๋ ๋ค์ํ ๋๋ฆฌํํธ ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌํํ ์คํ์์ค ํจํค์ง. ๋ฐ์ดํฐ ๋ถํฌ ์ํํธ๋ฅผ ์๋์ผ๋ก ๊ฐ์งํ๋ ๋ฐ ์ ์ฉEvidently์TFDV(tensorflow data validation)์ ๊ฐ์ ๋๊ตฌ๋ ๋ชจ๋ธ์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์์ธก ๋ฐ์ดํธ๋ฅผ ๋ถ์ํ์ฌ ์ํํธ ๊ฐ์งTOAD์OptBinning์ ํ์ฉํด PSI์งํ๋ก ๋ชจ๋ธ์ ์์ ์ฑ ํ๊ฐ.