ๆผธๅ…ฅไฝณๅขƒ

๐Ÿชช HOME CREDIT #1:Intro

์บ๊ธ€ ๋Œ€ํšŒ ๋งํฌ : https://www.kaggle.com/competitions/home-credit-default-risk

๊นƒํ—ˆ๋ธŒ ๋งํฌ : https://github.com/Solxcero/my-domains/tree/main/HomeCreditDefault

๐Ÿ‘ํ”„๋กœ์ ํŠธ ํšŒ๊ณ 

  1. ๋ชจ๋ธ๋ง๋ณด๋‹ค ์ค‘์š”ํ•œ ‘๋ฐ์ดํ„ฐ ์„ค๊ณ„์ž’์˜ ์—ญํ• 
    ์ด๋ฒˆ ํ”„๋กœ์ ํŠธ๋ฅผ ์ง„ํ–‰ํ•˜๋ฉฐ ๋ฐ์ดํ„ฐ ๋ถ„์„์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ฒƒ์€ ๋„๋ฉ”์ธ ์ง€์‹์— ๊ธฐ๋ฐ˜ํ•œ ๋ช…ํ™•ํ•œ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์ž„์„ ๋‹ค์‹œ ํ•œ๋ฒˆ ์ฒด๊ฐํ–ˆ๋‹ค.
    ์ด๋ฏธ ๊ณ ๋„ํ™”๋œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋“ค์ด ๋ชจ๋ธ๋ง์„ ๋‹ด๋‹นํ•˜๋Š” ํ™˜๊ฒฝ์—์„œ, ๋ถ„์„๊ฐ€์ธ ๋‚˜์˜ ํ•ต์‹ฌ ์—ญํ• ์€ ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋น„์ฆˆ๋‹ˆ์Šค ๋ฌธ๋งฅ์— ๋งž๊ฒŒ ๋ถ„๋ฅ˜ํ•˜๊ณ , ๊ฐ€์žฅ ํšจ๊ณผ์ ์ธ ์ „์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•๋ก ์„ ์„ค๊ณ„ํ•˜๋Š” ๊ฒƒ์ด์—ˆ๋‹ค.
    ์ด ์„ค๊ณ„ ๊ณผ์ •์„ ๋จธ๋ฆฌ์•„ํ”„๊ฒŒ ๊ณ ๋ฏผํ•˜๋Š” ๊ณผ์ •์—์„œ ๋ฐ์ดํ„ฐ ๋ถ„์„์˜ ์ง„์ •ํ•œ ์žฌ๋ฏธ๋ฅผ ๋А๋‚„ ์ˆ˜ ์žˆ์—ˆ๋‹ค.

  2. ๊ธฐ์ˆ ๊ณผ ๋„๋ฉ”์ธ์˜ ๊ฒฐํ•ฉ์ด ์ฃผ๋Š” ํฌ์—ด
    ๋‹จ์ˆœํžˆ ์ˆซ์ž๋ฅผ ๋งž์ถ”๋Š” ๊ฒƒ์— ๊ทธ์น˜์ง€ ์•Š๊ณ , IV(Information Value) ํ…Œ์ด๋ธ”์ด๋‚˜ SHAP ๊ฒฐ๊ณผ๋ฅผ ํ•ด์„ํ•˜๋ฉฐ ์ด๋ฅผ ๊ฒฝ์ œ ์ƒ์‹ ๋ฐ ๊ธˆ์œต ๋น„์ฆˆ๋‹ˆ์Šค ๋กœ์ง๊ณผ ์ ‘๋ชฉํ•  ๋•Œ ๊ฐ€์žฅ ํฐ ์พŒ๊ฐ์„ ๋А๊ผˆ๋‹ค.
    ‘์™œ ์ด ๋ณ€์ˆ˜๊ฐ€ ์ค‘์š”ํ•œ๊ฐ€?‘์— ๋Œ€ํ•ด ๊ฒฝ์ œํ•™์  ํƒ€๋‹น์„ฑ์„ ๋ถ€์—ฌํ•˜๋Š” ๊ณผ์ •์€ ์—ฐ๊ตฌ์ž๋กœ์„œ ๋ชจ๋ธ์˜ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ด๋Š” ์†Œ์ค‘ํ•œ ๊ฒฝํ—˜์ด์—ˆ๋‹ค.

  3. ํ•œ๊ณ„์  ๋ฐ ํ–ฅํ›„ ๊ณผ์ œ
    ์‹œ๊ฐ„๊ณผ ์ž์›์˜ ์ œ์•ฝ์œผ๋กœ ์ธํ•ด ์‹œ๋„ํ•˜์ง€ ๋ชปํ•œ ๋ถ€๋ถ„๋“ค์€ ๋‹ค์Œ ํ”„๋กœ์ ํŠธ์˜ ๊ฐœ์„  ์‚ฌํ•ญ์œผ๋กœ ๋‚จ๊ธฐ๊ฒ ๋‹ค.

  • ๋ฐ์ดํ„ฐ ์ปค๋ฒ„๋ฆฌ์ง€ ํ™•์žฅ: ํ˜„์žฌ๋Š” application.csv ์œ„์ฃผ๋กœ ๋ถ„์„ํ–ˆ์ง€๋งŒ, ๊ณผ๊ฑฐ ๋Œ€์ถœ ์ƒํ™˜ ์ด๋ ฅ(bureau, previous_application)๊ณผ ์™ธ๋ถ€ ์‹ ์šฉํ‰๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฒฐํ•ฉํ•œ๋‹ค๋ฉด ํ›จ์”ฌ ๋” ์ •๊ตํ•œ ๋ฆฌ์Šคํฌ ์ธก์ •์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

  • ๊ตฌ๊ฐ„ํ™”(Binning)์˜ ์ •๊ตํ™”: ์‹œ๊ฐ„ ๊ด€๊ณ„์ƒ ์ƒ๋žตํ–ˆ๋˜ Fine & Coarse Classing ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์—ฌ ์ตœ์ ์˜ ๊ตฌ๊ฐ„ํ™” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ๋Š”๋‹ค๋ฉด, ๋ณ€์ˆ˜์˜ ๋‹จ์กฐ์„ฑ์„ ํ™•๋ณดํ•˜๋ฉด์„œ๋„ ์ •๋ณด ์†์‹ค์„ ์ตœ์†Œํ™”ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

  • ํŒŒ์ƒ๋ณ€์ˆ˜ ๊ณ ๋„ํ™”: ๋‹จ์ˆœ ๋น„์œจ ์‚ฐ์ •์„ ๋„˜์–ด, ๊ณ ๊ฐ์˜ ๊ธˆ์œต ํŒจํ„ด์„ ์ฝ์„ ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ ๋ณ€์ˆ˜๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ๋ชจ๋ธ์˜ ๋ณ€๋ณ„๋ ฅ์„ ๋†’์—ฌ๋ณด๊ณ  ์‹ถ๋‹ค.

  • ๋ชจ๋‹ˆํ„ฐ๋ง ๋‹จ๊ณ„ : ์‹ค๋ฌด์—์„œ๋Š” ๋‹จ์ˆœ ๋ชจ๋ธ๋ง์— ๊ทธ์น˜์ง€ ์•Š๊ณ  psi๋ฅผ ํ†ตํ•ด ๋ชจ๋‹ˆํ„ฐ๋ง๊นŒ์ง€ ์ง„ํ–‰ํ•œ๋‹ค๊ณ  ํ•œ๋‹ค. ์ด ๋ถ€๋ถ„์€ ๋” ๊ณต๋ถ€ํ•ด์„œ ์ถ”ํ›„ ํ”„๋กœ์ ํŠธ์—๋„ ๋ฐ˜์˜ํ•ด๋ณด๋ ค ํ•œ๋‹ค.

  1. ๋งˆ๋ฌด๋ฆฌํ•˜๋ฉฐ
    ์ด๋ฒˆ ํ”„๋กœ์ ํŠธ๋Š” ๋ฐ์ดํ„ฐ ์…‹ ํ™•์žฅ + ๊ตฌ๊ฐ„ํ™” ํŠœ๋‹ + ์ „๋žต์  ํŒŒ์ƒ๋ณ€์ˆ˜ ์ƒ์„ฑ ์ด๋ผ๋Š” ์„ธ ๋ฐ•์ž๊ฐ€ ๋งž๋ฌผ๋ฆด ๋•Œ ๋น„๋กœ์†Œ ๊ฐ•๋ ฅํ•œ ์‹ ์šฉํ‰๊ฐ€ ๋ชจ๋ธ์ด ์™„์„ฑ๋œ๋‹ค๋Š” ๊ฒƒ์„ ๊นจ๋‹ซ๊ฒŒ ํ•ด์ค€ ๊ธฐํšŒ์˜€๋‹ค. ๋‹จ์ˆœ ๊ธฐ์ˆ  ์Šคํƒ์— ๋งค๋ชฐ๋˜์ง€ ์•Š๊ณ , ๋น„์ฆˆ๋‹ˆ์Šค ๊ฐ€์น˜๋ฅผ ์ฐฝ์ถœํ•˜๋Š” ๋ถ„์„๊ฐ€๊ฐ€ ๋˜๊ธฐ ์œ„ํ•œ ๋…ธ๋ ฅ์„ ๊ณ„์† ํ•ด์•ผ๊ฒ ๋‹ค.

์•„๋ž˜๋Š” ์ด๋ฒˆ ํ”„๋กœ์ ํŠธ ์ง„ํ–‰ ์ „์— ๊ณต๋ถ€ํ–ˆ๋˜ ์ฃผ์š” ๊ฐœ๋…๋“ค.

ํ•ต์‹ฌ ์—”์ง€๋‹ˆ์–ด๋ง ๊ฐœ๋…

์‹ ์šฉํ‰๊ฐ€๋Š” ๊ฒฐ๊ตญ ํ•ด๋‹น ๊ณ ๊ฐ์—๊ฒŒ ๋Œ€์ถœ์„ ํ•ด์ค„์ง€ ๋ง์ง€ ์ฆ‰, 0์ด๋ƒ 1์ด๋ƒ์˜ ๋ถ„๋ฅ˜ ๋ฌธ์ œ. ๋ถ„๋ฅ˜ ๋ชจ๋ธ์„ ์“ด๋‹ค๊ณ  ํ•  ๋•Œ ์ˆ˜์น˜ํ˜• ๋ณ€์ˆ˜๋“ค์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์— WoE์™€ IV๊ฐ€ ์žˆ์Œ

WoE (Weight of Evidence)

ํŠน์ • ๋…๋ฆฝ ๋ณ€์ˆ˜์˜ ๋ฒ”์ฃผ(Bin)๊ฐ€ ์ข…์† ๋ณ€์ˆ˜(Good/Bad)๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ์„ค๋ช…ํ•˜๋Š”์ง€๋ฅผ ์ˆ˜์น˜ํ™”ํ•œ ๊ฐ’.
“์ด ๊ณ ๊ฐ์ด ํŠน์ • ์ง‘๋‹จ์— ์†ํ•ด ์žˆ๋‹ค๋Š” ์‚ฌ์‹ค์ด ๋ถ€๋„ ํ™•๋ฅ ์„ ๋†’์ด๋Š”๊ฐ€, ๋‚ฎ์ถ”๋Š”๊ฐ€?”

$$ WoE_{i} = ln(\frac{Distr Good_{i}}{Distr Bad_{i}}) = ln(\frac{G_i / G_{total}}{B_i/B_{total}}) $$

Gi : i๋ฒˆ์งธ ๊ตฌ๊ฐ„์˜ ์ •์ƒ ๊ณ ๊ฐ ์ˆ˜
Bi : i๋ฒˆ์งธ ๊ตฌ๊ฐ„์˜ ๋ถ€๋„(์—ฐ์ฒด ๊ณ ๊ฐ ์ˆ˜)

์ฃผ์š” ํŠน์ง•

  • ๋น„์„ ํ˜•์„ฑ์˜ ์„ ํ˜•ํ™” : ๋น„์„ ํ˜•์ ์ธ ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง„ ๋ณ€์ˆ˜๋„ WoE๋กœ ๋ณ€ํ™˜ํ•˜๋ฉด ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ๋ชจ๋ธ์—์„œ ์„ ํ˜•์ ์ธ ๊ด€๊ณ„๋ฅผ ๊ฐ–๊ฒŒ ๋˜์–ด ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ์•ˆ์ •ํ™” ๋จ.
  • Outlier ์ฒ˜๋ฆฌ : ๋ณ€์ˆ˜๋ฅผ ๊ตฌ๊ฐ„ํ™”ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ทน๋‹จ์ ์ธ ๊ฐ’์˜ ์˜ํ–ฅ๋ ฅ์ด ์ค„์–ด๋“ฆ
  • WoE > 0 : ์ •์ƒ ๊ณ ๊ฐ ๋น„์ค‘์ด ๋” ๋†’์Œ (์ƒ๋Œ€์ ์œผ๋กœ ์•ˆ์ „ํ•œ ์ง‘๋‹จ)
  • WoE < 0 : ๋ถ€๋„ ๊ณ ๊ฐ ๋น„์ค‘์ด ๋” ๋†’์Œ (์ƒ๋Œ€์ ์œผ๋กœ ์œ„ํ—˜ํ•œ ์ง‘๋‹จ)

๋น„์„ ํ˜•์˜ ์„ ํ˜•ํ™”๋ž€ ?
์˜ˆ๋ฅผ ๋“ค์–ด ๋‚˜์ด ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋‹ค๊ณ  ํ–ˆ์„ ๋•Œ ์†Œ๋“์ด ๋ถˆ์•ˆ์ •ํ•œ 20๋Œ€์™€ ์†Œ๋“์ด ์—†๋Š” 60๋Œ€์˜ ๊ฒฝ์šฐ ์‹ ์šฉ์ ์ˆ˜๊ฐ€ ๋‚ฎ๊ณ  30~40๋Œ€์˜ ๊ฒฝ์šฐ ์†Œ๋“์ด ์•ˆ์ •์ ์ด๋ผ ์‹ ์šฉ์ ์ˆ˜๊ฐ€ ๋†’์„ ๊ฒƒ. -> ์ด ๊ฒฝ์šฐ ๋‚˜์ด์™€ ์‹ ์šฉ ์ ์ˆ˜๋Š” ๋น„์„ ํ˜•๊ด€๊ณ„ ํ•˜์ง€๋งŒ WoE๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์œ„ํ—˜๋น„์ค‘์ด ๋†’์€ ๊ตฌ๊ฐ„๋ถ€ํ„ฐ ๋‚ด๋ฆผ์ฐจ์ˆœ์œผ๋กœ ๊ตฌ๊ฐ„์„ ์ •๋ ฌํ•˜๊ฒŒ ๋˜๋ฏ€๋กœ ๋‚˜์ด ๊ตฌ๊ฐ„๊ณผ ์‹ ์šฉ ์ ์ˆ˜๋Š” ์„ ํ˜•๊ด€๊ณ„๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Œ

IV (Information Value)

ํ•ด๋‹น ๋…๋ฆฝ ๋ณ€์ˆ˜๊ฐ€ ์ข…์† ๋ณ€์ˆ˜๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ์˜ˆ์ธก(๋ณ€๋ณ„)ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ. ๋ณ€์ˆ˜ ์„ ํƒ ๋‹จ๊ณ„์—์„œ ํ•ต์‹ฌ์ ์ธ ๊ธฐ์ค€

$$ IV = \sum_{i=1}^{n}(DistrGood_i - DistrBad_i) * WoE_i $$

๋ชจ๋“  ๊ตฌ๊ฐ„(n)์˜ WoE๊ฐ’์„ ํ™œ์šฉํ•˜์—ฌ ํ•ฉ์‚ฐํ•จ

์ฃผ์š” ํŠน์ง•

IV ๊ฐ’ ๋ฒ”์œ„ ๋ณ€๋ณ„๋ ฅ ์ˆ˜์ค€ (Predictive Power)
< 0.02 ๊ฑฐ์˜ ์—†์Œ (Useless)
0.02 ~ 0.1 ๋‚ฎ์Œ (Weak)
0.1 ~ 0.3 ๋ณดํ†ต (Medium)
0.3 ~ 0.5 ๋†’์Œ (Strong)
> 0.5 ๋งค์šฐ ๋†’์Œ (์ฃผ์˜ ํ•„์š”)

IV๊ฐ€ 0.5๋ณด๋‹ค ๋„ˆ๋ฌด ๋†’์œผ๋ฉด ‘Target Leakage(๋ฏธ๋ž˜์˜ ์ •๋ณด๊ฐ€ ๋ณ€์ˆ˜์— ํฌํ•จ๋จ)‘๋ฅผ ์˜์‹ฌํ•ด๋ด์•ผ ํ•จ. (ํ˜„์žฌ ์—ฐ์ฒด ์—ฌ๋ถ€๋กœ ๋ฏธ๋ž˜ ๋ถ€๋„๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒฉ์ผ ์ˆ˜ ์žˆ์Œ)

์š”์•ฝํ•˜๋ฉด,
WoE๋Š” “ํŠน์ • ๊ตฌ๊ฐ„์˜ ์œ„ํ—˜๋„๊ฐ€ ์–ด๋– ํ•œ๊ฐ€?”
IV๋Š” “์ด ๋ณ€์ˆ˜ ์ž์ฒด๊ฐ€ ๋ชจ๋ธ์— ์“ธ๋ชจ ์žˆ๋Š”๊ฐ€?”
๋ฅผ ํŒ๋ณ„ํ•ด ์คŒ

fine classing

๋ณ€์ˆ˜ ๊ตฌ๊ฐ„ ๋‚˜๋ˆ„๋Š” ๊ธฐ๋ฒ•1

  • ๋ณ€์ˆ˜๋ฅผ ๋งค์šฐ ์„ธ๋ฐ€ํ•œ ๊ตฌ๊ฐ„์œผ๋กœ ๋‚˜๋ˆ”. (๋‚˜์ด๋ฅผ 5๋…„ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ„๊ธฐ ๋“ฑ) -> ๋” ์ •๋ฐ€ํ•œ ์˜ˆ์ธก ๊ฐ€๋Šฅ but ๊ณผ์ ํ•ฉ ์œ„ํ—˜์žˆ์œผ๋ฏ€๋กœ ์ถฉ๋ถ„ํ•œ ๋ฐ์ดํ„ฐ ํ™•๋ณด๋œ ๊ฒฝ์šฐ์— ์ฃผ๋กœ ์‚ฌ์šฉ

coarse classing

๋ณ€์ˆ˜ ๊ตฌ๊ฐ„ ๋‚˜๋ˆ„๋Š” ๊ธฐ๋ฒ•2

  • ๋ณด๋‹ค ํฐ ๊ตฌ๊ฐ„์œผ๋กœ ๋ณ€์ˆ˜ ๋‚˜๋ˆ” (๋‚˜์ด๋ฅผ 10๋…„ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ„๊ธฐ ๋“ฑ) -> ๋ฐ์ดํ„ฐ ๋ถ€์กฑํ•˜๊ฑฐ๋‚˜ ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€ํ•˜๊ณ ์ž ํ•  ๋•Œ

์‹ ์šฉ ํ‰๊ฐ€์—์„œ ์ฃผ์š” ๊ณผ์ œ๋Š” ์ถฉ๋ถ„ํ•œ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ์ ์ ˆํžˆ ๊ด€๋ฆฌํ•˜๋Š” ๊ฒƒ.

๋ณ€์ˆ˜ ์„ ํƒ

  1. ํ•„ํ„ฐ ๋ฐฉ๋ฒ•
  • ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ๊ณผ ๋ชฉํ‘œ ๋ณ€์ˆ˜์™€์˜ ๊ด€๋ จ์„ฑ์„ ์ˆ˜์น˜ํ™”ํ•˜์—ฌ ๋ณ€์ˆ˜๋ฅผ ์„ ํƒํ•˜๋Š” ๊ธฐ๋ฒ•.
  • ํ”ผ์–ด์Šจ ์ƒ๊ด€๊ณ„์ˆ˜, ์นด์ด์ œ๊ณฑ ๊ฒ€์ •, ANOVA, ํ”ผ์…” ์ ์ˆ˜, IV ๋“ฑ์„ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ ํ†ต๊ณ„์  ๋ฐฉ๋ฒ• ์‚ฌ์šฉ
  • ๊ณ„์‚ฐ์ด ๋น ๋ฅด๊ณ  ๊ฐ„๋‹จ. ํ•˜์ง€๋งŒ ๋ณ€์ˆ˜ ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์€ ๊ณ ๋ คํ•˜์ง€ ์•Š์Œ
  1. ๋ž˜ํผ ๋ฐฉ๋ฒ•
  • ๋ชจ๋ธ์˜ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๊ธฐ์ค€์œผ๋กœ ๋ณ€์ˆ˜์˜ ์ค‘์š”๋„๋ฅผ ํ‰๊ฐ€
  • RFE(recursive feature elimination), ํ›„์ง„ ์†Œ๊ฑฐ๋ฒ•, ์ „์ง„ ์„ ํƒ๋ฒ• ๋“ฑ
  • ๋ณ€์ˆ˜ ์„ ํƒ ๊ณผ์ •์ด ๋ชจ๋ธ ํ›ˆ๋ จ๊ณผ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์—ฐ๊ฒฐ๋˜์–ด ์žˆ์–ด, ๋ณ€์ˆ˜ ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ๋„ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ์Œ. ํ•˜์ง€๋งŒ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋†’์Œ.
  • ์˜ˆ์ธก ์ •ํ™•๋„ ์ตœ์ ํ™”ํ•˜๋Š” ๋™์‹œ์— ํ•„์š”ํ•œ ๋ณ€์ˆ˜ ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋ ค๋Š” ๋ชฉ์ ์œผ๋กœ ์‚ฌ์šฉ
  1. ์ž„๋ฒ ๋””๋“œ/๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•
  • ๋ชจ๋ธ ์ž์ฒด์—์„œ ์ œ๊ณตํ•˜๋Š” ๋ณ€์ˆ˜์˜ ์ค‘์š”๋„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ณ€์ˆ˜ ์„ ํƒ
  • ํ”ผ์ณ์ค‘์š”๋„, ์ •๊ทœํ™” ๊ธฐ๋ฒ•
  • ๋ชจ๋ธ ์„ฑ๋Šฅ๊ณผ ๋ณ€์ˆ˜ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ ๋ชจ๋‘ ๊ณ ๋ คํ•˜๋ฉฐ ๊ณ„์‚ฐ ๋น„์šฉ ์ ์ ˆ.

์Šค์ฝ”์–ด๋ง

์‹ ์šฉ ํ‰๊ฐ€ ๋ชจ๋ธ์—์„œ ํ™•๋ฅ ์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹ ์šฉ ์ ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋ชจ๋ธ์ด ์ œ๊ณตํ•˜๋Š” ํ™•๋ฅ ๊ฐ’์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณ ๊ฐ์˜ ์‹ ์šฉ ์œ„ํ—˜์„ ์ˆ˜์น˜ํ™”ํ•จ.
์ด ๊ณผ์ •์—์„œ Base Score (๋ชจ๋“  ๊ณ ๊ฐ์—๊ฒŒ ๊ธฐ๋ณธ์ ์œผ๋กœ ํ• ๋‹น๋˜๋Š” ์ ์ˆ˜)์™€ PDO (point to double the odds, ํ™•๋ฅ ์˜ ๋ณ€ํ™”๊ฐ€ ์‹ ์šฉ์ ์ˆ˜์— ์–ผ๋งˆ๋‚˜ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€)๊ฐ€ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•จ.

์ ์ˆ˜ ๊ณ„์‚ฐ ์ˆœ์„œ

  1. ๋ชจ๋ธ ํ™•๋ฅ ๊ฐ’์˜ ์ทจ๋“ : ์‹ ์šฉ ํ‰๊ฐ€ ๋ชจ๋ธ(ex.XGBoost)์„ ํ†ตํ•ด ๊ณ ๊ฐ์˜ ์—ฐ์ฒด ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ํ™•๋ฅ ๊ฐ’์„ ์‚ฐ์ถœ. ์ด ํ™•๋ฅ ๊ฐ’์€ ๊ณ ๊ฐ์ด ํŠน์ • ์‹œ๊ฐ„ ๋‚ด์— ์—ฐ์ฒดํ•  ๊ฐ€๋Šฅ์„ฑ์„ ๋‚˜ํƒ€๋ƒ„
  2. Odds ๊ณ„์‚ฐ : ํ™•๋ฅ ๊ฐ’(P)์„ ์‚ฌ์šฉํ•˜์—ฌ Odds ๊ณ„์‚ฐ. Odds๋Š” ์—ฐ์ฒด ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ํ™•๋ฅ ๊ฐ’์— ๋Œ€ํ•œ ๋น„์œจ๋กœ, P/(1-P) ๊ณต์‹์œผ๋กœ ๊ณ„์‚ฐ. ์ด๋Š” ๊ณ ๊ฐ์ด ์—ฐ์ฒดํ•  ๊ฐ€๋Šฅ์„ฑ ๋Œ€๋น„ ์—ฐ์ฒดํ•˜์ง€ ์•Š์„ ๊ฐ€๋Šฅ์„ฑ์˜ ๋น„์œจ
  3. PDO์™€ Base Score ์ ์šฉ
    • Factor ๊ณ„์‚ฐ : Factor = PDO/ln(2). ํ™•๋ฅ ์˜ ๋ณ€ํ™”๊ฐ€ ์‹ ์šฉ ์ ์ˆ˜์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ๋ ฅ ์กฐ์ •
    • Offset ๊ณ„์‚ฐ : Offset = Base Score - (Factor * ln(Target Odds)) . Target Odds๋Š” ๋ชจ๋ธ ๊ฐœ๋ฐœ ์‹œ ์„ ์ •ํ•œ ๊ธฐ์ค€ Odds
  4. ์ตœ์ข… ์‹ ์šฉ ์ ์ˆ˜ ๊ณ„์‚ฐ : score = Offset + (Factor * ln(Odds)). ๊ณ„์‚ฐํ•œ ์‹ ์šฉ ์ ์ˆ˜๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ํŠน์ • ๋ฒ”์œ„ ๋‚ด์—์„œ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ๊ธˆ์œต๊ธฐ๊ด€์˜ ์š”๊ตฌ ์‚ฌํ•ญ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Œ.

OptBinning

์‹ ์šฉ ํ‰๊ฐ€์˜ ๊ฒฝ์šฐ ๋‹ค๋ฅธ ๋„๋ฉ”์ธ๋ฉ” ๋น„ํ•ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ๋งŒํผ์ด๋‚˜ ๋ชจ๋ธ์˜ ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ์ด ์ค‘์š”.
์‹ ์šฉํ‰๊ฐ€์˜ ๋ชจ๋ธ ์„ค๋ช…๋ ฅ์„ ๋†’์—ฌ์ฃผ๊ธฐ ์œ„ํ•ด ์ด๋ฒˆ ์‹ค์Šต์—์„œ๋Š” OptBinning ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•  ์˜ˆ์ •.

๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์ด๋ฆ„๋Œ€๋กœ ์ตœ์ ์˜ ๋ฐ์ดํ„ฐ ๊ตฌ๊ฐ„์„ ์ฐพ์•„์ฃผ๋Š”๋ฐ, ๊ตฌ์ฒด์ ์œผ๋กœ๋Š” IV๋ฅผ ๊ทน๋Œ€ํ™”ํ•˜๊ฑฐ๋‚˜ ํŠน์ • ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๊ตฌ๊ฐ„.

๋˜ํ•œ ๋‹จ์กฐ์„ฑ ์ œ์•ฝ์„ ํ†ตํ•ด ๋ณ€์ˆ˜์™€ ๋ถ€๋„์œจ ๊ฐ„์˜ ๊ด€๊ณ„๊ฐ€ ์ƒ์‹์ ์ธ ๋ฐฉํ–ฅ์œผ๋กœ ํ๋ฅด๋„๋ก ๊ฐ•์ œํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์—์„œ ์œ ์šฉ.

๋”๋ถˆ์–ด ์Šค์ฝ”์–ด์นด๋“œ ์ƒ์„ฑ ๊ธฐ๋Šฅ๋„ ๋‚ด์žฅ๋˜์–ด ์žˆ์–ด ๋ณ„๋„์˜ ๊ธฐ๋Šฅ ๊ตฌํ˜„์ด ํ•„์š”๊ฐ€ ์—†๋‹ค๋Š” ์ ์—์„œ ๊ฐ„ํŽธ.

๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๊ณต์‹ ๋ฌธ์„œ : https://gnpalencia.org/optbinning/

๋ชจ๋ธ ํ•ด์„๋ ฅ

๋กœ์ปฌ ํ•ด์„๋ ฅ

๋ชจ๋ธ์ด ํŠน์ • ๊ฐœ๋ณ„ ์˜ˆ์ธก์„ ๋‚ด๋ฆด ๋•Œ ์–ด๋–ค ๋ณ€์ˆ˜๊ฐ€ ์ฃผ์š”ํ•˜๊ฒŒ ์ž‘์šฉํ–ˆ๋Š”์ง€ ์„ค๋ช….
์ด๋Š” ๋ชจ๋ธ์˜ ๊ฒฐ์ • ๊ณผ์ •์„ ํŠน์ • ์‚ฌ๋ก€์—์„œ ํˆฌ๋ช…ํ•˜๊ฒŒ ๋งŒ๋“ค์–ด ํ•ด๋‹น ๊ฒฐ์ •์— ๋Œ€ํ•œ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ž„.

  1. LIME (local interpretable model-agnostic explanation)
  • ๊ฐœ๋ณ„ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ์ฃผ๋ณ€์—์„œ ๊ฐ„๋‹จํ•œ ๋ชจ๋ธ(์„ ํ˜•๋ชจ๋ธ ๋“ฑ)์„ ํ•™์Šตํ•˜์—ฌ ํ•ด๋‹น ํฌ์ธํŠธ์—์„œ ๋ณต์žกํ•œ ๋ชจ๋ธ์˜ ์˜ˆ์ธก์„ ๊ทผ์‚ฌํ•˜๊ณ  ์„ค๋ช…
  1. SHAP (shapley additive explanation)
  • ๊ฐ ํŠน์„ฑ์ด ๊ฐœ๋ณ„ ์˜ˆ์ธก์— ์–ผ๋งˆ๋‚˜ ๊ธฐ์—ฌํ–ˆ๋Š”์ง€ ์„ค๋ช…ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ.
  • ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์— ๋Œ€ํ•œ ์˜ˆ์ธก์„ ๋ถ„ํ•ดํ•˜์—ฌ ํŠน์„ฑ ์ˆ˜์ค€์—์„œ์˜ ๊ธฐ์—ฌ๋„ ๊ณ„์‹ผ
  1. ๋ฐ˜์‚ฌ์‹ค์  ์„ค๋ช… (counterfactual explanation)
  • ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ์•ฝ๊ฐ„ ๋ณ€๊ฒฝํ•˜์—ฌ ๋ชจ๋ธ ์˜ˆ์ธก์ด ์–ด๋–ป๊ฒŒ ๋ฐ”๋€Œ๋Š”์ง€ ๊ด€์ฐฐ. ํ•ด๋‹น ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์—์„œ ๋ชจ๋ธ ์˜ˆ์ธก์ด ์–ด๋–ค ํŠน์„ฑ์— ํฌ๊ฒŒ ์˜ํ–ฅ์„ ๋ฐ›์•˜๋Š”์ง€ ํŒŒ์•… ๊ฐ€๋Šฅ

๊ธ€๋กœ๋ฒŒ ํ•ด์„๋ ฅ

๋ชจ๋ธ ์ „์ฒด์˜ ์ž‘๋™ ๋ฐฉ์‹์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ์ดˆ์ .

  1. ์ˆœ์—ด ์ค‘์š”๋„ (permutation importance)
  • ๊ฐ ํŠน์„ฑ์„ ํ•˜๋‚˜์”ฉ ๋ฌด์ž‘์œ„๋กœ ์„ž์–ด์„œ ๋ชจ๋ธ ์„ฑ๋Šฅ์— ์–ผ๋งˆ๋‚˜ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ์ธก์ •
  • ํŠน์„ฑ์„ ์ œ๊ฑฐํ–ˆ์„ ๋•Œ ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ €ํ•˜๋˜๋ฉด ๊ทธ ํŠน์ •์€ ์ค‘์š”ํ•œ ์š”์ธ์œผ๋กœ ๊ฐ„์ฃผ
  1. PDP (partial dependence plot)
  • ํŠน์ • ํŠน์„ฑ๊ฐ’์ด ๋ณ€ํ•  ๋•Œ ๋ชจ๋ธ ์˜ˆ์ธก์— ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ๋ณด์—ฌ์ฃผ๋Š” ๊ทธ๋ž˜ํ”„.
  1. SHAP
  • ๊ฐ ํŠน์„ฑ์ด ์˜ˆ์ธก์— ์–ผ๋งˆ๋‚˜ ๊ธฐ์—ฌํ•˜๋Š”์ง€ ํ‰๊ฐ€.
  1. ์ƒ๊ด€๊ด€๊ณ„ ๋ถ„์„
  • ํŠน์„ฑ์ด ์˜ˆ์ธก์— ์–ด๋–ป์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ํŒŒ์•…. ์„ ํ˜•๋ชจ๋ธ์—์„œ ํŠนํžˆ ์œ ์šฉ
  1. KAN (kolmogrov-Arnold network) ์•Œ๊ณ ๋ฆฌ์ฆ˜
  • ๋ณต์žกํ•œ ๋‹ค๋ณ€์ˆ˜ ํ•จ์ˆ˜๋ฅผ ๋‹จ์ผ ๋ณ€์ˆ˜ ํ•จ์ˆ˜์™€ ๋‹จ์ˆœํ•œ ์—ฐ์‚ฐ์œผ๋กœ ๋ถ„ํ•ดํ•˜๋Š” ์‹ ๊ฒฝ๋ง. (์ตœ๊ทผ ์ฃผ๋ชฉ)
  • ๋ชจ๋ธ ์˜ˆ์ธก ๊ณผ์ •์„ ์ „๋ฐ˜์ ์œผ๋กœ ํ•ด์„ + ๋ณ€์ˆ˜ ๊ธฐ์—ฌ๋„ ํŒŒ์•… + ํ•จ์ˆ˜ ๊ทผ์‚ฌ ๋ฌธ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ณ  ๋ชจ๋ธ์˜ ๊ธ€๋กœ๋ฒŒ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ๋†’์ž„.

๋ชจ๋ธ ๋ฐฐํฌ

  1. ์›น ์„œ๋น„์Šค ๋ฐฐํฌ : ํ”Œ๋ผ์Šคํฌ, ์žฅ๊ณ ์™€ ๊ฐ™์€ ์›น ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ REST API๋กœ ๋งŒ๋“ค๊ณ  ์›น ์„œ๋น„์Šค ๋ฐฐํฌ. ์ด ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ์›น ๋ธŒ๋ผ์šฐ์ €๋‚˜ ๋‹ค๋ฅธ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ HTTP์š”์ฒญ์„ ํ†ตํ•ด ๋ชจ๋ธ ์ด์šฉ.

  2. ํด๋ผ์šฐ๋“œ ์„œ๋น„์Šค : amazon sagemaker, google cloud AI platform, Azure Machine learning ๊ฐ™์€ ํด๋ผ์šฐ๋“œ ํ”Œ๋žซํผ์„ ์ด์šฉํ•ด ๋ชจ๋ธ ๋ฐฐํฌ. ๋ชจ๋ธ ํ•™์Šต + ๋ฐฐํฌ + ๋ชจ๋‹ˆํ„ฐ๋ง ๋“ฑ ๊ณผ์ • ๊ด€๋ฆฌ ๊ธฐ๋Šฅ ์ œ๊ณต

  3. ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ ์„œ๋ฒ„ ์ด์šฉ : TensorFlow Serving, NVIDIA Triton Interface Serer, Sheldon ๊ณผ ๊ฐ™์€ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ ์„œ๋ฒ„๋ฅผ ์ด์šฉํ•  ์ˆ˜ ์žˆ์Œ. ๋ชจ๋ธ์˜ ๋ฐฐํฌ์™€ ๊ด€๋ฆฌ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ธฐ๋Šฅ ์ œ๊ณต

  • ์˜จ๋ผ์ธ ์˜ˆ์ธก(์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ), ๋ฐฐ์น˜ ์˜ˆ์ธก(์ฃผ๊ธฐ์ ์œผ๋กœ ๋Œ€์šฉ๋Ÿ‰ ์ฒ˜๋ฆฌ)

๋ชจ๋‹ˆํ„ฐ๋ง

๋ฐ์ดํ„ฐ ๋ถ„ํฌ์˜ ๋ณ€ํ™”, ์ฆ‰ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ์‹œํŠธ ์ฃผ๋ชฉ.
๋ชจ๋ธ์ด ์ฒ˜์Œ ํ›ˆ๋ จ๋œ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ์›๋ณธ ๋ถ„ํฌ๋ผ๊ณ  ํ•œ๋‹ค๋ฉด, ๋ชจ๋ธ์ด ์‹ค์ œ ์šด์˜ ํ™˜๊ฒฝ์—์„œ ๋งŒ๋‚˜๊ฒŒ ๋˜๋Š” ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋Š” ๋Œ€์ƒ ๋ถ„ํฌ. ์•„๋ž˜๋Š” ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ์‹œํ”„ํŠธ ์ข…๋ฅ˜

  1. ๊ณต๋ณ€๋Ÿ‰ ์‹œํ”„ํŠธ : ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๊ฐ€ ๋ณ€ํ•˜๋Š” ๊ฒฝ์šฐ. ์˜ˆ์‹œ_ ๊ฒฝ์ œ ์ƒํ™ฉ์˜ ๋ณ€ํ™”๋กœ ์†Œ๋น„์ž ์ง€์ถœ ํŒจํ„ด ๋ณ€ํ™”
  2. ๋ ˆ์ด๋ธ” ์‹œํ”„ํŠธ : ์ถœ๋ ฅ ๋ ˆ์ด๋ธ”์˜ ๋ถ„ํ˜ธ๊ฐ€ ๋ณ€ํ•˜๋Š” ๊ฒฝ์šฐ. ์˜ˆ์‹œ_ ์‹ ์šฉ ์œ„ํ—˜์ด ์ฆ๊ฐ€ํ•˜๊ฑฐ๋‚˜ ๊ฐ์†Œํ•˜๊ธฐ๋Š” ์‹œ๊ธฐ์— ๋ฐœ์ƒ ๊ฐ€๋Šฅ
  3. ๊ฐœ๋… ๋“œ๋ฆฌํ”„ํŠธ : ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ์‚ฌ์ด์˜ ๊ด€๊ณ„๊ฐ€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ•˜๋Š” ๊ฒฝ์šฐ. ์˜ˆ์‹œ_ ์‹ ์šฉ ํ‰๊ฐ€ ๊ธฐ์ค€ ๋ณ€๊ฒฝ

์ด๋Ÿฌํ•œ ๋ณ€ํ™”๋ฅผ ๊ฐ์ง€ํ•˜๊ณ  ๋Œ€์‘ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ๋„๊ตฌ์™€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๊ฐœ๋ฐœ๋จ.

  • Alibi Detect ๋Š” ๋‹ค์–‘ํ•œ ๋“œ๋ฆฌํ”„ํŠธ ๊ฐ์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ตฌํ˜„ํ•œ ์˜คํ”ˆ์†Œ์Šค ํŒจํ‚ค์ง€. ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ์‹œํ”„ํŠธ๋ฅผ ์ž๋™์œผ๋กœ ๊ฐ์ง€ํ•˜๋Š” ๋ฐ ์œ ์šฉ
  • Evidently ์™€ TFDV(tensorflow data validation)์™€ ๊ฐ™์€ ๋„๊ตฌ๋Š” ๋ชจ๋ธ์˜ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์™€ ์˜ˆ์ธก ๋ฐ์ดํŠธ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ์‹œํ”„ํŠธ ๊ฐ์ง€
  • TOAD ์™€ OptBinning์„ ํ™œ์šฉํ•ด PSI์ง€ํ‘œ๋กœ ๋ชจ๋ธ์˜ ์•ˆ์ •์„ฑ ํ‰๊ฐ€.