오늘은 데이터 기반 마케팅을 할 때 절대 빼놓을 수 없는
머신러닝 기초 이론과 핵심 프로세스에 대해 알아보았습니다
사실 마케터가 기계학습 알고리즘을 이해해야 하는 이유는
이미 우리가 마주하는 실무의 많은 영역들이 머신러닝을 기반으로 작동하고 있으며,
당장 실무에서는 고객 이탈(Churn) 예측이나 광고 클릭률(CTR) 예측,
그리고 고객 생애 가치(CLV) 점수화나 리뷰 감성 분석이 자주 쓰입니다.
결국 데이터를 읽는 마케터가 되기 위해 오늘 배운 핵심 개념과 실무 적용 포인트를 깔끔하게 정리해 보았습니다.
1. 인공지능 / 머신러닝 / 딥러닝 개념 관계
인공지능 (AI): 인간이 가지는 지적 능력을 컴퓨터를 통해 구현하는 가장 넓은 개념의 기술
머신러닝 (기계학습): 컴퓨터가 데이터를 통해 스스로 학습하고 규칙을 도출하여 미래를 예측하는 기술
딥러닝 (Deep Learning): 인간의 뉴런과 유사한 인공신경망 방식으로 정보를 처리하는 머신러닝의 하위 기술
2. 머신러닝 학습 종류별 특징
지도 학습 (Supervised Learning):
: 문제와 정답(Label, Class)을 모두 제공하여 모델을 학습시키는 방식
- 분류 (Classification): 미리 정의된 범주형 정답 중 하나를 예측하는 형태 (이진분류 및 다중분류)
- 회귀 (Regression): 연속적인 숫자(실수)를 예측하는 형태 (예: 점포 수, 직원 등을 기반으로 매출액 예측)
비지도 학습 (Unsupervised Learning):
정답 없이 데이터 자체의 숨겨진 패턴과 구조를 스스로 파악하는 방식
데이터를 특성별로 묶는 군집(Clustering)과 복잡도를 줄이는 차원축소 등이 대표적
강화 학습 (Reinforcement Learning): 완전한 정답 대신 상과 벌이라는 보상을 통해 최적의 행동 정책을 학습하는 방식
3. 머신러닝 학습과정 7단계
- 문제 정의: 비즈니스 목적 파악 및 해결할 문제에 맞는 학습 종류(지도/비지도/강화)와 세부 모델 선정
- 데이터 수집: 엑셀, DB, 웹 크롤링(유튜브, SNS, 블로그 등), IoT 센서 등을 활용한 데이터 확보
- 데이터 전처리: 결측치·이상치 처리 및 데이터 범위 조정을 위한 스케일링, 문자형의 수치화(인코딩) 작업
- 탐색적 데이터 분석 (EDA): 기술 통계량, 상관계수 분석 및 다양한 시각화를 통한 데이터 특징 파악
- 모델 선택: 목적에 적합한 알고리즘 선택 및 성능 최적화를 위한 하이퍼파라미터 튜닝
- 모델 학습:
- 전체 데이터를 학습용(Train)과 평가용(Test)으로 분리 (7:3 혹은 7.5:2.5 비율)
- model.fit(X_train, y_train) 코드로 학습 데이터의 문제와 정답 패턴을 학습
- model.predict(X_test) 코드로 평가 데이터의 문제만을 입력하여 정답 예측 수행
4. 분류 모델 평가지표 정의 및 계산법
정확도 → 전체 기준을 바탕으로 모델이 제대로 예측한 비율
정확도만으로는 모델의 성능을 평가할 수 없음
why? → 데이터가 불균형 분포일 떄 가장 빈도가 높은 값으로 예측을 하기 때문에 측정이 완벽하게 될 수 없다.
재현율 → 실제 값에서 모델이 에측한 비율
실제 값 : 1 2 2 1 2
모델 예측 값 : 2 2 2 2 1
→ 이 경우 (실제 값과 맞은 모델 예측 값 개수 / 실제 값 개수= 2 / 3 (0.66…))
정밀도 → 예측한 값에서 실제 값 비율
실제 값 : 1 2 2 1 2
모델 예측 값 : 2 2 2 2 1
→ 이 경우 (실제 맞은 값 개수 / 모델 예측 값 총 개수 = 2 / 4 (0.5))
F1 Score: 재현율과 정밀도의 불균형을 보완하기 위해 두 지표를 균형 있게 고려한 조화 평균값
5. KNN (K-최근접 이웃) 모델 특징
기본 원리:
새로운 데이터 예측 시 가장 가까운 이웃 K개를 기반으로 다수결 예측을 수행하는 알고리즘
메인 예측 모델보다는 전체적인 데이터를 가볍게 파악하기 위한 용도로 활용
주요 매개변수:
사용자가 직접 이웃의 개수를 지정하는 KNeighborsClassifier(n_neighbors=k)
핵심 특징:
거리 측정 방식으로 유클리드 거리 공식을 사용하며, 단위를 맞추기 위한 스케일 조정 전처리가 필수적임