Icon

Harmony_​Search_​Applications_​in_​Financial_​Optimization

워크플로우 1: 데이터 탐색

이 워크플로우는 금융 데이터 셋의 구조와 특성을 파악합니다. (대출 신청)

- CSV 데이터 로드 (614건)
- 기초 통계량 계산 (평균, 중앙값, 표준편차)
- 분포 시각화 (소득 히스토그램)
- 클래스 균형 확인 (승인 vs 거절 비율)

Task 목표: 대출 데이터셋의 특성 파악

- 데이터 타입과 범위 확인

- 결측치 발견 (전처리 준비)

- 소득 분포 분석 (우측 치우침 패턴)

- 클래스 불균형 확인 (승인 68.7% vs 거절 31.3%)

Data Reading

대출 신청 데이터셋 파일 읽기

각 행은 한 명의 대출 신청자를 나타내며,
13개의 특성 컬럼

- 인구통계 (성별, 결혼여부, 부양가족)
- 소득 (신청자소득, 공동신청자소득)
- 대출 정보 (대출금액, 대출기간)
- 신용이력 - 타겟 변수 (Loan_Status: Y/N)

Descriptive Statistics

Num' 변수들의 통계적 특성을 계산

- 평균, 중앙값, 최솟값, 최댓값
- 표준편차
- 왜도(분포의 비대칭성)
- 첨도
- 결측치 개수

Income Distribution Exploration

ApplicantIncome의 히스토그램을 생성하여 분포 패턴을 시각화

- 대부분의 신청자(353명)는
저소득 구간(150-4,000)에 집중
- 소수의 고소득 신청자(40,000 이상)
- 명확한 우측 치우침 분포 확인
- 금융 정책 설계에 영향

Class Imbalance Check

대출 승인 vs 거절 비율을 시각화


- Y (승인): 422건 (68.7%)
- N (거절): 192건 (31.3%)

- 불균형 데이터셋.
- Accuracy가 아닌 F1 Score에 주목

This case study is based on the paper “금융 서비스 최적화를 위한 메타휴리스틱 하모니서치 알고리즘과 대형언어모델의 결합,” published in November 2025.

Loan Prediction Problem Dataset.csv
CSV Reader
ApplicantIncome 우측 치우침 분포(평균 5,403 > 중앙값 3,812)
Statistics
소득 분포 시각화
Histogram
클래스 균형 확인
Bar Chart

Nodes

Extensions

Links