각종 사기/이상거래를 탐지하기위해 AI를 도입한 FDS를 도입하고 있다.
안녕하세요! 누Ring입니다.
이번에는 금융/보험 IT를 준비중이신 분들을 위한 정보를 정리 해보았습니다.
최근 보이스피싱 등에 신기술이 가해지며 금융/보험 사기가 가파르게 오르고 있는데요
눈에는 눈, 이에는 이라고 하니, 신기술에는 신기술로 대응해야하지 않을까요?
나날히 발전하는(?) 사기 기술을 금융/보험업계에서는 어떻게 대비하는지에 대해 함께 쉽고 간단하게 알아보도록 해요!
이상 거래 탐지 시스템(Fraud Detection System, FDS) 이란?
이상 거래란 평소와는 다른 방식이나 규모로 이루어지는 금융 거래를 뜻합니다.
여러분들은 이상 거래 라고 하면 어떤 것이 떠오르시나요?
저는 비밀번호를 여러번 틀린다거나, 거의 동시간에 동일 계좌에서 돈이 나간다거나하는 경우가 떠오르네요.
대표적인 이상거래는 대량 거래, 장기간 미결제, 부정 인출, 위치 불일치, 신용카드 도용 등 일반 정상 거래와 다른 몇가지 특징을 가지고 있는데요!
금융 기관에서는 이를 탐지하고 대응하는 시스템인 이상 거래 탐지 시스템(FDS) 을 도입하여 범죄 예방 등에 힘쓰고 있습니다.
이상 거래 탐지 시스템을 크게 나누면 정보 수집, 이상 거래 분석, 대응의 3단계로 분류할 수 있습니다.
1. 정보 수집 단계
실시간으로 이루어지는 거래 정보를 모아 로그를 수집합니다.
로그는 컴퓨터 시스템에서 발생하는 모든 활동을 기록한 것으로 거래 금액, 거래 장소(IP주소), 거래 시각, 계좌 정보 등의 거래 당시 내용이 기록되어 있는데요!
이를 재료로 다음 단계에서 분석을 시작합니다.
예시) [로그1] 거래금액: 100만원 / 거래장소: 부산 / 계좌소유자: 누Ring / 거래시각: 오전 10시
[로그2] 거래금액: 100만원 / 거래장소: 서울 / 계좌소유자: 누Ring / 거래 시각: 오전 10시 10분
2. 이상 거래 분석 단계
수집된 로그를 기반으로 고객정보 등 추가 데이터를 기반으로 거래를 분석, 판단합니다.
일반적으로 금융 이상 거래는 아래와 같은 특징을 가지고 있는데요~
① 집단적 이상거래(collective anomalies): 서로 다른 지역에서 같은 계좌에 동시 거래가 발생하는 경우
② 조건부 이상거래(conditional anomalies): 짧은 시간 내 수차례 예금 인출 시도가 발생하는 경우
③ 포인트 이상거래(point anomalies): 소액거래만 하는 고객의 계좌에 대규모 거래가 발생하는 경우
손해보험사에서는 고객 기본정보와 상품정보, 보험금 청구 거래 정보 등 기존의 고의 사고 보험사기 사례를 기반하여 검지를 하고있습니다.
이 외에도 각 기업/업계 별 정해진 패턴이 있을 것이고, "정해진 룰"을 위반할 경우 이상 거래로 판단하고 있는 것이죠!
비정상적인 패턴을 발견하면 이를 비정상 거래(이상 거래)로 판단하여 대응 단계로 넘어갑니다.
예시) [로그 1]과 [로그 2]를 보았을 때 10분의 거래 시각 차이지만 너무나 먼 거리에서의 거래이기에 이상거래로 판단
3. 대응 단계
위 두 단계를 거쳐 이상 거래로 판단된 거래는 거래 유형 및 정해진 대응 시나리오에 따라 조치를 취하게 됩니다.
예시) 해당 계좌의 거래 중지, 추가 인증 절차 요구 등
이러한 단계를 거쳐 금융/보험계에서는 이상거래를 탐지해왔습니다.
하지만 기존의 룰만으로는 새로운 유형의 이상 거래를 탐지하는 것이 힘들어졌죠...
그렇기에 등장한 것이 바로 분석 단계에 AI를 활용하는 것입니다.
AI를 도입한 이상 거래 탐지
AI를 활용한 이상 거래 탐지 시스템(FDS)는 기존의 룰 기반보다 더 정확하고 빠르게, 이상 거래를 탐지할 수 있게 되었습니다.
머신러닝, 딥러닝 등을 활용할 수 있게 되었거든요!
그럼 앞서 각 용어들을 간단히 정리하고 가볼게요.
인공지능 내의 연구분야인 머신러닝, 그리고 머신러닝의 한 종류인 딥러닝으로 포함관계를 나타낼 수 있습니다.
머신러닝(Machine learning)과 딥러닝(Deep learning)
머신러닝은 인공지능 분야 중 하나로 인간의 처리 하에 컴퓨터가 데이터로부터 스스로 학습하고 판단하는 방법론입니다.
즉, 컴퓨터가 혼자 데이터를 분석하고 결과를 도출하는 과정에서 사람이 먼저 데이터를 처리해 피드백을 제공합니다.
머신러닝의 알고리즘(=원리)는 크게 세가지로 나누어집니다.
1. 지도학습: 입력 데이터와 그에 대한 정답을 둘 다 제시하고 새로운 데이터 입력에 대한 정답을 예측하는 작업을 수행
2. 비지도 학습: 입력 데이터마 제공하고 정답은 제공하지 않음. 데이터의 패턴이나 구조를 파악하여 그룹화 하는 등의 작업을 수행
3. 강화 학습: 현재의 상태를 인식하고, 어떤 행동을 취하면 보상을 받게 되는 과정을 반복하며 최대화된 보상을 얻기위해 최적의 행동을 선택하도록 학습하는 작업을 수행
딥러닝은 머신러닝 분야 중 하나로, 인간의 뇌 신경망을 모방한 인공신경망(Artificial Neural Network, ANN)을 사용하여 복잡하고 거대한 데이터를 다루는 기술입니다. 간단히 말하자면 머신러닝에서 인간이 하던 작업이 빠지는 것이죠.
특히 이미지, 비디오 등의 멀티미디어 데이터를 처리하는데 매우 효과적인데요~
인공신경망은 입력값을 이용하여 인공 뉴런의 출력 값을 계산하고, 인공 뉴런이 계산한 출력 값과 사용자가 기대하는 출력 값을 비교하는데 기대하는 출력 값을 생성할 수 있도록 가중치를 조절합니다.
이번 게시글에서는 머신러닝중 하나인 '로지스틱 회귀' 알고리즘을 설명드리려고 합니다!
로지스틱 회귀 알고리즘의 원리
이진 분류 예측 모델의 기본 원리인 로지스틱 회귀는 수치형 데이터를 이용하여 분류 문제를 해결하는 데 사용되는 머신 러닝 알고리즘입니다.
데이터가 어떤 범주에 속할 확률을 음성(0)과 양성(1)사이의 값으로 예측하고 그 확률에 따라, 가능성이 더 높은 클래스에 속하는 것으로 분류하는 기법입니다.
각 속성들의 계수인 log-odds를 구한 후 시그모이드 함수를 적용하여 0과 1사이의 결과값을 도출하는데요~
진실/거짓, 생존/사망 등과 같은 이분법적인 결과를 도출하기 위해 주로 사용되고있습니다.
오즈비(Odds Ratio)란?
사건이 발생활 확률이 발생하지 않을 확률에 비해 몇 배 더 높은가를 설명하는 개념
예를 들어 아래와 같은 거래 데이터가 있다고 가정해볼까요?
(* 예시 출처: 건강 보험 심사 평가원 파이썬을 활용한 데이터 AI분석 사례)
이상 거래 여부 | ||||
예(1) | 아니오(1) | 합계 | ||
타지역에서 이루어진 거래 | 예 (1) | A군: 97 | B군: 307 | 404 |
아니오 (0) | C군: 200 | D군: 1409 | 1609 | |
합계 | 297 | 1716 | 4026 |
A : 97명 - 거래 지역이 다른 곳에서 거래, 이상거래 판명
B : 307명 - 거래 지역이 다른 곳에서 거래, 정상 거래 판명
C : 200명 - 거래 지역이 동일하지만 이상거래 판명
D : 1409명 - 거래 지역이 동일하며 정상 거래 판명
사건이 발생하는 P를 동일하지 않은 지역에서 거래한 거래가 이상 거래일 확률, 1-P를 동일한 지역에서 거래한 거래가 이상 거래일 확률로 두었을 때 식은 아래와 같이 표현이 가능합니다.
따라서 동일하지 않은 거래지역에서 이루어진 거래가 이상거래일 확률이 2.2배 높다는 결론을 도출할 수 있겠죠?
여기서 추가적인 작업이 필요한데요, 아래 예시로 설명해볼게요!
A가 한번 이기고 6번 질 경우 A의 승리 Odds = 0.17
A가 6번 이기고 한번 질 경우 A의 승리 Odds = 6
이와 같이 이기는 횟수가 지는 횟수보다 많을 경우, 결과값이 1~무한대까지 값을 가지며 그래프로 나타낼 경우 대칭이 안된다는 단점이 있기 때문입니다.
그렇기 때문에 Odds 에 로그를 씌워 logit으로 변환을 해주는 과정을 거치게 됩니다.
로짓(logit) 이란?
오즈비에 log 함수(ln, 자연상수 e를 밑으로 하는 자연로그)를 적용한 것으로 표현은 아래와 같이 가능합니다.
로지스틱 함수(logistic function) 이란?
로지스틱 회귀에서 로짓 변환의 결과는 독립 변수 x에 대한 선형 함수와 동일하게 됩니다,
m개의 독립 변수의 집합(=설명 변수, 예측 변수)는 아래와 같이 표현이 가능합니다.
선형 예측 변수는 베타로 나타내면 아래와 같은 로지스틱 함수를 도출해낼 수 있습니다,
따라서, 우리가 구해야 할 특정 돕립변수 x가 주어졌을 떄, 종속 변수가 1의 카테고리에 속할 확률을 구하는 식은 이와 같이 완성됩니다!
함수 유도 과정까지 덧붙이다보니 설명이 길어졌는데, 요약하자면 이렇게됩니다.
각종 변수를 기반으로 확률을 계산하여 0~1사이의 수치를 반환, 1에 가까우면 이상 거래로 판명을 내리는 방식의 구조의 알고리즘인 것이죠.
이 외에도 랜덤 포레스트(Random Forest) 알고리즘과 딥 러닝인 ANN, RNN, CNN 을 도입하고 있는데
이는 다음포스트에서 이어 알아보도록할게요!
오늘도 긴 글 읽어주셔서 감사합니다 ^~^@
[ 함께 보면 도움되는 출처 ]
① 투이컨설팅 인공지능으로 금융사기 잡는 FDS 이해하기
② LG CNS AI로 보험사기까지 예측한다고? 백오피스도 DX 열풍!
③ CODE BLOG 인공지능 머신러닝 딥러닝 차이점은? 개념부터 차이점까지 총 정리
④ 건강보험심사평가원 파이썬을 활용한 데이터/AI분석 사례
'DO IT! > 정보' 카테고리의 다른 글
IFRS17의 적용, 회계의 변화와 절판 마케팅의 상관 관계 (0) | 2023.11.26 |
---|
댓글