머신 러닝(Machine learning) 의 개념과 학습
머신러닝 Machine learning
머신 러닝이란 인공지능의 한 분야로,
컴퓨터가 데이터 학습을 통해 일종의 패턴을 만들고, 결과를 예측 할 수 있도록 알고리즘, 관련기술을 개발하는 분야이다.
머신러닝의 용도는 다음과 같다.
-
쌓여왔던 방대한 데이터 더미를 특정 용도에 맞게 활용 (ex. 데이터 마이닝, 의료데이터 분석)
-
인간, 프로그래머가 처리하기 힘든 복잡한 계산을 처리 (ex. 자율 주행 시 장애물 판별)
-
유저 요구사항에 적합한 기능, 데이터를 제공 (ex. 유저맞춤형 뉴스레터)
머신러닝의 방향성
현재 머신러닝 분야의 발전 수준은 빙산의 일각으로 보고 있으며 무궁무진한 발전을 기대할 수 있는 분야이다.
-
멀티미디어와 융합하여 데이터 학습
-
데이터 베이스기반의 학습(KDD, knowledge-discovery in databases) 에서 Web, News 등의 다른 저장매체를 통해 학습
-
예측(Forecasting) 뿐만 아니라 결정(Decision Making) 에 활용
-
철학, 역사 등 정보 분야와 융합
데이터 마이닝이란 ?
대규모 데이터를 기반으로 통계적, 체계적 규칙(패턴)을 찾아내는것이다.
신경망 기법, 선형모델, 가설 검정 등의 방법론을 활용하여 필요한 결과를 도출해 낸다.
머신 러닝이 학습된 데이터를 기반으로 결과를 예측하는데 초점을 두고 있다면,
데이터 마이닝은 보유 데이터를 다양한 방법론으로 분석하고 결과를 통해 유용한 정보를 도출해 내는데 초점을 두고 있다.
데이터 분류, 군집화, 연관 분석(데이터 연관관계 규명), 회귀분석 등 다양한 관점을 통해 다양한 결과를 도출한다.
기반이 되는 데이터가 지나치게 적거나 오염되어 있다면, 오류를 겪을 확률이 있다는 점을 주의해야한다.
예) 의료데이터를 기반으로 수술 및 치료 여부 결정, 금융 데이터를 기반으로 Credit Risk 판별
어떻게 데이터를 경험-학습할 것인가?
1. 지도학습 (Supervised learning)
문제에 대해 입력 데이터와 출력(정답) 데이터를 제공하여 학습시키는 방법
2. 비지도학습 (자율 학습, Unsupervised learning)
데이터의 의미를 지정하지 않고 정답을 알려주지 않은 채 데이터를 제공하여 자율적으로 학습 시키는 방법
3. 강화 학습 (Reinforcement Learning)
문제 수행에 결과(성과) 에 정량적인 점수를 매겨서 학습하는 방법. 문제를 여러번 해결하여 정답을 유추하는 방법