[Be a Data Scientist] _ 대체 뭐길래 ?! (데이터 분석 & 데이터 마이닝 & 머신러닝 & 인공지능)
Be a Data Scientis
얘네들 뭐예요 ?
- Data Mining
- Statistics
- Deep Learning
- Machine Learning
- Big data
- AI (Artificial Intelligence)
: 4차 산업혁명, 알파고의 등장, Google Home(에코), Amazon, Google 의 미친짓 등등 요즘 가장 핫한 분야가 제가 위에 나열한 분야라고 생각 됩니다. 물론 IOT, Connected Car, Sharing economy 등 다양한 이슈들이 있지만 이슈들 또한 어떻게 데이터를 처리하고, 자동화 하는지에. 대한 부분이 core라 생각됩니다.
앞으로 이 분야에 관하여 Steemit 에 한글로 된 자료를 정리하자는 취지로 그 방점을 찍어보려 합니다. 저도 아직 모르는 것이 너무 많고, 제가 잘못된 지식을 알고 있을지도 모르니 언제든 첨언&수정&지적 부탁드립니다.
데이터 분석의 개요와 용어 정리에서 시작하여 기본 알고리즘 소개, 분석툴 소개, 최신 연구동향 등에 대하여 지극히 개인적인 견해로 다룰 예정입니다.
그럼 첫 번째로 복잡하게 남용되고 있는 용어들을 나열해보고 Steemit kr 사용자는 같은 의미의 언어로 사용하고자 용어들을 정리해보도록 하겠습니다.
Data Mining
: Data Mining은 가장 포괄적인 단어로 사용됩니다.
[데이터 마이닝(data mining)은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것이다.
[https://ko.wikipedia.org/]데이터 마이닝은
데이터 저장 -> 데이터 불러오기 -> 데이터 정체하기 => 시각화 or 데이터 탐색 => 모델링 -> 제품화 or 자동화 -> 데이터 저장
의 사이클을 가지고 진행됩니다. => 의 표시로 된 부분에서는 시각화/데이터 탐색에서 사이클이 종료되고 다시 처음으로 돌아갈 수도 있고, 같은 의미로 => 모델링이 종료되고 다시 처음으로 돌아갈 수 있습니다. 여러 종류의 알고리즘이 있고, 굉장히 광범위한 부분이라 오늘은 '아 이런거다~' 의 개념만 드리도록 하겠습니다.
Statistics
: 통계학은 데이터에 접근하는 전통적인 방법으로, 크게 두가지 종류로 나누어 볼 수 있습니다. 기술통계와 추리통계로 나누어 지는데, 기술통계는 평균, 분산 등 한 종류의 자료 설명에 관심이 많은 친구입니다. 사과 한상자가 있는데 그 상자안에 있는 사과 크기의 평균, 사과 크기 분산 등과 같이 사과 한놈한테만 관심이 있습니다. 추리통계는 두 개 이상의 변수에 관심이 많은데 (사실 표본을 추출하고 모수를 추청하는 통계기법이지만 다른 관점으로 바라보면) 사과 한상자가 있는데 그 안에 사과들 당도가 얼마나 되는지 알고싶습니다. 근데 모든 사과를 다 먹어볼 수 없으니 3개 정도를 먹어보고 '아 이 상자속 사과는 달구나' 라고 판단을 내릴 수 있죠. 이 때 우리는 사과 - 당도 의 관계에 대하여 생각해 봅니다. 통계학은 데이터 마이닝을 수행하는 하나의 도구로 사용된다 생각하시면 좋으실 듯 합니다. (오로지 데이터 과학자의 관점 + 저의 관점 입니다)Deep Learning
: Deep Learning 은 사실 그냥 큰 범주를 갖는 알고리즘 중 하나입니다. Deep learning 이라는 용어가 너무 유행이라 여기에 넣어 보았습니다. Deep learning 은 Neural network 라는 machine learning 도구를 좀더 학습을 잘하도록 발전시킨 것이라 생각하시면 됩니다. 이 부분에 대해서는 나중에 더욱 자세히 들여다 볼 예정입니다. (Deep learning은 만능이 아니야!! 라고 혼자 소리쳐 봅니다)Machine Learning
:머신러닝은 이렇게 ‘기계’가 일일이 코드로 명시하지 않은 동작을 데이터로부터 ‘학습’하여 실행할 수 있도록 하는 ‘알고리즘’을 개발하는 연구 분야이다. (1959년 아서 사무엘)
. 기계에게 어떻게 동작하도록 하나하나 모두 입력하지 않고도 스스고 학습하여 원하는 행동을 하도록 만드는 것을 이야기 합니다. 알파고에게 기보를 주고 바둑을 스스로 학습시킨 것 처럼 목표를 가지고 그 목표에 알맞게 기계가 행동하도록 만드는 것입니다.Machine learning vs Data Mining
: 이 둘은 매우 유사하고 겹치는 부분도 많지만 이름에서 풍기는 느낌처럼 Machine learning은 기계를 학습시키는 것을 목표로 하고, Data Mining은 데이터에서 지식을 발견하는 것을 목표로 합니다.Big data : Big data 는 말그대로 많은 데이터 입니다. 데이터가 많아진다고 해서 완벽한 기계를 만들거나, 엄청난 정보를 뽑아낼 수 있다는 것은 아닙니다. 요즘 빅데이터라는 용어가 많이 사용되고, 컴퓨팅 능력의 향상으로 기술이 발전된 것은 맞지만, Big data라는 단어가 분석&AI 등 모든것을 내재하고 있는 듯하게 사용된다는 점은 조심해야 할 부분이라 생각됩니다. small data에서도 엄청난 insight를 뽑아낼 수 있습니다.
AI (Artificial Intelligence) : Machine Learning을 통하여 기계 스스로 결정을 내리거나 주어진 task를 수행하는 모든 것을 말합니다. 물리적 기계를 지칭하는 말로 주로 사용되지만 소프트웨어나 자동화 프로그램 모두 AI 라고 불립니다. Strong AI & Weak AI 등에 대한 이슈도 많은 논의가 필요하고, 이야기가 필요하다 생각됩니다.
처음 접하는 분들에게는 너무 내용이 어려울 수 있기에 마지막으로 요리에 비유하여 정리해보도록 하겠습니다.
- Data Mining = 요리하는 모든 과정! (재료 재배부터 신요리 개발까지)
- Statistics = 요리 재료 확인
- Deep Learning = 요리하는 방법 중 하나
- Machine Learning = 기계가 요리재료도 분류해주고, 자동화 요리
- Big data = 재료도 많고, 종류도 많음
- AI (Artificial Intelligence) = 사람에게 뭐먹을지 물어보고 요리해주는 machine
- Data Scientist = 요리사!
사실 너무 주관적으로 정리한 글이라 틀린 부분도 존재하고, 공개된 공간에 글을 옮기는 것이 조심스럽지만 Data science를 공부하는 초심자의 입장에서 소개하는 글을 적고 싶었습니다. 읽어주셔서 감사합니다.
오 이 포스팅을 통해 Data science에 대한 큰 그림을 머릿속에 그려볼 수 있을 것 같네요! 평소에 제 전공인 심리학의 특성상 추론통계만을 주로 사용하고 있어서 머신러닝이나 빅데이터 분석 등에 관심이 많습니다. 앞으로도 좋은 포스팅 기대하겠습니다 :)
감사합니다! 사실 쉽게 정리해서 쓴다고 했지만 글쓰는 능력이 부족하여 너무 모자란 것 같습니다.
저 스스로 발전시킬 수 있는 기회라 생각하고, 앞으로 많이 지켜봐 주세요!
제가 공부할 대만 해도 지도교수님이 AI쪽으로는 말리는 분위기였습니다. 한때는 논문도 안받아주는 시절이 있었다고 합니다. 학계가 AI에 좌절한 영향이었을겁니다.
와 평소에 궁금했던 내용들이에요! 맨날 많이 들었지만 사실 내용까지는 생소한 단어들이라 큰 도움이 됐습니다 ! 다음 글들도 기대되네요