본문 바로가기
Data science

데이터 사이언티스트가 되기 위한 Route 설정

by 리밋T 2022. 2. 27.
반응형

작년 10월,

데이터 사이언티스트라는 직업에 매력을 느끼게 되었다.

 

1. 쉬지 않고 공부를 해야 한다는 점에서 무언가 끊임없이 배우고자 하는 내 성향과 잘 맞을 듯 했고,

 

2. 대학 재학 당시에는 이론 위주로 배운 통계학에 흥미를 느끼지 못했으나,

 

3. 비즈니스 문제 해결을 위해 배웠던 통계학적/수학적 지식을 활용할 수 있다는 점,

 

4. 회계 관련 공부를 하면서 생긴,  '수익적' 측면에서 생각하는 습관이 꼭 필요하다는 점, 

 

5. 상품 사입부터 상세페이지 디자인, 마케팅, 고객CS관리까지 혼자 사업을 해보면서 처음부터 부딪히고 깨지며 배운 마인드가 큰 도움이 될 것이라는 점.

 

이제까지는 그런 고민이 있었다.

 

나는 한 분야의 스페셜리스트가 될 수 없는 사람인가?

왜 이렇게 여러 분야에 흥미를 가지게 되는 것일까?

 

그런 나에게 데이터 전처리부터 통계학/수학적 지식, 코딩, 비즈니스 시각, 의사소통 능력, 시각화 능력 등 많은 것을 요구하는 데이터 사이언티스트는 굉장히 매력적으로 느껴졌다.

 

그래서 어떻게 공부해나가야 하며 무엇을 쌓아가야 하는지, 게임으로 치면 스킬트리를 어떻게 설계해야 하며 지금의 내가 할 수 있는 것은 무엇인지 고민해보았고 그 결과

 

10월 말, AI/빅데이터를 다루고 데이터 컨설팅을 제공하는 모 회사에 데이터 분석가&사업기획자로 입사하게 되었다.

 

공부한다는 마음으로 입사한지라 일의 양이 많고 난이도가 높을지라도 즐겁게 일할 수 있었는데, 문제는 모든 일이 나에게 잘 맞지는 않는다는 것이다. PPT 도형 만들기, 인쇄물 제작하기 등의 단순업무는 정말 고통스럽다. 

 

그런 때일수록 결론은 한 가지에 도달한다.

빠르게 배우고, 실력을 키워 '내가 원하는' 데이터 사이언티스트가 되어야 한다는 것.

 

실력 있는 데이터 사이언티스트가 되기 위해선 무엇을 해야하는가?

그 답을 찾기 위해서 [1년 안에 AI 빅데이터 전문가가 되는 법] 이라는 책을 도서관에서 빌렸고, 다행히도 내가 찾던 답을 이 책에서 제공해주었다. 나와 비슷한 나이에 내가 원하는 삶을 살고 있는 분이 쓴 책이라 그런지 나도 이 사람처럼 살고 싶다는 생각을 하며, 책의 내용과 공부 방법을 요약해 적어본다.

 

 

-카이스트나 서울대 공대는 구글과 파트너십을 맺고 있다. 대학에서 구글 지원을 받으면서 연구한 후, 졸업 후 구글 직원으로 합류하는 사례가 많다. 카이스트, 서울대공대 졸업 후 미국에서 5년 정도 경력을 쌓으면 평균 50만 달러(6억원)의 연봉을 받는다. 국내에서는 불가능한 금액이니, 인재가 해외로 유출된다.


-한국에서는 커리큘럼도 제대로 되어있지 않다. 서울대학교도 마찬가지라 아쉽다. 정원도 55명으로 너무 적다. 스탠퍼드 대학 컴공과 정원은 739명.

 

-학원은 쓸모없다. 세금 낭비다. AI 빅데이터 이름만 붙어있다. 혼자 공부하라.

 

-LG전자는 해외대학 위탁 교육 프로그램을 만들어서 사내 석박사급 개발자 우수인력을 선발해서 해외 대학으로 보낸 후, 수료자들이 현업에 배치된다.

 

-필요한 능력 : RDB, NO-SQL,서버 지식, 솔루션, API제작, 데이터 전처리.가공, 수학.통계학적 지식, 코딩(파이썬,R,스파크) 두개 이상 구현, 시각화, 보고서(인문학, 경영학), 웹개발능력(자동화), 의사소통 능력.

 

-해외에서 들어온 소수의 전문가 인력은 대기업 입사 혹은 개인이 창업하는 경우가 많다. 따라서 채용은 거의 불가능.AI 빅데이터 전문가가 창업할 때는 인력도 필요없고, 프리랜서로 그때그때 구할 수 있다. 업무량 대비 나가는 돈이 없어 순이익이 많고, 정부지원사업을 많이 받을 수 있다. 5천~1억 정도는 문제없이 받을 수 있다. 

 

-실제로 저자는 동료들과 창업 후 5천만원 지원받아 앱개발 외주 맡기고, 코워킹스페이스 받아 사무실 임대료 아끼고, 정부R&D사업 선정되어 회사매출 올리고, 서버비 지원받아 비용절감중.

 

-AI빅데이터 전문가가 되면 아이템을 들고 함께하자고 연락온다. 여러 회사와 진행 가능. 인력이 부족하므로 직장에 얽매일 필요가 없다.

 

-시간절약 : 기존 알고리즘의 재사용이 가능하다. A프로젝트에서 수행한 코드를 조금만 바꾸어서 B프로젝트에 적용 가능하다. 논문도 아니고 독창적인 것 필요없다. 전처리 작업만 시간을 좀 투여하고 코드를 그대로 쓸 수도 있다. 프로젝트 한개당 한 달에 100~300만, 빠르면 1시간만에 프로젝트 한개를 완수한다.

 

-생긴 지 얼마 안 된 학문이므로 경력이 중요하지 않다.

 

-저자는 박사 학력,프로젝트 이력, 특허, 논문, 저서, 자격증 정도를 가지고 있다.

1. SNS 프로필에 자신의 이력과 전문성 어필하는 글을 올려라. 
2. 블로그/홈페이지에 전문적인 글을 주기적으로 올려라. 
3. 자신을 전문가로 소개하는 명함을 만들고 만나는 사람마다 줘라. 
4.크몽, 오투잡 등 프리랜서 플랫폼에 이력을 올리고 홍보하라. 
5. 일거리 받으면 높은 품질로 완성하고 고객에게 추천, 평을 써달라 하라. 
6. 고객에게 받은 추천, 평가를 소중히 간직하고 마케팅,홍보용으로 사용하라.

-강연, 컨설팅, 제안서작성, 분석의뢰 제의 중 골라 일하면 된다.
SQLD 쓸모없다. 다른 자격증도 쓸모없다. ADSP, ADP 개념 정리할만 하다. 사조사는 빅데이터 알고리즘 공부할때 도움된다. 필기만 하고, 실기는 필요없으니 제외하라. 자격증은 그저 맛보기 식의 개론만 살짝 본다. 공부해서 나쁠 것은 없지만 빠르게 한번 훑고만 넘어가라.

-내가 편하고 잘하는 것을 좋아하는 방법으로 공부하라.
지능정보연구 저널을 많이 읽거나, 코세라를 통해 스탠포드 대학 강의를 들어라.

#공부방법

 

1. 각 알고리즘의 동작 원리를 이해하라. 어떤 동작 부분에서 어떠한 수식이 어떠한 이유로 쓰인다 정도는 알아야 한다.

 

2. 자신이 잘하는 세부 분야를 몇개 정해서 그것만 파라. 저자는 텍스트마이닝, 추천 알고리즘 두 분야에서 서적과 논문 독파/매일 공부중. 이 분야에서는 내가 교수보다 잘하는 게 당연하도록 만들어라. 어떻게? 혼자 미친듯이 공부해야 한다. 혼자 생각하고 이해하고 응용해보고 그것을 책으로 써내던지 논문을 써봐라.

 

3. 데이터 분석 목적 및 모델링 방향 제시를 할 수 있는 능력을 키워라 : 알고리즘 응용을 잘해야 한다. 데이터 전처리(전체 작업의 7~80%) 능력을 키워야 한다. 비즈니스 현장의 문제를 인식하고 주어진 데이터로 어떻게 비즈니스 문제를 풀 것인가 고민하는 능력이 중요하다. 이는 다양한 프로젝트를 접하고 신문, 잡지, 책을 통해 안목을 넓혀야 한다.

 

#루트 설정

 

1. AI 빅데이터 활용에 관한 경영학 서적을 읽어라. 실제 분석 케이스를 많이 접하라!! 
추천하는 책
-빅데이터 기초:개념,동인,기법(시그마프레스), 인공지능 시대의 비즈니스 전략(더퀘스트)
-빅데이터가 만드는 제4차 산업혁명(북카라반), 빅데이터 비즈니스 이해와 활용(위즈하임), 빅데이터 분석과 활용(학지사)

 

2. 기본기를 탄탄하게
-공부 순서 : 데이터 이해->데이터 전처리 기술(정제,통합,축소,변환)->분석 알고리즘(분석 알고리즘은 두꺼운 책 한 권을 사서 한 번에 전부 독파하라.)
-추천 책

데이터 마이닝 개념과 기법(에이콘출판), 패턴인식(교보문고), 데이터 마이닝 기법과 응용(한나래)
-논문을 읽어라: 정보시스템학 계열 선택(활용사례위주임)
-공부를 위한 자격증책 : 데이터 분석 전문가 가이드, 경영 빅데이터 분석사. 사회조사분석사. SQL 전문가 가이드.

 

3. 파이썬 관련 책을 읽으면서 좋은 코드 예제는 따로 표시.

기록해뒀다가 실제 프로젝트를 할 때 그 코드를 응용할 수 있다. R도 마찬가지.
-파이썬 라이브러리를 활용한 데이터 분석(한빛미디어), 파이썬으로 데이터 주무르기(비제이퍼블릭), 빅데이터 분석 도구 R 프로그래밍(에이콘출판사),R라뷰(더알음)

 

4. 기본적인 수리통계학은 할 수 있어야 한다.

수리통계학개론(경문사)

보면서 수식은 외우지 말고, 이해하고 넘어가면서 문제 해답 보면서 쭉 따라 쓰면서 이해하라. 어떤 수식이 어떤 데이터에 어떻게 적용되는지 알면 된다. 

 

5. 딥러닝 관련 서적을 읽어라.
DNN, CNN, LSTM, AUTOENCODER,RBM,GAN 등 뉴런과 뉴런을 연결하는 엣지 간의 네트워크를 어떻게 구성하냐에 따라 다양한 형태의 모델이 생성 가능하다.
딥러닝 제대로 시작하기(제이펍)
인프런에서 https://www.inflearn.com/course/기본적인-머신러닝-딥러닝-강좌 : 무료, pdf.
그 다음으로
밑바닥부터 시작하는 딥러닝(한빛미디어)
딥러닝 라이브러리는 여러가지(케라스,텐서플로,카페,파이토치,티아노 등) 있지만 이 중 하나만 다루면 된다. 케라스 추천(제일 쉽다)
케라스 창시자에게 배우는 딥러닝(길벗)

 

6. 데이터베이스를 공부하라.
Database concepts(pearson education)
몽고디비 인액션(제이펍)

 

7. 캐글 경진대회 : 실제 비즈니스 환경에서 도출되는 데이터 세트다. notebooks에서 다른 사람들 걸 보고 힌트를 얻거나 discussion에서 질의응답 가능. 견문 넓힐 수 있다.


8. 전문 분야를 정하라 : 최대한 다양한 분야의 연구를 해보고 흥미있는 것을 파악해서 자신만의 세부분야를 정해야 한다. 모든 분야를 다 잘할수는 없다. 자연어처리/영상분석/딥러닝 분야의 ai 빅데이터 전문가는 good. 세부분야 정하면 아마존에서 책을 사라. 국내에는 별로 없다.

 

추천 알고리즘 : building recommender systems with machine learning and ai(sundog education) - 아마존의 추천엔진 개발자가 파이썬 언어로 구현한 추천시스템을 설명한 책. 현업 개발자가 쓴 책을 보는 걸 추천한다.

 

책 뿐 아니라 논문을 읽는게 필수다. 최신 기술동향이 바로 나온다. "구글 학술검색" 이용. 논문은 1천개 읽어야 한다는 말이 있다. 논문을 많이 읽고, 남들보다 많이 알고, 많은 아이디어를 가지고 있는 사람을 전문가라고 부른다. 인용이 많이 된 것/게재 연도가 최근인 것/ 선행 연구가 자세히 기재된 것.

논문을 읽으면서 간단하게 요약 및 정리해두고, 유용한 부분도 따로 기록해둬라.
마지막으로 워드 테이블로 논문 저자-제목-연도-연구목적-연구방법을 간단히 정리해두면 된다.

 

9. 실전 프로젝트를 해보라.  주 프로그래밍 언어 선정, 관련 프로젝트 반복 훈련.  실전을 해보고, 막힐 때는 스택 오버플로같은 곳에 질문하라.


9-1. 회사에 취업하기(3~6개월 공부한다는 마음으로)
9-2. 프리랜서로 활동하기(대학생 숙제 문의부터)
9-3. 직접 데이터 수집해서 자체 프로젝트 수집 : 웹크롤링-텍스트 마이닝 프로젝트, 사진추출-이미지 분석 프로젝트, 유튜브-영상처리 프로젝트 등등. 강한 의지 필요.

10. 자신만의 알고리즘 만들고 논문 쓰기

기존 논문 읽다보면 향후 연구방향을 제시해준다. 그 방향으로 아이디어를 구상해서 쉽고 간단한 방법론이나 알고리즘 제시 가능하다.

 

또한 라이브러리가 아닌 직접 기계학습 알고리즘을 코딩해보고, 두 개 이상의 알고리즘을 순차결합 or 동시결합을 통해 새로운 방법론을 제시할 수 있다. 단순하지만 이런 방법도 논문이 될 수 있다.

 

한국학술지 인용색인 등재지에 도전하라. <지능정보연구> 등. 구글 학술검색에서 연구 주제 키워드로 15~30개 정도 나오는 주제를 논문으로 쓰는게 좋다. 처음 시작부터 최초 투고까지 1~2개월 정도 빠르게 끝내고 일단 투고하라.

 

결론

이 과정을 다 따라왔다면 전문가 수준이 될 것이다. 자기 자신을 자신의 분야에서는 누구보다도 더 대단하다고 생각하라. AI 빅데이터 분야는 한 가지 정답만이 있지 않다. 내가 생각하는 것이 여러 정답 중 한 가지 정답이 될 수 있다고 굳게 믿어야 한다.

 

단순 csv 형태 의뢰가 아닌 AI 빅데이터를 접목한 어플리케이션 개발을 하려면 DB,서버,API, UI 개발에 대한 지식이 있어야 한다. AWS에 대한 지식, 리눅스 서버 기본 명령어(파이썬을 백엔드에서 실행, 주기적 스케줄링 걸어주는 정도의 명령어는 익혀야 함.), 메모리 관리, API(Flask 라이브러리), UI 개발(가치를 더 높일 수 있음.)

 

시간이 있다면 읽어보면 좋을 책

아마존 웹서비스 AWS Disco very Book(정보문화사)

깔끔한 파이썬 탄탄한 백엔드(비제이퍼블릭)

파이썬으로 배우는 알고리즘 트레이딩(위키북스)

파이썬 GUI 프로그래밍 쿡북(에이콘출판)

 

AI 빅데이터 전문가, 사업가, 멘토, 강연가로 살아가라.

저자는 대학원 박사 과정을 하면서 한 회사에서는 대표로, 한 회사에서는 이사로 있다. 작가, AI 빅데이터 강사로도 활동하고 있다.

 

--------------------

 

나는 책에서 말하는 경로를 그대로 따라가면서 추천된 책들부터 읽고 정리해보려 한다.

현재의 나는 9-1 단계인 회사에 취업해서 ADsP를 공부하며 기본적인 통계 지식을 재정립하고 있고,

R을 사용하다 파이썬에 좀 더 익숙해져 파이썬으로 기본적인 데이터 분석 업무를 하고 있고,

시각화 툴인 PowerBI를 다룰 수 있기에 자체 프로젝트를 진행해 전자책을 발간해봤다.

최근 세부 분야를 정한다면 인공신경망 쪽으로 좀 더 공부해보고 싶다는 생각을 했다.

 

하지만 전문가를 Level 10이라고 한다면 나는 아직 Level 2정도 되는 것 같다.

설정한 경로대로 걸어가다보면 한 단계씩 성장할 것이고, 그러다보면 전문가가 되어 있을 것이라 믿는다.

반응형

댓글