2019 - 시작: 스쳐간 것들
Keyword: 모두의연구소
/ SNUBH
/ DACON
/ DNA
/ 공모전
/ 연구
/ XAI
/ 취미
/ 졸업
올 해 정리해보니 정말 많을 일이 있었다. 처음 쓰는 회고록이지만 지금까지 안써왔던게 후회가 되어 첫 회고록은 이전 지나온 날들을 요약하며 함께 쓰게되었다.
2019년 요약
1월
- [모두의연구소] DLC (Deep Learning College) - 워크숍(제주도) / 팀프로젝트: 3D CoordConv Segmentation (허재혁/김서진/김낙일) [Link]
- [SNUBH] 두 번째 논문 연구 시작 (첫 1저자 논문!)
2월
- [모두의연구소] 설날 맞이 토이 프로젝트: U-Net Segmentation with Tensorboard (허재혁) [Link]
- [DACON] 6차 KBO 타자 OPS 모델링/시각화 대회 - 모델링 7등 (허재혁/김진우)
3월
- [학부] 마지막 학기 시작 (웹크롤링/시계열분석) - Selenium 코딩 시작 / 시계열 튜토리얼 [Link]
- [DACON] 7차 KBO 외국인 투수 스카우팅 대회 - 3등 (허재혁) [Link]
4월
- [여가] 취미생활 시작 - Tracking [Link] → 이후 7월에 강사가 바뀌어서 그만둠 (강사가 별로..) ㅂㄷㅂㄷ재밌었는데
- [DACON] 수원대 x 데이콘 데이터 사이언스 캠프 시작
- [SNUBH] 교수님께 퇴사 선언 - “학력/장기적인 미래를 위해 대학원 가겠다”
5월
- [SNUBH] Development of prediction model for intracranial aneurysm using machine learning 논문 완성 (Accept은 아직..)
- [DACON] DACON 8차 KCB 데이터를 통한 금융스타일 시각화 경진대회 - 탈락
- [DNA] NLP 스터디 시작! (허재혁/박용연/박상민/송민정) [Link]
6월
7월
- [DACON] 데이콘(DACON) 입사 - “연구보다는 서비스하는 일을 경험해보고 싶다. 다양한 도메인은 덤!”
- [DACON] 수원대 x 데이콘 데이터 사이언스 캠프 끝
- 마지막 오프라인 세션에서 DataNetworkAnalysis (DNA) 모집 선언! (급하게 만들어서 너무 허접했던 설명회 자료) [Link]
- 정형철 교수님 90만원 지원! “너 알아서 맛있는거 사먹어라” → “이걸로 올 한 해 그동안 못해본거 해보자”
- [DNA] 빅콘테스트: 챔피언리그 시작 - 남조선자료공작단 결성 (허재혁/박용연/박상민/이정환/송민정) + 문현종(이후 멤버 대체)
- [DNA] 시작 - DNA Notion page 제작 [Link] (허재혁/박용연/박상민/이정환/문현종)
8월
- [DACON] 데이콘 대표님께 퇴사 선언 - “저만의 전문성을 찾으러 가고싶습니다.”
- [DNA] 남조선자료공작단 강릉 워크숍
- [DNA] 첫 번째 워크숍! - 머신러닝 2일만에 끝내기 [Link]
- [학부] 졸업
9월
- [DACON] 데이콘(DACON) 퇴사 - 스타트업에서 생존기(순한맛) [Link]
- [모두의연구소] A.I. College(AIC): eXplainable A.I. 지원- 선정! [Link]
- [DNA] 추가 멤버 모집 - (조하늘/이재헌/김진우/원가연/고가연/서형준 추가)
- [DNA] 빅콘테스트 제출! [Link]
- [DNA] 첫 홍보 포스터 제작 [Link]
- [DNA] 첫 밋업: 개인프로젝트 WhiteBox 시작! - Research/Service/Module 목표
10월
- [모두의연구소] AIC 첫 번째 과제 시작: WhiteBox Part1 - Computer Vision 시작!
- [DNA] Github 시작 [Link]
- [DNA] 두 번째 워크숍! - 딥러닝 튜토리얼 [Link]
- [DNA] 남조선자료공작단 본선진출 → 2차 발표 [Link]
11월
- [모두의연구소] AIC 첫 과제 끝! [Link]
- [DNA] 세 번째 워크숍! - 협업프로그램1 Notion [Link]
- [DNA] 네 번째 워크숍! - 협업프로그램2 Github (허재혁/박상민/고가연) [Link]
- [DNA] 남조선자료공작단 최우수상!! [Link] [Youtube]
- [DNA] 블로그 시작! [Link]
- [여가] 새로운 취미시작 - 피아노
12월
- [DNA] Interpretable Machine Learning 번역시작! [Link] → SHAP 포스팅으로 인한 인연, Christoph Molnar(저자)과 연락.
- [모두의연구소] WhiteBox Part2 - Tabular Data 시작! [Link]
- [모두의연구소] AIC 두 번째 과제 시작: Image Attention Methods [Link]
- [DNA] 남조선자료공작단 빅매칭캠프 [Link]
- [DNA] WISE센터 고등학생 진로진학멘토링 - 데이터사이언스학부 소개 [Link]
1. 올 한해 흐름
연구 → 서비스 → 연구
“연구가 과연 좋은걸까” → “데이터사이언티스트는 리서치보다는 서비스에서 경험이 있어야지” → “전문성이 있어야해…연구하자”
2. 2018년 요약
올 해부터 처음 쓰게된 회고록이다. 때문에 정리하고 싶은게 너무나 많지만 이 글은 2019년 회고록이기게 짧게나마 2018년 회고록을 요약해보고자 한다.
데이터 분석가와 사기꾼은 종이 한 장 차이인걸까?
올 한 해는 데이터 분석과 딥러닝 연구에 고민이 많았던 해였다. 사실 이런 고민이 생긴것은 작년 초 데이터 분석에 대해 공부를 시작했을때부터였다. 처음 데이터 분석 공모전을 나갔을때 내가 알던 분석과정과는 다르게 분석이 진행되었고, 이후 공모전 마감기간에 맞추기위해 결론에 데이터를 맞추게 되면서 데이터 분석과 사기는 종이 한 장 차이일 수 있겠다. 라는 생각을 하게 되었다. 실제로도 잘못된 시각화를 통해 의도적으로 정보를 왜곡하여 나타낸 경우도 있고 원하는 결론에 맞추기 위해 데이터를 조작하기도 한다.
그래서 데이터 분석라는 일이 단순히 데이터를 분석만하고 끝나는 일이 아니구나라고 생각하게 되었고, 데이터 분석가가 되는길이 너무나 어렵고 막대한 짐이 있는 것처럼 느껴졌었다. 이런 어려움을 뒤로한채 한참 알파고 덕분에 유행이 되어버린 딥러닝을 공부해보기 시작했고 이미지 분석이라는 학부에서 배우지못했던 새로운 분야와 신경망이라는 방법을 통해서 너무나 쉽게 결과가 나오는 것을 보고 딥러닝에 빠지게되었다. 그렇게 작년 한 해를 딥러닝을 공부하는데 모두 쏟아부었다. 이제는 딥러닝 입문 필수과정이 되어버린 김성훈 교수님의 “모두의 딥러닝”, 간단하고 쉽게 설명이 되어있는 “3분 딥러닝 시리즈”, scikit-learn 쿡북이라고 해도될정도의 “핸즈온머신러닝” 그리고 강의자료를 공개한 후로 세계인들의 딥러닝 교육자료가 되어버린 “CS231n” 등 여러 책과 강의를 통해서 공부했었다.
3. 내 정체성을 찾아해매던 2019년
3.1. 딥러닝의 한계?
그러던 중 우연히 병원에서 일할 수 있는 기회가 되었고 정말 우연히 너무 좋은 교수님을 만나게 되어 작년 한 해는 짦은 시간동안 정말 많이 성장할 수 있는 기회가 생겼다. 이 기회를 통해서 모두의연구소 Deep Learning College(DLC): 의료영상에 대한 프로젝트도 진행하고 좋은 사람들도 많이 알게되었고 여러 세미나나 컨퍼런스를 가보며 이 분야에 대한 시야가 넒어질 수 있었다. 올 해 6월 병원을 나올때까지 그리고 이후에도 교수님은 계속해서 많은 조언과 도움을 주시고 계신다. 이후 내가 보답을 드릴 수 있는날을 계속 바라고 있다.
좋은 사람들과 좋은 직장이였던 분당서울대학교병원
그렇게 올 해 초까지 딥러닝에 대한 연구에 집중하다가 새롭게 시작한 논문으로 인해 다시금 데이터 분석을 공부하게되었다. 첫 연구가 생각보다 결과가 잘나오자 두 번째 연구를 바로 시작하게 되었다. 국민건강보험공단의 건강검진 데이터를 활용한 주제였고 아직 논문이 통과되지는 않았기에 자세한 내용까지는 말하지 못할 것 같다.. 딥러닝으로 이미지 데이터를 다루는 것도 데이터를 분석하는 일이지만 일반적으로 학부에서 배워왔던 정형 데이터(tabular data)를 분석하기란 더 어려웠다. 딥러닝이 말도안될정도로 좋은 결과를 내고 있지만 모든 분야에 해당하는 것은 아니다. 우리가 알고 있는 딥러닝의 성과들은 대부분 비정형 데이터에 대해서였지 정형 데이터에서는 아니였다. 그러나 고전적으로 많이 사용되던 머신러닝 모델들보다 신경망으로 구성된 새로운 모델을 통해 연구결과가 나오길 바랬기 때문에 많은 고민을 해야했고 기존 머신러닝 모델들에 대해 학부때 배운 것보다 더 많이 공부해야만 했다.
3.2. 정형 데이터 분석 재도전
때문에 정형 데이터 분석을 공부하기위해 마지막으로 학부 친구들과 당시 너무 듣고싶었던 데이터 마이닝 수업이 폐강되어 교수님께 쫒아가 같이 공모전 지도를 부탁한다며 나갔던 빅콘테스트와 엘포인트 공모전 이후 다시금 공모전을 나가게되었다. 올 해 초 캐글 스터디를 하며 알게된 데이콘이라는 국내 데이터분석 경진대회를 알게되어 데이콘에서 주최하는 대회들을 참여하게 되었다. 대회를 참여하게 되면서 마지막 학기에 들었던 크롤링 수업에서 배운 selenium으로 여러 외부 데이터도 수집해보고 몇몇이 결측치를 제거하는게 좋을지 아니면 대체하여 사용하는게 좋을지도 고민하며 여러 기사를 통해 파생변수도 만들어가면서 전처리 작업을 했었고 선형 모델부터 비선형 모델까지 각 모델별 특성을 공부해가며 다양한 모델로 실험하고 앙상블도 해보며 성능을 올리기위해 많은 시도를 했었다.
아쉽게도 7등.. 500만원 너무 아쉽다! 이후 나보다 위에 있는 분들 모두 만나뵙게되어 얘기를 했었는데 모두 훌륭하신 분들이였다.
공모전을 통해서 많은 시간을 보내며 여러 분석방법들을 공부해보고 적용해봤지만 모든 데이터에 문제가 다 다르듯이 병원에서 하던 연구 데이터 또한 공모전과는 다른 특성이 있었다. 대부분 병원 데이터의 목표변수들은 불균형하였고 내 연구 데이터도 전체 데이터에서 positive가 약 0.4%도 안되었다. 공모전이나 학부에서 배운것과 다르게 어느 누구도 데이터를 정제해서 주지도 않고 어떤 평가방식을 써라라고 정해주지도 않으며 데이터에 대한 불평도 할 수 있는 곳이 없다. 연구원 중 데이터를 분석하는 사람은 나 혼자였기 때문에 혼자서 연구실에 하루종일 머리를 감싸며 고민하는 것은 쉽지 않은 일이였다.
의료 데이터이다 보니 단순히 성능만 높여서는 될일이 아니였다. 첫 연구에서도 이미지 데이터에 대한 모델 해석으로 Grad CAM을 통해 어느정도 설명가능함을 보였기 때문에 정형 데이터에서도 당연히 모델에 대한 해석은 필수였다. 단순히 높은 점수만 좋은 결과가 될 수 있는 캐글같은 공모전과 달리 논문은 시작부터 결론까지 모두 논리정연한 내용으로 구성을 맞춰야했다. 때문에 점수를 올리기위해 앙상블이나 여러 복잡한 모델은 되도록 사용하지 않게 되었고 permutation 방법이나 각 모델별 feature importance를 통해 중요한 변수를 찾아나가며 계속해서 단순화하였다. 처음 쓰는 논문이였기에 어려움도 많고 영어로 써야한다는 압박감도 있었지만 많은 부분에서 교수님이 작성 방법이나 EndNote 사용법 등 도움을 주신 덕분에 무사히 마무리할 수 있었다.
3.3. 도메인에 대한 고민
학교를 다니며 항상 했던 고민은 도메인을 무엇으로 해야할까였다. 어떤 도메인을 해야 비전도 있고 재미도 있을까를 고민하던 중 우연히 병원에서 일하며 의료데이터를 다룰 수 있는 기회가 생겼다. 의료 데이터는 특히나 개인정보보호법 때문에 병원관계자가 아니면 다뤄볼 수 없는 데이터이다보니 해볼 수 있는게 워낙 많았다. 그러나 각 도메인별로 도메인지식이 필요한건 당연하지만 의료데이터는 어떻게 사용하는지에 따라 영향력이 워낙크다보니 어떤 내용이든 의사와의 논의가 필수였다. 나는 교수님과 함께 방을 사용했기때문에 자문을 구하기가 비교적 쉬운 편이였지만 다른 의료관련 회사나 연구원들의 얘기로는 한번 교수님들과 회의시간을 잡고 얘기하는것도 쉬운일은 아니였다. 때문에 다시금 데이터 분석에 관심이 생기고 재미를 느끼게 되면서 의존적인 분석방향보다 자의적으로 분석의 방향성을 잡아서 해보고싶다는 생각이 들었다. 이런 고민들을 해결해보고자 컨퍼런스나 세미나에도 많이 참여해보며 여러 분야에 있는 분들은 어떤식으로 데이터를 분석하고 있는지 또는 어떤 분야에서 연구를 하고있는지 간접적으로 많은 경험을 했었다.
파이콘이나 DEVIEW는 올해 꼭 현장으로 가고싶었는데 못가서 너무 아쉽다..
다양한 데이터 분석에 대한 환경이 갖춰지고 많은 사람들과 함께 연구를 할 수 있는 곳으로 대학원을 가야겠다라고 생각하여 교수님께 대학원을 가고싶다라는 말씀과함께 새로생긴 인공지능 대학원들 중 두 군데에 지원하게되었다. 그렇게 대학원으로 진학해야겠다 마음을 먹고 퇴사준비를 하던중 공모전에 참여하고 있던 데이콘에서 인턴을 구한다는 소식을 보았다. 데이콘에는 당시 8회 KCB 데이터를 통한 금융스타일 시각화 대회가 열려있던 중이였고 이전에 금융뿐만 아니라 스포츠, 부동산 등 다양한 도메인의 주제를 데이터와 함께 대회로 주최하고 있었다. 그래서 이 소식에 혹하여 인턴으로 진행하고 있었고 때마침 우리학교와도 데이콘이 함께 진행하던 프로그램에 참여하고 있었기때문에 데이콘에 대한 흥미가 꽤 생겨있던때였다. 그렇게 데이콘에 지원하게 되었고 면접을 통해 최종적으로 데이콘에 입사하게 되었다. 상반기를 병원 연구원 생활의 끝으로 하반기는 데이콘에서 데이터 사이언티스트로 시작하게되었다.
데이콘에서 같이 일했던 동료들. 내년에 좋은들이 가득하시길!
3.4. 정체성에 대한 고민
데이콘에서 현재까지 열린 대회들의 데이터를 정리하고 앞으로 열릴 대회들의 데이터를 검수하며 어느새 두 달이 지나있었다. 짦지만 두 달이었던 기간 동안 느낀점은 많은 데이터를 접해보고 스타트업 특성상 너나 할 것 없이 할수 있는 부분에 대해서는 뭐든 했어야 했기에 비즈니스적으로도 어깨너머 많이 배웠다. 대표님이 영업의 달인이셨던 덕분에 영업하시는 모습을 보며 영업직에 대한 존경심과 어려움을 더 많이 알게 되었고 약간의 노하우도 가끔 알려주셨다. 영업을 직접적으로 해보진 않았기 때문에 모든걸 알 수는 없었지만 몰랐던 세계에 대해 처음 알게되어 좋은 경험이였다. 연구원으로 지냈던 일상과 달리 스타스업에서는 사람들과 대면하는 일이 많아서 비즈니스적으로 메일을 보내는법부터 기획, 홍보, 제안서 등 학교나 연구실에서 배울 수 없었던 많은 일들을 배웠다.
두 달 동안 많은 분들이 회사에 새로 들어오게 되었다. 학부생분들도 있었지만 특정 도메인에 대해서는 각 도메인마다 전문성이 있는 분이 있어야 영업도 가능했고 자문도 할 수 있었다. 이런 점을 보면서 들었던 생각은 역시 전문성이 필요하겠구나였고 나는 어떤 전문성이 있는걸까였다. 요즘에는 너도나도 데이터 분석을 배우겠다며 학원,강의,대학원 등 많은곳에 사람이 몰리고 있다. 때문에 파이썬을 할 줄 안다거나 데이터를 전처리하고 여러 머신러닝 모델을 통해 분석을 할 수 있는 것만으로는 전문성이 있다고 하기 힘들다. 그래서 나의 전문성을 찾을 필요가 있었다.
그렇게 데이콘에 들어온지 두 달만에 다시금 정체성에 대한 고민과 함께 대표님께 퇴사의사를 말씀드렸다. 나의 전문성은 무엇에 초점을 맞추는게 좋을까 고민하는 것은 크게 오래걸리지 않았다. 이전 병원에서 첫 연구를 하며 느꼈던점은 단순히 학교에서만 배우던 모델 돌리는 것 이외에 논리력과 설명력이 필요하다는 것이였고 여기서 Grad CAM이라는 방법을 통해 saliency map으로 모델에 대한 해석가능함을 보였던 것이 나에게 굉장한 흥미로 다가왔었다. 또한 이 연구가 그동안 불가능해보였던 사례를 가능하다라는 의견을 표현했던 연구였기 때문에 더더욱 흥미가 있었다.
모야모야병이 X-ray 사진과 Neural Network으로 확인할 수 있다는 것과 가설에서 비롯된 새로운 사실에 대한 검토가 필요하다는 것을 보였다.
딥러닝이나 머신러닝은 많은 부분에서 자동화를 위한 도구로 사용되기도 하지만 때때로는 사람이 몰랐던 패턴을 찾아주기도 한다. 그러나 이런 부분은 흔히 말하는 “블랙 박스”의 영역에 있기 때문에 왜 그런지에 대한 이유에 대해서 알지못하고 넘어가는 경우가 많다. 최근에는 많은 부분에서 해석할 수 있는 방법들에 대한 연구가 나오고있지만 아직까지 부족한 부분이 많은 분야이다. 데이터 사이언티스트를 희망하는 입장에서 해석가능한 머신러닝을 만드는것이 반드시 중요한 역할이 될 것이라 생각하고 있기 때문에 나는 이 분야에 대한 전문성을 갖추자라고 생각하게 되었다.
3.5. eXplainable A.I.
회사를 그만두는 때 마침 모두의 연구소에서 새롭게 A.I. College (AIC)를 열었고 여러 분야 중 eXplainable A.I.(XAI)가 있었다. 우연히도 XAI분야의 참여기업이 데이콘에서 일 할때 파트너로 일하고있던 SI Analytics (SIA)였기 때문에 더 신뢰가 있었다. 현재 해외에서는 XAI에 대한 연구가 활발히 진행되고 있지만 국내에서는 XAI를 연구하고 있는 곳이 많지 않다. 그 중 하나가 SIA였다. 그래서 바로 고민할 것 없이 지원하게 되었고 이참에 먼저 신청조건이였던 문제에 대해 reference로 제공했던 논문들을 보며 How to Explain A.I.라는 글을 작성하게 되었다. 결과적으로 다행히 선정되었다는 메일이 오게되었고 10월부터 시작하게 되었다.
오자마자 처음 보는 분께 폴라로이드 사진 촬영을 부탁드려야했다. 하단에는 분야/이름/목표 를 적었어야했다.
사용하는 데이터는 주로 이미지 분야 쪽이였고 딥러닝 모델을 해석할 수 있는 여러 attribution methods, attention methods 그리고 어떻게 이 방법들은 정성적으로 또는 정량적으로 평가할 것인지에 대해 지금까지 연구된 내용들을 공부하고 구현했다. 그러나 이미지에서만 머신러닝 모델에 대한 해석이 필요한게 아니였기 때문에 개인적으로 정형 데이터에서 해석할 수 있는 방법들을 찾아보고 공부했다. XAI는 말그대로 모델이 왜 그렇게 결정을 내렸는지를 해석할 수 있게 해주는 방법을 연구하는 분야이다. 때문에 attention과 같이 보다 중요한 부분을 찾아서 모델의 성능을 효율적으로 최적화시켜주는 방법도 있지만 잘못된 결과에 대한 디버깅 도구로도 사용될 수 있다. 때문에 최근에 알게된 Concept drift라는 개념에 대해서 공부를 시작하며 이 문제를 해결하기위한 방법으로 데이터의 분포가 변하는 지점 또는 과정을 표현할 수 있는 방법과 그에 대한 변화를 수용할 수 있는 모델을 연구하고자한다.
AIC는 내년 4월까지 진행된다. 벌써 두 번째 과제가 끝나가고 마지막으로 논문을 써야할 시기가 왔다. 내년에 좋은 연구성과와 함께 좋은 학회에 등록되어 꼭 컨퍼런스에 가보고싶다. 올해 너도나도 NeurIPS 얘기를 하는걸보며 너무 가고싶었다…
3.6. Data Network Analysis - DNA
올해를 정리하며 DNA에 대한 얘기를 하지 않을 수가 없다. DNA는 데이터 분석에 대해 같이 공부하고 얘기하고 생각할 수 있는 사람들을 위한 공간을 목적으로 만들었다. 나에게 있어 그동안 해보고 싶었던 일들 중 하나였고 이렇게 좋은 기회가 생겨 함께할 수 있는 사람들이 있어서 다행이지 않을 수 없다.
갑작스럽게 이런 일을 시작한건 아니였다. 내가 다니던 학교는 화성시 어딘가에 있었기 때문에 다른학교와 교류하기도 힘들었을 뿐더러 학과내에서 학업적인 교류 또한 전무했다. 대부분 졸업생들은 모두 학교를 떠남과 동시에 뒤돌아볼 생각은 없었고 그나마 술로 이어진 인연만이 남아서 가끔 술 한 잔 부딪히는 정도였다. 그정도로 선후배간 술로 다져진 인연 이외에 남은 건 없었다. 이게 내 1학년때 1년간 다녔던 학과에 대한 이미지였다. 군대를 다녀와도 학과 분위기는 변함없었다. 때문에 이런 학교생활에 변화를 주고 싶었고 1학년때 내가 느낀 개념과 술을 바꿔먹던 선배들의 이미지처럼 나도 후배들에게 그렇게 기억에 남겨지고 졸업하고 싶진 않았다. 새롭게 공부를 시작하러 들어온 대학에서 내가 나온 학교를 부정하며 밖에서 새로운 인연을 찾아나가는 것은 더더욱 나를 부정하는 것 같아 내가 학과를 바꾸고싶다는 생각이였다.
그래서 군대를 복학하자마자 학교에서 진행하는 튜터링 프로그램을 신청했다. 재학생보다는 신입생들에게 통계가 어렵지 않고 학과에서 성적을 따는건 더더욱 어렵지 않다라는 걸 알려주기위해 과목을 기초통계학으로 하였다. 그렇게 1년 반을 기초통계학으로 1학년들과 튜터링을 했었다. 대충하려면 사진만 찍고 보고서만 쓰고 한 학기 튜터링 장학금 받고 끝낼 수도 있지만(실제로 그런사람이 많았다.) 나는 목적이 장학금도 아니였고(한 학기 30만원주는 장학금은 그냥 2주 알바하고 벌면 되는일이였다.) 학교앞에서 자취를 했기 때문에 시험기간일때나 여유가 있을때마다 최소한의 시험이라도 잘봤으면 하는 마음에 의도치않게 많이 괴롭히기도 했었다.
애들아 잘지내지..?
다행히 최근에도 1학년들한테 주었더니 도움이 된다고한다.
튜터링 이후 어느정도 내가 배운것들과 같이 공부할 수 있는 사람들이 있다는게 느껴지면서 학과내 동아리를 처음으로 만들게 되었다. 20명정도가 함께했었고 예상치 못했던 인원 수여서 어떻게 운영해야할까 굉장히 많은 고민이 있었다. 당시 나 또한 데알못이였기 때문에 같이 공부할 생각이였지만 데알알못인 사람이 더 많아서 결국 방식은 강의식으로 진행했어야했고 1학년 수준에 맞춘 강의 수준에 3,4학년 학생들은 금새 열의가 식게되었고 결국 동아리는 한 학기정도만 진행된채로 나 또한 휴학을 하게 되며 지속적으로 운영해줄 사람이 없어 파하게 되었다.
애들아 잘지내지..?222
휴학이 끝나고 병원에서 연구원생활을 하며 마지막학기에 접어들면서 데이콘이 우리학교와 한 학기 동안 데이터 사이언스 경진대회 캠프라는 프로그램을 계약했다. 동아리 이후 우리학과 사람들은 데이터 분석에 대해 관심이 별로 없을거라 생각했지만 나의 큰 착각이였다. 생각보다 많은 사람들이 분석에 계속해서 관심이 있었고 실제로 잘하고 있었다. 이때 다시 이 사람들이랑 같이 뭔가 해보고 싶다는 생각이 들었고 이전과는 다르게 단방향적인 동아리가 아닌 양방향적인 교류를 위한 공간으로 만들고싶었다.
이때 상위원에 있는 사람 대부분이 현재 DNA 초기 멤버들이다
데이콘과의 캠프과정이 끝나고 마지막 오프라인 세미나에서 대표님께 얘기를 드린 후 급하게 만든 어설픈 DNA 소개자료를 가지고 같이 하고싶은 사람들을 모았다. 세미나가 끝나고 마침 교수님께서 DNA 얘기를 들으시고는 학교 장학금에서 활동비에 보태라고 지원금을 주셨다. (교수님 덕분에 여러 워크샵 또는 밋업을 진행하는데 금전적 부담없이 활동할 수 있었다.) 이번은 지난번 동아리와는 달라야했다. 다른 데이터분석 관련 연합동아리에 다니는 분들 얘기를 들어보며 다른 동아리와는 차별점을 두고 싶었다. 1년 과정의 프로그램을 통해서 한 학기는 교육을 하고 한 학기는 프로젝트를 진행하며 연말에 컨퍼런스에서 발표하고 수료하는 식처럼 마치 하나의 교육 과정으로 보기보다는 지속적으로 계속 교류하고 서로에게 도움이 될 수 있는 팀 형태로 만들고 싶었다. 개인적으로 모두의 연구소에서 많은 영향을 받았었기에 풀잎스쿨에서 진행하는 flipped learning처럼 서로가 서로의 강사이며 동시에 교육생이 되는 공간이다. 때문에 팀 진행방식은 각자가 하고싶은 주제를 스스로 찾아나가고 작고 간단해도 좋고 장기적으로 큰 틀을 잡고가도 좋았다. 무엇이든 자신의 방향성을 찾는게 중요하고 완성하는 과정을 스스로 만들어가는게 중요하다. 그리고 주기적으로 만나며 서로의 프로젝트에 피드백을 주고받고 각자가 완성한 주제들을 정기적으로 발표하며 자신의 프로젝트에 대한 내용을 본인이 잘 설명할 수 있는 연습을 하도록 했다. 또한 팀으로 진행이 되면서 많은 부분에서 영감을 받고 서로에게 영향을 주면서 단기간에 많은 프로젝트 경험을 직간접적으로 느낄 수 있게 하기로했다.
DNA page
Notion DNA page url : http://bit.ly/DNA_homepage
물론 처음부터 모두가 내 생각에 공감해주지는 않았다. 어느학과에나 있는 장난삼아 만든 동아리로 보여지는 것 같기도했고 처음부터 진지하게 받아들이기는 어려웠다. 어디까지나 내 바람으로 만든 팀이고 아직 아무 결과도 없다. 그래서 무언가 형체를 만들어 팀이라는 공간을 표현할 필요가 있었다. 그래서 우선 소속감을 얻기위해 홈페이지를 만들었다. 올해 처음 notion을 알게되어 아주 유용하게 사용하고있다. 다음으로는 내가 없어도 팀이 운영될 수 있도록 체계를 만드는 것이였다. 그래서 상의 후에 각자 어느정도 책임을 가질 수 있도록 역할을 만들었다. 개인적으로 혼자 하고 있던 일들을 나누어 프로젝트 관리, 기획, 재정관리, 마케팅 그리고 웹관리까지 5개 정도로 구분했다. 각자 원하는 팀에 들어가 본인들이 하고 싶은 일들을 정하며 진행하기로 했다. 처음에는 사실 별 기대하지 않았지만 막상 정하고나서보니 각자 역할에 재미를 가지고 열심히하고 있었다.
각자 팀별로 작성한 계획들을 공유하며 진행하고있다.
8월부터 시작해 어느덧 12월까지 양식도 구체적으로 정하여 꾸준히 진행하게 되었다.
이후에는 프로젝트 관리를 위해 다같이 공유할 수 있는 github organization을 만들었다. 협업을 위해서 notion, github 워크숍으로 사용법을 배우고 공유했다. 이번 기회에 개인적으로만 쓰던 github을 협업하는 용도로 활용해 볼 수 있는 기회가 생겼고 브랜치에 대해 여러가지로 사용해볼 수 있는 기회가 되었다. 그리고 이후에는 팀 홍보를 위해서 블로그를 만들었다. 그동안 notion에 공유글들을 모두 작성하고 있었는데 notion이 아직 검색엔진에 노출이 잘 되지 않아서 jekyll로 github 블로그를 하나 만들었다. 올해들어 정리하고 기록하고 싶은 일들이 많아서 하나둘씩 글을 쓰다보니 점점 글이 늘어나게 되었다. 점점 개인블로그가 되어가는 것 같지만 엄연한 팀블로그이기 때문에 다른 팀원들도 같이 글을 공유해주었으면 하는 바람이다.
DNA github url : https://github.com/DataNetworkAnalysis
DNA blog url : https://datanetworkanalysis.github.io/categories
남조선자료공작단 창단
DNA를 시작하게된 계기도 좋은 사람들이 있었기 때문이였다. 마지막 전공 수업이였던 시계열 강의에서 처음 용연이형과 알게되었고 이전부터 알고있었지만 연결고리가 없었던 상민이, 정환이와도 함께하게 되었다. 그렇게 뭔가 같이 해보자고 먼저 제안한 후 NLP 스터디부터 시작해서 DACON 8차 KCB 공모전과 이후 데이콘 캠프에서 알게된 현종이까지 더해 빅콘테스트 챔피언 리그에 남조선자료공작단으로 나가게 되었다.
우연찮게 얘기도중 지어낸 팀명 덕분에 의도치 않은 관심을 받게되었다. 많은 분들께 웃음 아닌 웃음을 드리게 되어 소소한 행복이 아닐 수 없었다. 대회를 진행하며 계속 일이 잘 풀렸던것은 아니였다. 대회 데이터에서도 오류가 발견되어 수정되기도 하고 이번 대회에서 새롭게 나타난 평가방식에 대한 이슈들과 함께 리더보드에서 상위권에 어떻게하면 올라갈 수 있을까 고민을 하던 시기가 있었다. 그러던 중 머리도 식히고 단합도 할겸 강릉으로 워크숍을 가기도 했다. 아침부터 저녁까지는 카페에서 데이터만 보며 분석을 했고 저녁부터 다음날 새벽까지는 바다에서 술을 마셨다. 그렇게 이틀을 반복했더니 결과가 있었다. 리더보드 상위권에 오르게되었고 작은 희망과 함께 다시 서울로 상경하였다.
바다를 앞두고 강릉까지와서 노트북 두들기고 있는것도 흔한 경험은 아니였다.
리더보드 상위권에 오른것은 좋은 일이였지만 발표자료를 만드는 것도 문제였다. 점수는 올렸지만 어떻게 이걸 잘 설명해야할지를 고민해야했다. 이때 발표자료를 준비하며 여러 정형데이터에 대한 해석방법들을 공부했었다. 그렇게 마무리까지 컨셉도 잘 정하여 제출하였다. 마무리한걸로 만족하고 지내다 발표날이 되어 합격확인을 했더니 1차 합격이 되었고 이후 발표도 잘 준비하여 2차 발표까지 마무리하고 결론적으로 최우수상을 수상하게되었다. 이번 빅콘테스트 덕분에 거의 반년이 순식간에 지나간듯하다. 1차 발표, 2차 발표, 시상식 그리고 빅매칭캠프까지 정말 많았다. 그만큼 준비를 많이했다는게 느껴지기도 했다.
3.7. White Box
DNA와 AIC를 같이 하게되면서 나만의 전문성을 찾고자 XAI에 대한 프로젝트와 연구를 함께하고 있다. 이 분야에 대한 공부를 집중적으로 시작하면서 개인적으로 만들고싶은것은 XAI 가이드북이다. DNA 처음 밋업때 각자 개인이 하고싶은 프로젝트에 대한 내용과 계획을 발표했었는데 그때 나는 XAI에 대한 Research/Service/Module 이였다. XAI에 대한 새로운 방법을 연구하고싶고 결국에 연구를 하는 이유는 많은 사람들에게 도움이 되고자하는게 목표이기 때문에 분석하는 사람들이 보다 쉽게 사용할 수 있도록 모듈을 만들고싶고 전문가뿐만 아니라 비전문가도 해석가능한 머신러닝 모델을 사용하기 사용하기 쉽도록 서비스를 제공하고 싶었다. 때문에 이 프로젝트명을 “WhiteBox”로 하였다.
현재 파트를 나눠서 분야별로 해석가능한 머신러닝모델에 대해 가이드를 만들고있고 최근에는 구글에서 새롭게 업데이트한 teachable machine과 같이 real time으로 이미지에 대해 해석가능한 모델을 만들수 있는 토이프로젝트를 기획하고있다. 내년 1월 중으로 완성해서 세미나때 발표할 계획이다. SHAP 공부를 하다가 알게된 Interpretable Machine Learning 저자인 Christoph Molnar과 인연으로 공부겸 번역도 계속해서 진행 중이다. 내년 3월까지는 모두 번역해서 끝낼 계획이다.
4. 맺음말
올 한 해는 정말 좋은 사람들을 많이 알게되고 배울것도 많이 배우고 하고싶었던것도 정말 많이 할 수 있었다. 다니던 직장도 그만두며 좋아하는일을 만들어나가고 나를 찾아나가는 과정에서 만나는 사람마다 배고프진 않은지 걱정들 하지만 당장에 배고픔에 돈을 쫒아가기보다는 장래를 쫒아가고싶다. 배부른 소리일 수도 있고 헛된 꿈만 꾸고있는거라고 생각될 수 있지만 지금아니면 이렇게 해볼 수 있는 시간이 언제또 있을까라는 생각이고 돈 벌기위해 공부하는 인생을 살고싶지도 않다. 기회라고 생각되면 언제든 그 길을 선택할 수 있도록 준비를 하고 있는 과정이고 배우고싶은 사람이 있다면 언제든 함께할 생각이다. 물론 그만큼 나도 도움이 될 수 있다는 것을 보장할 수 있다.
내년에는 내 삶에서 큰 변화가 있는 해일 거 같다고 예상된다. 성공한 데이터 덕후가 되고싶다. 2019 peace out.
Leave a comment