고등학생때 알았더라면 좋았던 것들 (진로진학멘토링 후기)
이번에 빅콘테스트 수상 소식을 들고 오랜만에 학과 교수님을 찾아뵙고 왔더니 다른 학과인 수학과 교수님께서 먼저 연락이 오셨다. 대회 수상을 축하한다는 축하의 말을 건네주시면서 현재 학교에서 멘토링관련 프로그램들을 운영하고있는 WISE 센터를 운영하고 계시는데 이번 고등학생들 대상으로 진행하는 진로진학멘토링에 참여해서 데이터과학부에 대해 발표를 해줄 수 있는지 물어보셨고, 당연히 좋다라고 말씀드렸다.
데이터 사이언스에 대해 공부하는 조무래기로서 얼마나 도움이 될 수 있을까 내심 걱정이 되면서도 질문에 대한 답변을 하는 것보다 얘기를 들어주고 다시 스스로에게 대한 진로를 결정할 수 있도록 되물어보는 것도 도움이 될 수 있겠다라고 생각하며 참여하게되었다.
1. 드림나래교육센터란?
모교인 수원대학교에 소속된 WISE 센터에서 진행하는 프로그램 중 하나이다. 중고등학교 학생들을 대상으로 학교를 방문하여 여러 실험이나 재밌는 강의들을 준비해서 멘토링을 해주는 과정이라고 한다. 이번 기회에 처음 알게 되었고 내년에도 또 진행하게된다면 다시 참여해서 더 재밌는 자료들과 함께 맞이할 수 있었으면 좋겠다.
2. 진로진학멘토링
이번에 방문한 학교는 화성시에 있는 삼괴고등학교 2학년 이공계학생들이였다. 100여명 정도 참여했고 본교에서는 10개 전공의 학과가 함께했다. 프로그램은 오전/오후로 나눠져서 진행했다. 오전에는 센터장님의 강의와 각 전공별 소개 발표가 있었고 오후에는 전공별 실험실에 대한 소개와 1시간 30분정도의 테이블 멘토링 시간을 가졌다. 이번 멘토링을 위해 도움을 준 전공들은 아래와 같이있었다. 선정 기준은 잘 모르겠다. 그러나 이번 발표를 통해서 다양한 학과에 대한 소개를 전공자에게 들어볼 수 있는 기회였다.
- 데이터과학부
- 컴퓨터소프트웨어학과
- 미디어소프트웨어학과
- 바이오사이언스학과
- 바이오공학과
- 화학공학과
- 신소재공학과
- 기계공학과
- 간호학과
- 스포츠과학부
3. 후기
3.1. 센터장님의 인사말과 강의
오전에는 센터장님께서 데이터 사이언스에 대한 간단한 예시들과 개념들을 소개하셨다. 간단한 인공지능 모델들과 강화학습 개념들 또는 XOR 문제를 해결하는 과정 등 딥러닝에 대한 소개도 함께 하셨다. 개인적인 생각으로 첫 내용부터 고등학교 학생들이 듣기에 너무 어렵거나 흥미를 끌기 힘들지 않았을까하는 생각이였다.
센터장님의 강의 시간. 모두 학생이지만 교복입은 학생은 거의 없었다. 이때 아니면 못입는데,,
3.2. 학과발표
학과별 발표시간이 다가왔고 데이터과학부는 여섯 번째였다. 학부시절부터 튜터링 프로그램이나 동아리활동을 통해서 이런 프로그램을 통해 누군가의 앞길을 도와준다는게 좋았기 때문에 열심히 발표자료를 준비했다. 발표 시간이 5~10분정도밖에 주어지지 않았기때문에 많은걸 얘기해주고 싶었지만 최대한 핵심이라도 전달하고자 작은부분은 생략할 수 밖에 없었던 점이 아쉬웠다.
(발표자료는 여기를 통해서 확인해보실 수 있습니다.)
이공계 학생들이라 그런지 앞에서 17학번 누나들이 얘기하다가 갑자기 웬 아저씨가 나와서 발표하니 반응이 영 시원치않았다. 그래도 분야에서 할 수 있는 일들이 워낙 다양하게 있는지라 흥미는 있어보였고 생각보다 학생들의 집중도도 좋았다. 점심시간이 가까워져서 다들 배가 많이 고팠는지 얼른 밥먹으러 가고싶은 눈치였다.
깨알같은 DNA 홍보 ㅎㅎ
가장 전달하고 싶던 얘기
개인적으로 학생들에게 해주고 싶은 말은 고등학교에서 공부 외에 꼭 생각해보고 준비했으면 하는 것들이였다. 내가 바라는 점은 크게 네 가지였다.
- 좋아하는 분야 찾아보기
- 다른사람 말에 경청하기
- 정리하는 습관 갖기
- 본인의 일에 대해 항상 스스로 되물어보기
모두 내가 지나왔던 날들을 되새기며 어렸을때부터 생각해보는 시간이 더 빨리 있었으면 좋지않았을까라는 생각에 작성한 내용들이다. 첫 번째로 좋아하는 분야를 찾는다는 것은 쉬운일이 아니다. 갑작스럽게 무언가를 좋아하기는 쉽지않다. 때문에 어렸을때부터 이런점들을 생각해보면서 나도모르게 흥미롭게 자주보는게 무엇이 었었지라는 생각을하면서 조금 더 깊이 살펴보기도 하는 시간이 있었다면 어땠을까라는 생각이 있었다. 좋아하는 분야를 찾는것이 중요한 이유는 데이터를 분석하는 입장에서 가장 중요한 역량 중 하나가 바로 어떤 데이터로 어떤 문제를 해결할 수 있는지에 대한 문제를 정의하는 능력이라고 생각하기 때문이다. 두 번째는 다른사람 말에 경청하는 것이다. 사실 이 부분은 데이터 분석가에게만 해당되는 것이 아닌 모든 협업 과정에서 기본 중의 기본으로 필요한 소양이다. 그러나 종종 주변에서 보면 다른사람말에 집중하지 못하고 맥락을 끊고 얘기하는 사람들이 있다. 나 또한 아직까지도 그런경우가 있지만 더 어렸을때 신경썼으면 어땠을까하는 생각을 했다. 세 번째는 정리하는 습관이다. 데이터 분석을 하는 사람이 정리와 기록하는 습관이 없다는 것은 참 아이러니한 얘기이다. 데이터 분석의 기본은 모든 것에 대한 사소한 관찰과 호기심으로부터 시작할 수 있다. 때문에 무언가를 정리한다는 것을 그런 사소한 부분들을 놓치지않고 보게될 수 있는 기회라고 생각한다. 마지막이 이 네 가지 중 가장 얘기해주고 싶은 것이다. 본인이 하고있는 것에 대해서 그게 무엇이든간에 질문을 스스로에게 던저보면서 자신의 일에 대한 논리성과 방향성을 찾아갔으면 한다. 내 어린시절에는 (지금도 어리지만) 좋으면 그냥 했다. 큰 이유는 필요하지 않았고 흥미가 생기고 좋으면 그냥 시작했었다. 그러나 항상 마지막은 내가 왜이걸 했지?라는 물음과함께 마무리하지 못하고 끝낸 경우가 많았다. 연애도 마찬가지였다. 좋으면 그냥 만났다.
모두 라때는 말이야~라는 꼰머가 하는 얘기처럼 들리진 않을까 고민도 되었지만 이러한 얘기를 해주는것이 공부 과목에 대한 커리큘럼을 짜주고 구체적으로 계획을 상담해주는것보다 더 좋은 얘기라고 생각했다.
3.3. 테이블 멘토링
점심 식사는 학교 학식으로 제공되었다. 학교생활하면서 학식을 먹은게 거의 손에 꼽을 수 있을 정도였다. 그 이유는 우리학교 학생이라면 모두들 알거라고 생각하고 학식을 안먹는 이유가 크게 따로 있을까 싶다. 역시나 기대와 현실을 비례했고 내 예측은 100%였다. 그래도 먹을건 잘 먹고나왔다. 점심식사가 끝나고는 각 전공별 실험실 소개와 테이블 멘토링 시간이 있었다.
돈까스 강제 부먹행. 돈까스와 함박스테이크 그 경계 어느선에 있는 돈까스였다.
테이블 멘토링에서는 학생들이 가고싶은 곳을 정해서 해당 전공 멘토들에게 질문을 하러 가면 되는 식이였다. 학생들이 어떤 질문을 할까라는 생각과 함께 내 고등학교 생활은 어땠었지 되돌아보게 되었다. 테이블 멘토링때 15명 정도의 학생들이 와주었고 처음에 어떻게 시작을 할까 고민을 하다가 내가 먼저 주저리주저리 얘기하는것보다 이전 발표내용을 보면서 궁금했던 내용들이 있었는지 물어보았다.
답변은 최대한 잘못된 정보가 없게끔 전달하려 했다. 당시 제대로 전달을 못했던건 아닐까하는 생각에 블로그 주소를 모두 공유했기에 이후 블로그에 오게되면 이때 질문에 대한 좋은 답변이 되었으면 하는 바람에 답변을 함께 적어서 공유한다.
3.4. 질문과 답변
-
다들 이 분야에 대해서 준비할때 코딩은 필수라고 하던데 정말 그런가요?
A. 코딩이 중요하다는건 맞다. 코딩을 통해서 데이터 분석을 내가 원하는 방향으로 할 수 있기 때문에 꼭 필요한 일이다. 그러나 고등학생의 입장에서 보자면 그때부터 코딩을 연습하는것도 좋은 공부가 될 수 있지만 현재 무엇을 할지 모르는 과정에서 코딩을 시작한다고 얘기한다면 우선순위를 두었으면한다. 프로그래밍은 어디까지나 수단일 뿐이다. 먼저 어떤일을 하고 싶고 왜 그 일을 해야하는지에 대해서 먼저 생각해보고 코딩 공부를 시작했으면 좋겠다.
-
통계학이 중요하다고 하는데 어디까지 공부해야하나요?
A. 꼭 통계학을 전부 공부할 필요하는 없다. 최소한 기초통계학정도의 개념만 가지고 시작해도 충분하다라고 생각된다. 물론 기초통계학을 끝으로 통계학공부를 끝내라는 얘기가 아니다. 공부는 어느순간 끝이 있는것이 아니기 때문에 전반적인 통계라는 것에 대해 알수있는 과정이 기초통계학과정이고 통계라는게 어떤 과정에 도움이 되는지 먼저 알게된다면 무엇을 공부하는게 좋은지 알 수 있을 것 같다.
내가 생각하는 통계학이란 어떤 결과에 대해 신뢰할 수 있는 정도를 검증하기 위한 학문이라고 생각한다. 예를 들어 임상적으로 두 실험 집단의 차이를 비교하고자 했을때 그 정도가 얼마나 되어야 결과에 의미가 있는지 기준을 정해주고 정말 의미가 있는지 검증하는 과정이 대표적이라고 할 수 있겠다.
-
좋아하는 분야에 대해서 공부는 어떻게 해야하나요?
A. 자신도 모르게 관심있게 보고있거나 내가 가장 많이 영향을 받고있는 것이 무엇인지 깨달았다면 관련된 책이나 기사를 통해서 공부해볼 수 있다. 그러나 가장 중요한 것은 해당 관심사를 직접 체험하는게 가장 좋은 방법인것 같다. 직접 경험하기 어려운경우는 해당 분야에서 일을 하는 분들을 통해 연락해보고 질문을 던저보며 간접적으로 배우는것이 가장 큰 공부라고 생각된다.
-
데이터사이언스 교과과정은 난이도가 어떤가요?
A. 개인적으로 난이도는 어려운편은 아니라고 생각하지만 개개인마다 기준이 다 다르기때문에 난이도에 대한 대답은 어려울 것 같다.
그러나 데이터 사이언스라는 말자체가 추상적인 단어이기 때문에 사실 난이도의 쉽고어려움보다 배워야하는게 굉장히 많다. 이 분야는 경험도 중요하고 데이터는 날이 갈수록 새로운게 생기고 여러 방법들이 평생 유지되는 것이 아닌 새로운 데이터 맞게 새로운 방법들이 생겨나기때문에 계속해서 공부해야한다. 공부가 끝이 없다는게 고등학생입장에서 막막하게 들릴 수도 있지만 나는 학교에서 내가 이걸 왜 공부할까라는 의문과 함께 공부하는 것보다 현재 내가 하고싶은 일을 알고 새로운 것을 배워나가는게 좋기 때문에 막막함은 딱히없다. 때문에 계속되는 얘기지만 본인 미래의 방향성을 잘 생각해보길 바란다.
-
이 분야에서는 석,박사가 필수라고 하던데 정말 그런가요?
A. 석,박사를 한다는 것은 찬성이지만 필수라는 것에는 반대이다. 이 질문은 후기로 작성했던 2019 빅콘테스트 시상식 후기에서도 있던 질문이다. 그때 당시 답변을 인용하자면 석,박사생이 필수는 아니지만 석,박사생들이 이 분야의 현업자로서 더 많은 이유는 보다 자신의 말과 행동에 논리적으로 답하는 시간이 더 많았기 때문이다. 논문을 통해서 사용한 데이터나 방법 그리고 결과에 대해서 논리적으로 얘기해볼 시간을 가지며 충분히 연습을 많이 해보기때문에 학사졸업생보다 더 좋은 결과를 얻을 수 있는것 같다.
그러나 필수가 아니라고 하는 얘기는 이 과정은 꼭 석,박사에서만 경험할 수 있는 것은 아니다. 연구는 어디서든 해볼 수 있고 각자 개인 프로젝트가 무엇이든지간에 이유와 목적을 분명히한다면 충분히 자신의 말과 행동에 타당성을 가지는 연습을 해볼 수 있다. 발표자료에서 마지막에 본인 하고있는게 무엇이든 스스로에게 항상 질문을 던져보라는 이유가 바로 이 때문이다.
-
수학과 통계학 중 어떤 전공이 더 관련이 있나요?
A. 어떤게 더 관련있는지는 사실 정답이 없다고 생각한다. 각자 필요한 영역이 있고 어떤일을 하느냐에 따라 두 분야가 차지하는 비중이 서로 다를 수 있다.
대표적으로 수학과 통계학에서 공부해햐하는 게 있다면 아래와 같이 정의해볼 수 있을 것 같다. 나도 통계와 수학을 모두 아는 것은 아니지만 경험상 꼭 필요한 내용들만 적어보았다.
통계
- 가설검정
- 확률과 분포
수학
- 미분적분학
- 선형대수
통계학과 수학의 가장 큰 차이는 오차를 인정하느냐이다. 인공지능 모델은 항상 최적해를 찾는 것이 아닌 최적의 값에 근사한 근사해를 찾는다. 때문에 통계학을 공부한다면 통계적으로 오차라는게 어떤의미인지 이해하기가 더 좋을 것 같다. 수학의 경우는 여러 계산과정을 효율적으로 구성하는데 많은 도움이 되었다.
-
인공지능 모델은 어떻게 만드는건가요?
A. 당시에 간단한 선형식과 의사결정나무와 같이 눈으로 보고 이해하기 쉬운것들을 판서로 간단하게 소개해주었지만 지금 생각해보니 크게 이해가 되었을거 같지 않고 설명이 잘못된 것 같다. 모델이 아닌 인공지능이 어떻게 스스로 학습하게는지를 말해주는 것이 맞는 대답인 것 같다.
우선 데이터에 대한 얘기를 먼저해야할 것 같다. 인공지능이 학습하는 방법은 크게 데이터에 정답이 있는 경우와 없는 경우로 나뉜다. 흔히 데이터 사이언스에서는 이 두 가지를 각각 지도학습(supervised learning) 그리고 비지도학습(unsupervised learning)이라 부른다. 정답이 있다는 것은 관찰한 데이터에 대해서 결과가 있다는 얘기이다. 예를 들어서 특정 질병에 대한 존재 유무나 게임을 이탈했는지에 대한 여부 등 이 있다. 정답이 없다는 것은 이와 반대로 결과가 없다는 것이다. 이런 경우는 정답을 내리기 애매한 경우가 되겠다. 예를 들면 사람들의 관계나 감정 상태와 같이 기준이 모호한 경우가 있다.
지도학습의 경우 관찰한 데이터에 대한 정답이 있기 때문에 인공지능 모델에게 데이터를 보여주고 나온 예측값과 정답값을 비교해가며 거기서 생기를 ‘오차’를 보고 학습한다. 오차가 크다면 오차가 작은 방향으로 학습되는 방법이 있다(이 방법에 대해서는 각 모델을 구성하는 내용에 따라 다르기 때문에 여기서는 생략하도록 하겠다.). 지도학습은 보통 과거의 데이터를 통해서 미래의 데이터를 파악하여 예측한다던지 미래에 일어날 일들을 사전에 대비하기위해서 사용된다.
비지도학습의 경우 관찰한 데이터에 대한 정답이 없는 경우이다. 때문에 대표적으로 사용되는 비지도학습 방법은 각 데이터를 비교하여 비슷한 특성이 있는지 확인하고 유사한 정도를 통해 서로의 집단을 묶어줌으로써 대략적인 관계를 파악할 수 있다. 이외에도 다양한 활용방법이 있지만 핵심만 얘기하고 넘어가도록 한다.
이렇게 인공지능 모델을 만드는 방법은 데이터의 생김새와 목적에 따라 달라질 수 있다. 때문에 다시 한번 또 얘기하는 내용이지만 공부를 시작하기전에 본인 목적과 방향성을 우선순위에서 가장 첫 번째에 두길 바란다.
4. 맺음말
이번 멘토링 과정을 통해서 이 분야에 관심있는 학생들에게 도움이 되었으면 한다. 나 자신도 고등학생때를 회상하며 다시 돌아볼 수 있는 계기가 되었고 이제 시작하는 학생들을 대상으로 또는 이제 이 분야에 입문하는 사람들을 대상으로 어떤것이 중요할까 그리고 어느정도로 쉽게 얘기해야 내 얘기를 잘 듣게 할 수 있을까 생각해볼 수 있는 기회였다. 배움은 언제나 양방향적인 것 같다. 학생들을 통해서 나도 배우는 시간이였다. 다음에도 기회가 된다면 이런 시간을 또 경험하고 싶고 팀원들도 적극적으로 많이 참여해서 함께 성장했으면 한다.
Leave a comment