E7 데이터지능 팟캐스트의 2017년

데이터지능 팟캐스트가 시작된지 두달이 되었습니다. 그동안 각 분야의 훌륭한 게스트 분들을 모셔서 흥미로운 이야기를 나누는 것만으로 행복한 시간이었습니다. 그동안 방송을 빛내주신 테리님 및 게스트 여러분, 방송에 음양으로 도움을 주신 지인 여러분, 마지막으로 청취자 여러분들께 감사의 말씀을 전합니다.  이번 방송/글에서는 2017년 방송의 하이라이트를 돌이켜볼까 합니다.

E2 기계학습의 실무 (구글 리서치 김승연님)

머신러닝을 학문적 주제로 접근하는 경우가 많은데, 현실 세계의 머신러닝에는 데이터도 늘 변하고, 시스템과 코드에도 항상 문제가 생기는 어려움 하에서도 좋은 결과를 내야 하는 어려움이 있습니다. 구글 리서치에서 모바일 환경의 기계학습을 연구&개발하시는 김승연님과 함께 현실 세계의 머신러닝이 갖는 어려움, 그리고 머신러닝을 실무에 적용하기 위한 단계별 유의사항을 알아보았습니다.

일반적으로 머신러닝은 지속적인 유지보수를 필요로 하는데, 전통적인 솔루션보다 비용이 더 소요될 수 있어요. 머신러닝은 결국 더 복잡한 시스템을 만들게 되잖아요. 그러면 그렇게 복잡한 시스템을 유지보수 하기 위한 사람들을 계속 충원 해야 하는데 과연 그 사업이 그만한 가치가 있느냐가 중요하죠. 머신러닝이 모든 것을 마법처럼 해결한다기보다 고급 도구로 생각하고 유용성을 판단해서 도입하는 것이 좋을 것 같습니다.

데이터는 머신러닝을 동작시키는 연료같은 존재이죠. 연료가 좋지 않으면 성능도 좋지 않겠죠. 데이터가 너무 적어도 문제이고 많아도 문제이고 너무 치우쳐도 문제예요. 많으면 성능이 나올 때까지 시간이 오래걸리는 것이 문제죠. 적당히 솎아내야 하는데 적당히 솎는 것도 문제죠.

실무에서는 유지보수가 사실 가장 앞에 나와야 해요. 실제 일을 하면 구현 30/ 유지보수 70 정도로 유지보수가 어려워요. 왜냐하면 구현할 때 사람들이 생각보다 많은 가정을 하거든요. ‘이 상태에서는 이런 형식의 데이터가 들어온다’ 라던지 ‘이 다음은 OS에서 이렇게 scheduling을 하겠지’ 처럼요. 다 이렇게 되면 다 망해요. 왜냐하면 현실은 예외적인 상황이 많기 때문에 처음부터 모든 상황을 다 대비할 수가 없어요.

E3 생활 속 데이터 분석 (우아한 형제 권정민님, 카카오 최규민님)

데이터 일을 하면서 얻는 스트레스를 데이터로 푼다? 자기관리를 위한 데이터를 모은다? 데이터 과학자들은 조금 특별한 사람들일까요? 이번 방송에서는 생활 속에서 데이터를 모으고 분석하는 취미를 갖고 계시는 현업 데이터 과학자 두분을 모시고 말씀을 나누어 보았습니다. 데이터 활용을 이렇게 생활화하는 것이 데이터 전문가로 가는 지름길이 아닐까 생각해 봅니다. 

최규민: 저는 생활데이터 분석이 일단 재미있더라구요. 생활데이터 분석을 할때는 주로 뭔가 느슨해질때 주변의 소소한 것들을 관찰하다가 뭔가 재미있는 것을 발견하면 집에 빨리 가서 뭔가 하게되요. 그런게 제가 생활데이터 분석에서 얻는 의의같아요.

권정민: 저는 자기관리 차원에서 다양한 데이터를 모아요. 요즘은 세상이 좋아져서 다양한 앱이나 도구를 가지고 소위 제 상태를 모니터링 해요. … 예전에 작은 컨퍼런스에서 제 잉여력을 관리하는 법에 대해 발표한 적이 있는데, 그게 말하자면 제가 SNS에서 뭘 하는지, 운동은 어떻게 하는지 그런 것들이죠. … 제가 발견한 것들은 스트레스를 받을때 수면 퀄리티가 떨어진다던가, 독서량이 줄어든다던지 이런 결과가 나타나죠.

E4 데이터 사이언스 커리어 및 에듀텍 (유데미 시니어 디렉터 한기용님)

글로벌 교육 서비스 회사 유데미의 데이터 활용 과정에는 어떤 이슈가 있고, 유데미의 데이터 팀을 이끌고 계신 한기용님이 데이터 과학에 대해 어떤 조언을 주실까요?  개인적으로 서비스를 평가하는 지표 디자인에 관심이 많은데, 온라인 교육 서비스를 평가하는 지표 그 중에서도 유데미에서 사용하는 지표는 또 다르다는 점을 알 수 있었습니다.

Airbnb에서 가장 잘 하는 host가 Airbnb에서 guest를 경험해본 사람이라고 하더라고요. Guest로 여러 Airbnb 숙소를 경험하다보니 자신이 좋은 경험을 줄 수 있는 숙소의 host를 하게되는 것처럼 Udemy에서도 본인이 여러 강좌를 듣다보니 좋은 강의를 만들 수 있게되어 개설하는 분들이 가장 활발하고 열심히 활동하고 그런 분들을 추적하는 지표도 따로 있어요. Site-switching ratio라고 해서 학생으로 시작한 사람들이 강사가 되는 비율, 강사로 시작한 사람들이 학생이 되는 비율 두가지를 모두 다 보죠. Marketplace에서는 이 두가지가 굉장히 중요한 지표에요.

제가 Udemy에 입사하고 지난 3년간의 목표는 데이터 관련 인프라 구축하고 팀빌딩하고 e-commerce 같이 생산자와 소비자를 연결하는 부분이었고요, 향후에는 한 발짝 더 나가서 학생들이 정말로 배웠는지, 측정은 어떻게 할건지, 측정결과를 강사들이 개선하기 쉬운 형태로 전달하는 부분에 집중하고 싶어요. 다른 에듀텍 회사들도 모두 같은 고민을 하고 있는 것 같아요.

만약에 제가 대학생활로 돌아간다면 바꾸고 싶은 것이 한가지 있어요. 뭐냐면 제 멘토가 될 사람을 찾아보고 싶어요. 생각해보면 미국에 와서 최근까지도 멘토 없이 혼자 고민하고 결정을 내렸는데 만약에 대학생활이나 사회초년으로 다시 돌아가면 저한테 조언을 줄 수 있는 사람을 먼저 찾아보고 싶어요. 결정은 내가 내리더라도 마음 편히 물어볼 수 있는 인생선배가 있었더라면 더 잘 살고 있지 않을까 라고 생각하죠.


E5 금융 데이터 분석 & 퀀트의 세계 (권용진님, 《인공지능 투자가 퀀트》 저자)

흔히 생각하는 화려한 퀀트의 세계. 그 이면에는 끊임없이 변하는 시장과 경쟁자에 대응해야 하는 어려움이 상존합니다. 이번에는 현직 퀀트이시자 《인공지능 투자가 퀀트》 저자인 권용진님과 퀀트의 현재와 미래, 그리고 퀀트로 일하는 보람과 어려움에 대해 이야기를 나누어 보았습니다.

하지만 최근에는 데이터가 소셜 미디어 등 자연어 데이터를 많이 쓰므로 대용량 그리드나 클라우드를 많이 도입하게 되었어요. 그래서 인프라 개발자의 역량이 매우 중요해졌습니다. 예전에는 주로 회로 전문가가 득세했지만, 요즘에는 어떻게 하면 머신러닝 기술을 빠르게 돌릴 것인가가 초점입니다.. 일반 데이터 과학을 많이 하는 기술 회사에서 많이 쓰는 인프라를 많이 사용하게 됐습니다.

사실 퀀트 하시는 분들이 여기를 많이 진입하는 이유가, 돈을 자동으로 벌어주는 프로그램을 만들 수 있으면,  이런 프로그램 짜놓고 홍콩에서 매일 아침 잔고만 확인하며 편하게 산다는 이야기를 듣고 시작한다. 저도 사실 프로그램 한번 만들어 놓고 편하게 바닷가나 놀러다니고 싶다는 생각으로 시작했습니다. 그런데 실제로는 신경쓸게 매우 많습니다. 사실 아까 말씀드린대로 시장 상황이 급변하기 때문에, 이를 모니터링하는 사람을 따로 뽑는 경우도 많아요.


E6 딥러닝 in NIPS2017 (네이버 CLAIR 하정우 & 성낙호 & 이활석님 / 정지훈 경희사이버대학교 교수님)

요새 화두인 딥러닝. 하지만 제대로 공부하기 위해서는 고려해야 할 사항이 많습니다. NIPS 컨퍼런스에 참석하신  딥러닝 전문가 네분을 모시고 딥러닝의 트렌드와 이를 따라잡는 학습 방법에 대해 알아보았습니다. 같은 기술이라도 (GAN) 용용 목표에 따라 전혀 다르게 활용될 수 있다는 점, 그리고 딥러닝 커뮤니티의 활용이 학습에 중요한 부분이라는 인사이트를 주셨습니다.

정지훈: GAN관련해서는 저도 좀 이야기할게 있는데, 제가 도메인을 헬스케어와 문화, 즉, 음악이나 만화쪽도 다루어요. 그런데 같은 기술을 가지고도 사용하는 방법이 달라요. 의학 쪽에서는 성능을 높이는데 주안점을 둔다면, 문화 쪽에서는 소위 글로벌 옵티멈을 찾으면 안되거든요. 어느정도 최적해를 찾되 로컬 옵티멈에서 멈추는게 창의적인 결과가 나오거든요. 그러니까 같은 기술을 쓰더라도 의학을 하느냐 문화를 하느냐에 따라 활용 방식이 달라진다는 거죠. 제가 머신러닝 공부하시는 분들께 하고싶은 말씀은 내가 하려고 하는게 무엇이며 고객은 누구이며 어떤 가치를 만들고자 하느냐에 따라서 기술의 활용방법이 달라진다는 겁니다.

하정우: (딥러닝 학습법 관련) 저도 비슷한 의견인데 사실 너무 많은 논문이 나오고 빨리 변하고 있기 때문에 주변의 친구나 커뮤니티를 활용해야 최대한의 효과를 얻을 수 있습니다. 저희는 회사에서 세미나를 열심히 하는데 논문 하나하나를 깊이있게 본다기 보다는 핵심 아이디어가 뭐고 어떤 아이디어를 썼고 기존 연구와 어떻게 다른지만 짚어줘도 굉장히 도움이 되는 것 같아요. 요약하면 집단지성을 활용하시라는 겁니다. 


데이터 지능 팟캐스트 시즌1 소개

2017년, 인공지능을 필두로 데이터를 모으고 활용하여 가치를 만들어내는 방법에 대한 관심이 어느 때보다 뜨겁다. 이미 미국에는 데이터 과학 및 인공지능에 관련된 다양한 팟캐스트가 존재한다. 필자는 얼마전까지 ‘나는 프로그래머다’에서 데이터 관련 방송을 진행했는데, 최근 나프다의 종료와 함께 ‘데이터 지능’이라는 이름의 새로운 방송을 시작하려고 한다. 데이터 지능은 ‘데이터 과학’과 ‘인공 지능’을 조합한 단어로 ‘데이터에서 가치를 끌어내는 능력’이라는 의미도 있다.

‘데이터 지능(Data Intelligence)’은 데이터 과학과 인공지능에 종사하는 다양한 게스트를 초대하여 각 분야에 대한 소개와 트렌드를 알아보는 팟캐스트다. 데이터 과학 및 인공지능 분야에서는 끊임없이 새로운 분야가 생겨나고 기술이 쏟아져 나오는데, 이런 이야기를 현장의 전문가에게 직접 들을 수 있다면 큰 도움이 될 것이다. ‘데이터 지능’은 이처럼 국내외 데이터 관련 전문가들이 대중과 소통할 수 있는 채널이다.

또한 기존 팟캐스트는 전달수단(오디오)의 한계 등으로 깊이있는 이야기를 나누기 어려운데, ‘데이터 지능’은 출연자와 협의를 거쳐 팟캐스트와 연계된 콘텐츠를 번들로 묶어 제공할 계획이다.각 에피소드에 필요에 따라 동영상, 슬라이드, 코드가 포함되는 강의를 추가하여 오디오로 제한되는 팟캐스트의 한계를 뛰어넘는 심도있는 지식을 전달하는 것이다. 이를 위해 유데미(udemy) 등 다양한 파트너와 논의중이다.

나프다를 진행하면서 어떤 일이던 지속가능한 정도로 단순화하는 것이 중요하다는 점을 느꼈다. 이를 위해 데이터 지능은 불펼요한 편집 및 장식을 배제하고 데이터 과학과 인공지능에 관련된 다양한 이야기를 전달한다는 본질에 집중할 생각이다. 본인의 부족한 점을 청취자 분들이 차차 채워주시리라 믿는다. 아래 링크에서 테리님과 함깨하는 데이터 지능 팟캐스트 첫방송을 들으실 수 있다. 축하 인사 보내주신 권정민 & 김승연님께 감사 말씀 전한다.

업데이트 on 2/19/18: 10회를 맞아 방송에 대한 생각을 정리해 보았습니다.

데이터 지능 팟캐스트, 교훈과 방향