데이터지능 팟캐스트 E12-2 (시즌 1 종료)

최근 각광받고 있는 데이터과학과 머신러닝의 근간에는 전통과 역사를 자랑하는 통계학이 있습니다. 이번에는 통계학자로서 미국에서 연구원 및 교수 생활을 하셨고 현재 실리콘밸리에서 데이터과학자로 일하고 계시는 권재명 박사님을 모셨습니다.

  • 데이터과학, 통계학, 머신러닝의 관계는?
  • 통계학은 고유의 세계관과 사고방식이 있다는데?
  • 데이터과학 및 통계학의 최근 이슈와 트렌드는?
  • 처음 통계에 관심을 갖게 되신 계기는? 데이터과학자로 전향하신 이유는?
  • 데이터과학과 통계를 시작하는 사람들에게 해주고픈 이야기가 있다면?

방송에서 미처 다루지 못한 데이터과학과 통계 이야기는 권재명 박사님의 저서 ‘따라하며 배우는 데이터 과학’을 참조하세요. 그리고 이와 관련된 도서로 최근에 한빛미디어에서 출간된 ‘처음 배우는 데이터 과학’도 데이터 과학에 대한 기초를 다지고, 폭넓은 지식을 쌓기에 좋은 책입니다.

마지막으로 저희 데이터 지능 팟캐스트가 본 방송을 끝으로 시즌 1을 마무리하려고 합니다. 시즌 1을 빛내주신 출연자 분들, 그리고 운영진 분들 다시 한번 감사드립니다. 재충전 뒤에 더 알찬 방송으로 찾아뵙겠습니다.

데이터지능 팟캐스트 E12-1 : 데이터과학과 통계편 – 권재명님

최근 각광받고 있는 데이터과학과 머신러닝의 근간에는 전통과 역사를 자랑하는 통계학이 있습니다. 이번에는 통계학자로서 미국에서 연구원 및 교수 생활을 하셨고 현재 실리콘밸리에서 데이터과학자로 일하고 계시는 권재명 박사님을 모셨습니다.

  • 데이터과학, 통계학, 머신러닝의 관계는?
  • 통계학은 고유의 세계관과 사고방식이 있다는데?
  • 데이터과학 및 통계학의 최근 이슈와 트렌드는?
  • 처음 통계에 관심을 갖게 되신 계기는? 데이터과학자로 전향하신 이유는?
  • 데이터과학과 통계를 시작하는 사람들에게 해주고픈 이야기가 있다면?

방송에서 미처 다루지 못한 데이터과학과 통계 이야기는 권재명 박사님의 저서 ‘따라하며 배우는 데이터 과학’을 참조하세요. 그리고 이와 관련된 도서로 최근에 한빛미디어에서 출간된 ‘처음 배우는 데이터 과학’도 데이터 과학에 대한 기초를 다지고, 폭넓은 지식을 쌓기에 좋은 책입니다.

마지막으로 저희 데이터 지능 팟캐스트가 본 방송을 끝으로 시즌 1을 마무리하려고 합니다. 시즌 1을 빛내주신 출연자 분들, 그리고 운영진 분들 다시 한번 감사드립니다. 재충전 뒤에 더 알찬 방송으로 찾아뵙겠습니다.

E11-2 데이터 엔지니어링편 – 넷플릭스 배재현님, 쿠팡 글로벌 최현식님

데이터지능 팟캐스트 11번째 에피소드 “데이터 엔지니어링편”의 2부 입니다.

넷플릭스의 배재현님, 그리고 쿠팡 글로벌의 최현식님을 모시고 데이터 엔지니어링의 깊은 이야기를 나누어 봅니다.

  • 데이터 과학자 vs 데이터 엔지니어 – 어떻게 구분되나?
  • 하둡을 중심으로 알아보는 데이터 엔지니어링의 역사는?
  • 데이터 엔지니어링, 그리고 데이터 엔지니어의 미래는?
  • 클라우드 vs 자체 데이터센터 구축의 장단점과 고려사항은?
  • 데이터 엔지니어링을 시작하는 사람들에게 해주고픈 이야기는?

방송 관련 자료

E11-1 데이터 엔지니어링편 – 넷플릭스 배재현님, 쿠팡 글로벌 최현식님

이번 방송은 넷플릭스의 배재현님, 그리고 쿠팡 글로벌의 최현식님을 모시고 데이터 과학을 위한 기초 공사라고 할 수 있는 데이터 엔지니어링을 다뤄볼까 합니다.

  • 데이터 과학자 vs 데이터 엔지니어 – 어떻게 구분되나?
  • 하둡을 중심으로 알아보는 데이터 엔지니어링의 역사는?
  • 데이터 엔지니어링, 그리고 데이터 엔지니어의 미래는?
  • 클라우드 vs 자체 데이터센터 구축의 장단점과 고려사항은?
  • 데이터 엔지니어링을 시작하는 사람들에게 해주고픈 이야기는?

방송 관련 자료

데이터지능 팟캐스트 E10 : 데이터 시각화 특집 – 김묘영님

현직 전문가들이 들려주는 데이터와 인공지능 이야기 데이터지능 팟캐스트 10번째 에피소드 “데이터시각화 특집”

데이터를 공부하거나 분석하는 과정에서 시각화에 대한 고민을 피할 수는 없을 것입니다. 좋은 데이터 시각화와 나쁜 데이터 시각화는 무엇을 말하는 것일까요? 분석만큼 중요한 시각화의 기술.

바이스버사 디자인 스튜디오의 대표이자 좋아 보이는 것들의 비밀: 인포그래픽 저자이신 김묘영님을 모시고, 김영웅님과 함께 데이터시각화와 인포그래픽에 대한 이야기를 나누어 봅니다.

본 방송은 YouTube 생방송으로 진행되었었습니다. 방송에서 소개되는 시각화 자료 등은 아래 링크에서 확인하실 수 있습니다.

Episode 10-1

Episode 10-2

■ 방송 관련 자료 ■

데이터 지능 팟캐스트는 믿고 보는 출판사 한빛미디어에서 후원합니다. 방송에 대한 의견이나 출연 요청 및 기타 궁금증은 저희 홈페이지 data-intelligence.io를 방문해주시면 됩니다.

데이터지능 팟캐스트 E9-2 : 딥러닝 프레임워크 및 활용 – 김성진님, 김진중님

김성진님 (3분 딥러닝 케라스맛) & 김진중님 (3분 딥러닝 텐서플로맛) 그리고 테리님과 함께하는 딥러닝 프레임워크 및 활용편 2부를 공개합니다!

  • 딥러닝 프레임웍의 최근 이슈와 트렌드에는 어떤 것이 있을까요?
  • ‘어떤 상황에는 어떤 프레임웍을 써라’ 이런 레시피가 있을까요?
  • 케라스 vs 텐서플로 vs 파이토치 중 한가지만 배워야 한다면 무엇을?
  • 최근에 했던 딥러닝 프로젝트를 소개한다면? 어떤 보람과 어려움이 있었는지?
  • 딥러닝을 시작하는 사람들에게 해주고픈 이야기가 있다면? (DO & DON”T)
  • 딥러닝 프레임웍의 미래는? 모든 것이 자동화되는 AutoML이 답인가?

Download this episode (right click and save)

방송 관련 자료

데이터 지능 팟캐스트는 믿고 보는 출판사 한빛미디어에서 후원합니다. 방송에 대한 의견이나 출연 요청 및 기타 궁금증은 저희 홈페이지 data-intelligence.io를 방문해주시면 됩니다.

데이터지능 팟캐스트 E9-1 : 딥러닝 프레임워크 및 활용 – 김성진님, 김진중님

김성진님 (3분 딥러닝 케라스맛) & 김진중님 (3분 딥러닝 텐서플로맛) 그리고 테리님과 함께하는 딥러닝 프레임워크 및 활용편 1부를 공개합니다!

  • 딥러닝 프레임웍의 최근 이슈와 트렌드에는 어떤 것이 있을까요?
  • ‘어떤 상황에는 어떤 프레임웍을 써라’ 이런 레시피가 있을까요?
  • 케라스 vs 텐서플로 vs 파이토치 중 한가지만 배워야 한다면 무엇을?
  • 최근에 했던 딥러닝 프로젝트를 소개한다면? 어떤 보람과 어려움이 있었는지?
  • 딥러닝을 시작하는 사람들에게 해주고픈 이야기가 있다면? (DO & DON”T)

방송 관련 자료

데이터 지능 팟캐스트는 믿고 보는 출판사 한빛미디어에서 후원합니다. 방송에 대한 의견이나 출연 요청 및 기타 궁금증은 저희 홈페이지 data-intelligence.io를 방문해주시면 됩니다.

E8-2 음악 데이터로 창업하기: 차트메트릭 대표 조성문님

데이터를 기술로만 접하신 분들께는 데이터를, 그것도 대부분 공개된 데이터를 가지고 비즈니스를 만들 수 있다는 사실이 놀라우실 겁니다. 지난 회에 이어서, 이번 방송은 실리콘벨리의 안정된 커리어를 뒤로 하고 본인이 열정을 가진 뮤직 데이터 비즈니스에 뛰어든 조성문님의 데이터와 비즈니스 이야기 두번째 편을 전합니다.

조성문님 개인 홈페이지: https://sungmooncho.com/
차트메트릭 홈페이지: https://chartmetric.io/


데이터 지능 팟캐스트는 믿고 보는 출판사 한빛미디어에서 후원합니다. 방송에 대한 의견이나 출연 요청 및 기타 궁금증은 저희 홈페이지 data-intelligence.io를 방문해주시면 됩니다.

E8-1 음악 데이터로 창업하기: 차트메트릭 대표 조성문님

데이터를 기술로만 접하신 분들께는 데이터를, 그것도 대부분 공개된 데이터를 가지고 비즈니스를 만들 수 있다는 사실이 놀라우실 겁니다. 데이터지능 이번 방송에서는 실리콘벨리의 안정된 커리어를 뒤로 하고 본인이 열정을 가진 뮤직 데이터 비즈니스에 뛰어든 조성문님의 데이터와 비즈니스 이야기를 전합니다.

조성문님 개인 홈페이지: https://sungmooncho.com/
차트메트릭 홈페이지: https://chartmetric.io/


데이터 지능 팟캐스트는 믿고 보는 출판사 한빛미디어에서 후원합니다. 방송에 대한 의견이나 출연 요청 및 기타 궁금증은 저희 홈페이지 data-intelligence.io를 방문해주시면 됩니다.

E7 데이터지능 팟캐스트의 2017년

데이터지능 팟캐스트가 시작된지 두달이 되었습니다. 그동안 각 분야의 훌륭한 게스트 분들을 모셔서 흥미로운 이야기를 나누는 것만으로 행복한 시간이었습니다. 그동안 방송을 빛내주신 테리님 및 게스트 여러분, 방송에 음양으로 도움을 주신 지인 여러분, 마지막으로 청취자 여러분들께 감사의 말씀을 전합니다.  이번 방송/글에서는 2017년 방송의 하이라이트를 돌이켜볼까 합니다.

E2 기계학습의 실무 (구글 리서치 김승연님)

머신러닝을 학문적 주제로 접근하는 경우가 많은데, 현실 세계의 머신러닝에는 데이터도 늘 변하고, 시스템과 코드에도 항상 문제가 생기는 어려움 하에서도 좋은 결과를 내야 하는 어려움이 있습니다. 구글 리서치에서 모바일 환경의 기계학습을 연구&개발하시는 김승연님과 함께 현실 세계의 머신러닝이 갖는 어려움, 그리고 머신러닝을 실무에 적용하기 위한 단계별 유의사항을 알아보았습니다.

일반적으로 머신러닝은 지속적인 유지보수를 필요로 하는데, 전통적인 솔루션보다 비용이 더 소요될 수 있어요. 머신러닝은 결국 더 복잡한 시스템을 만들게 되잖아요. 그러면 그렇게 복잡한 시스템을 유지보수 하기 위한 사람들을 계속 충원 해야 하는데 과연 그 사업이 그만한 가치가 있느냐가 중요하죠. 머신러닝이 모든 것을 마법처럼 해결한다기보다 고급 도구로 생각하고 유용성을 판단해서 도입하는 것이 좋을 것 같습니다.

데이터는 머신러닝을 동작시키는 연료같은 존재이죠. 연료가 좋지 않으면 성능도 좋지 않겠죠. 데이터가 너무 적어도 문제이고 많아도 문제이고 너무 치우쳐도 문제예요. 많으면 성능이 나올 때까지 시간이 오래걸리는 것이 문제죠. 적당히 솎아내야 하는데 적당히 솎는 것도 문제죠.

실무에서는 유지보수가 사실 가장 앞에 나와야 해요. 실제 일을 하면 구현 30/ 유지보수 70 정도로 유지보수가 어려워요. 왜냐하면 구현할 때 사람들이 생각보다 많은 가정을 하거든요. ‘이 상태에서는 이런 형식의 데이터가 들어온다’ 라던지 ‘이 다음은 OS에서 이렇게 scheduling을 하겠지’ 처럼요. 다 이렇게 되면 다 망해요. 왜냐하면 현실은 예외적인 상황이 많기 때문에 처음부터 모든 상황을 다 대비할 수가 없어요.

E3 생활 속 데이터 분석 (우아한 형제 권정민님, 카카오 최규민님)

데이터 일을 하면서 얻는 스트레스를 데이터로 푼다? 자기관리를 위한 데이터를 모은다? 데이터 과학자들은 조금 특별한 사람들일까요? 이번 방송에서는 생활 속에서 데이터를 모으고 분석하는 취미를 갖고 계시는 현업 데이터 과학자 두분을 모시고 말씀을 나누어 보았습니다. 데이터 활용을 이렇게 생활화하는 것이 데이터 전문가로 가는 지름길이 아닐까 생각해 봅니다. 

최규민: 저는 생활데이터 분석이 일단 재미있더라구요. 생활데이터 분석을 할때는 주로 뭔가 느슨해질때 주변의 소소한 것들을 관찰하다가 뭔가 재미있는 것을 발견하면 집에 빨리 가서 뭔가 하게되요. 그런게 제가 생활데이터 분석에서 얻는 의의같아요.

권정민: 저는 자기관리 차원에서 다양한 데이터를 모아요. 요즘은 세상이 좋아져서 다양한 앱이나 도구를 가지고 소위 제 상태를 모니터링 해요. … 예전에 작은 컨퍼런스에서 제 잉여력을 관리하는 법에 대해 발표한 적이 있는데, 그게 말하자면 제가 SNS에서 뭘 하는지, 운동은 어떻게 하는지 그런 것들이죠. … 제가 발견한 것들은 스트레스를 받을때 수면 퀄리티가 떨어진다던가, 독서량이 줄어든다던지 이런 결과가 나타나죠.

E4 데이터 사이언스 커리어 및 에듀텍 (유데미 시니어 디렉터 한기용님)

글로벌 교육 서비스 회사 유데미의 데이터 활용 과정에는 어떤 이슈가 있고, 유데미의 데이터 팀을 이끌고 계신 한기용님이 데이터 과학에 대해 어떤 조언을 주실까요?  개인적으로 서비스를 평가하는 지표 디자인에 관심이 많은데, 온라인 교육 서비스를 평가하는 지표 그 중에서도 유데미에서 사용하는 지표는 또 다르다는 점을 알 수 있었습니다.

Airbnb에서 가장 잘 하는 host가 Airbnb에서 guest를 경험해본 사람이라고 하더라고요. Guest로 여러 Airbnb 숙소를 경험하다보니 자신이 좋은 경험을 줄 수 있는 숙소의 host를 하게되는 것처럼 Udemy에서도 본인이 여러 강좌를 듣다보니 좋은 강의를 만들 수 있게되어 개설하는 분들이 가장 활발하고 열심히 활동하고 그런 분들을 추적하는 지표도 따로 있어요. Site-switching ratio라고 해서 학생으로 시작한 사람들이 강사가 되는 비율, 강사로 시작한 사람들이 학생이 되는 비율 두가지를 모두 다 보죠. Marketplace에서는 이 두가지가 굉장히 중요한 지표에요.

제가 Udemy에 입사하고 지난 3년간의 목표는 데이터 관련 인프라 구축하고 팀빌딩하고 e-commerce 같이 생산자와 소비자를 연결하는 부분이었고요, 향후에는 한 발짝 더 나가서 학생들이 정말로 배웠는지, 측정은 어떻게 할건지, 측정결과를 강사들이 개선하기 쉬운 형태로 전달하는 부분에 집중하고 싶어요. 다른 에듀텍 회사들도 모두 같은 고민을 하고 있는 것 같아요.

만약에 제가 대학생활로 돌아간다면 바꾸고 싶은 것이 한가지 있어요. 뭐냐면 제 멘토가 될 사람을 찾아보고 싶어요. 생각해보면 미국에 와서 최근까지도 멘토 없이 혼자 고민하고 결정을 내렸는데 만약에 대학생활이나 사회초년으로 다시 돌아가면 저한테 조언을 줄 수 있는 사람을 먼저 찾아보고 싶어요. 결정은 내가 내리더라도 마음 편히 물어볼 수 있는 인생선배가 있었더라면 더 잘 살고 있지 않을까 라고 생각하죠.


E5 금융 데이터 분석 & 퀀트의 세계 (권용진님, 《인공지능 투자가 퀀트》 저자)

흔히 생각하는 화려한 퀀트의 세계. 그 이면에는 끊임없이 변하는 시장과 경쟁자에 대응해야 하는 어려움이 상존합니다. 이번에는 현직 퀀트이시자 《인공지능 투자가 퀀트》 저자인 권용진님과 퀀트의 현재와 미래, 그리고 퀀트로 일하는 보람과 어려움에 대해 이야기를 나누어 보았습니다.

하지만 최근에는 데이터가 소셜 미디어 등 자연어 데이터를 많이 쓰므로 대용량 그리드나 클라우드를 많이 도입하게 되었어요. 그래서 인프라 개발자의 역량이 매우 중요해졌습니다. 예전에는 주로 회로 전문가가 득세했지만, 요즘에는 어떻게 하면 머신러닝 기술을 빠르게 돌릴 것인가가 초점입니다.. 일반 데이터 과학을 많이 하는 기술 회사에서 많이 쓰는 인프라를 많이 사용하게 됐습니다.

사실 퀀트 하시는 분들이 여기를 많이 진입하는 이유가, 돈을 자동으로 벌어주는 프로그램을 만들 수 있으면,  이런 프로그램 짜놓고 홍콩에서 매일 아침 잔고만 확인하며 편하게 산다는 이야기를 듣고 시작한다. 저도 사실 프로그램 한번 만들어 놓고 편하게 바닷가나 놀러다니고 싶다는 생각으로 시작했습니다. 그런데 실제로는 신경쓸게 매우 많습니다. 사실 아까 말씀드린대로 시장 상황이 급변하기 때문에, 이를 모니터링하는 사람을 따로 뽑는 경우도 많아요.


E6 딥러닝 in NIPS2017 (네이버 CLAIR 하정우 & 성낙호 & 이활석님 / 정지훈 경희사이버대학교 교수님)

요새 화두인 딥러닝. 하지만 제대로 공부하기 위해서는 고려해야 할 사항이 많습니다. NIPS 컨퍼런스에 참석하신  딥러닝 전문가 네분을 모시고 딥러닝의 트렌드와 이를 따라잡는 학습 방법에 대해 알아보았습니다. 같은 기술이라도 (GAN) 용용 목표에 따라 전혀 다르게 활용될 수 있다는 점, 그리고 딥러닝 커뮤니티의 활용이 학습에 중요한 부분이라는 인사이트를 주셨습니다.

정지훈: GAN관련해서는 저도 좀 이야기할게 있는데, 제가 도메인을 헬스케어와 문화, 즉, 음악이나 만화쪽도 다루어요. 그런데 같은 기술을 가지고도 사용하는 방법이 달라요. 의학 쪽에서는 성능을 높이는데 주안점을 둔다면, 문화 쪽에서는 소위 글로벌 옵티멈을 찾으면 안되거든요. 어느정도 최적해를 찾되 로컬 옵티멈에서 멈추는게 창의적인 결과가 나오거든요. 그러니까 같은 기술을 쓰더라도 의학을 하느냐 문화를 하느냐에 따라 활용 방식이 달라진다는 거죠. 제가 머신러닝 공부하시는 분들께 하고싶은 말씀은 내가 하려고 하는게 무엇이며 고객은 누구이며 어떤 가치를 만들고자 하느냐에 따라서 기술의 활용방법이 달라진다는 겁니다.

하정우: (딥러닝 학습법 관련) 저도 비슷한 의견인데 사실 너무 많은 논문이 나오고 빨리 변하고 있기 때문에 주변의 친구나 커뮤니티를 활용해야 최대한의 효과를 얻을 수 있습니다. 저희는 회사에서 세미나를 열심히 하는데 논문 하나하나를 깊이있게 본다기 보다는 핵심 아이디어가 뭐고 어떤 아이디어를 썼고 기존 연구와 어떻게 다른지만 짚어줘도 굉장히 도움이 되는 것 같아요. 요약하면 집단지성을 활용하시라는 겁니다.