IT 쉽게 알려주는 공대생, 저스트잇입니다. 이번 시리즈는 데이터 분석 마스터입니다!
요즘 굉장히 유행하는 머신러닝의 모든 것, 제가 쉽게 설명해드릴게요!
01. 머신러닝이란?
우리는 머신러닝의 시대에 살고 있다고 해도 과언이 아닐 정도로, 주변에서 머신러닝을 활용한 많은 기술을 볼 수 있어요.
유튜브를 볼 때, "알고리즘 타고 들어왔어요!" 라는 댓글 보신 적 있을 거예요.
바로 이 알고리즘은 사람들이 영상을 보다가 어떤 로직에 이끌려 영상을 보게 되는 겁니다.
유튜브는 2016년에 딥러닝 기반 추천 알고리즘을 적용한 후 가장 대중적인 스마트폰 앱 1위가 되었어요.
알고리즘 (algorithms)
어떤 문제를 해결하기 위한 일련의 절차나 방법
머신러닝(machine learing)
기게가 패턴을 학습하여 자동화하는 알고리즘, 기계학습이라고도 불림
' 박그냥은 먹는 영상을 좋아하네? , 예능도 좋아하네?, IT 관련 영상도 좋아하네? 외워야지'
유튜브는 이를 학습합니다. 박그냥씨가 영상을 보려고 할 때에 학습한 내용을 바탕으로 좋아할 것 같은 영상을 추천해주는 것이죠~
용어를 활용하여 정리하자면,
유튜브는 개인이 영상보는 패턴을 학습하는 머신러닝 프로그램을 만든 다음, 패턴 즉 알고리즘에 맞게 다음 영상을 계속 추천하는 것입니다.
2. 머신러닝의 실제 사용 사례
- 구매 추천 : 인터넷 쇼핑몰에서 장바구니에 담은 제품과 비슷한 제품을 추천해줘요 ex. Yes24의 책 추천
- 번역 : 머신러닝을 이용해 전문 번역가의 번역을 학습시켜 번역하도록 해요. ex. 파파고 (papago)
- 자율 주행차 : 머신러닝 기술 중 하나인 이미지 처리 기술을 활용해 이미지를 학습하고, 차량이 스스로 판단해 운행하도록 해요! ex. 테슬라
- 챗봇 : 머신러닝을 기반으로 사용자와 컴퓨터 간의 대화가 가능하도록 해요! ex. 인공지능 콜센터
3. 머신러닝의 키워드
1) 인공지능, 머신러닝, 딥러닝
" 인공지능, 머신 러닝, 딥러닝 다 똑같은 애들 아닌가요? 러닝이면 같은 거 아닌가... 어쨋든 AI인 건 맞죠?"
라고 생각하실 수 있어요! (제가 그랬거든요😊)
이해하기 쉽게 설명해드릴게요!
인공지능 (Artifical Intelligence, AI)
: 컴퓨터가 학습하고 생각하여 스스로 판단할 수 있도록 만드는 기술
컴퓨터가 학습하고 판단할 수 있는 모든 기술을 인공지능이라고 합니다.
아 컴퓨터가 알아서 뭘 하네? 그럼 인공지능이구나~ 라고 생각하면 돼요
머신러닝 (machine learning)
: 데이터를 컴퓨터에 학습시켜 그 패턴과 규칙을 컴퓨터가 스스로 학습하도록 만드는 기술
이전에는 직접 사람이 데이터베이스화한 후 컴퓨터가 처리하도록 했대요! 지금은 그냥 데이터만 입력하면 컴퓨터가 아 이런 규칙이 있네하면서 알아서 규칙 학습하는거죠! 이 과정에서 데이터를 분류하는 수학적 모델을 활용한다고 하네요
딥러닝 (deep learning)
: 머신러닝 기법 중에 신경망(neural network)을 기반으로 사물이나 데이터를 군집하거나 분류하는데 사용하는 기술
위에서 설명했듯이 머신러닝을 할 때에 수학적 모델을 활용한다고 했었죠? 방법이 많은데 그 중에서도 신경망이라는 기술이 있어요. 그 기술을 이용한 머신러닝을 바로 딥러닝이라고 해요. 뉴런을 이용해서 딥하게 학습하네~ 라고 기억해주세요!
2) 빅데이터와 머신러닝
빅데이터와 머신러닝은 별개로 발전했지만, 머신러닝이 데이터를 학습하고 성능을 낼 때 대용량의 데이터가 굉장히 도움이 많이 된다는 사실을 발견한 후, 빅데이터가 머신러닝 분야에서 의미 있게 사용되고 있다고 해요.
그럼 빅데이터 용어의 의미를 정리해볼까요?
빅데이터 (big data )
: 기존의 데이터베이스로는 수집,저장, 분석을 수행하기 어려울 만큼 방대한 양의 데이터
빅데이터 시스템 ( big data system )
: 빅데이터를 다루기 위한 시스템
빅데이터 엔지니어링 ( big data engineering )
: 빅데이터를 다루는 방법
그럼, 빅데이터를 활용한 것은 무엇이 있을까요?
-GFS (Google File System) : 구글의 거대한 검색 시스템을 여러 대의 컴퓨터에 데이터를 분산해서 저장 및 관리하기 위해 설계된 시스템
-맵리듀스 (Map Reduce) : 분산되어 저장된 데이터를 여러 대의 컴퓨터가 동시에 협력해서 처리하는 방법을 알려주는 시스템
(python의 map, reduce 기능과 비슷한 기능이라고 생각하면 돼요)
-하둡 (Hadoop) : 구글의 분산 처리 시스템 개념이 확장되어 개발된 시스템. 오늘날 대용량 데이터를 처리한다고 합니다.
다음 글에서는 머신러닝의 학습 프로세스의 종류에 대해 설명해보도록 할게요!
'데이터 > 데이터 사이언스 및 분석' 카테고리의 다른 글
[캐클 입문] 타이타닉 생존자 예측하기 (전처리부터 예측까지) (1) | 2023.12.17 |
---|---|
[ 데이터 분석 마스터 ] #2. 머신러닝의 학습 프로세스와 종류 (2) | 2023.10.25 |