데이터 분석이 유행처럼 확산되고 다니는 회사에도 사내 강의와 자격 시험이 생겼다.마침 데이터 분석의 공부를 하려던 참, 교육도 무료로 주고, 합격하면 교육 장려금까지 받을 수 있다는 것에서 왜 떡인가 싶더니 이내에 신청했다.2023년 5월부터 시험 공부를 시작하고 2회 락방과 좌절의 시기를 지나 10월에 3번 만에 합격의 기쁨을 누렸다.시험 범위는 약간 다른지도 모르지만 빅 데이터 분석 기사, ADsP도 준비 과정은 비슷하면서도 준비 중인 분들에게 도움이 될까 생각하고 시험 준비 과정과 공부 자료를 정리했다.정리하다 보니 생각보다 글이 길어지고 4개 시리즈에 정리할 예정이다.3편, 4편은 코드의 설명과 동시에 쥬피터 노트북을 같이 공유할 예정이니 참고가 됐으면 좋겠다.1편| 시험 개요, 1,2,3차 시험 도전 2편| 시험 유의 사항, 오류 유형, 주피터 노트북 단축 키 3편| 시험에 유용했던 파이썬 주요 구문+주피터 노트북 4편| 머신 러닝 해설 과정+주피터 노트북
사내 데이터 분석 시험 개요 시험 이름:데이터 분석 능력 레벨 2(레벨 1은 이론 시험 수준 3시험까지 있다)이론 시험:통계, 머신 러닝 관련 20문항으로 배점 40점 실기 시험:2개의 데이터 세트를 각각 3개 초 문제가 있어 전체 6문항 출제 배점 60점 Python과 R에서 선택하여 코딩으로 답을 요구하고 코딩 결과를 파일로 제출 이론 실기 함께 과락 점수는 60%이상으로, 합계 점수가 70점 이상의 Python과 R에서 선택 시간, 코딩 결과를 파일로 제출 이론 1시간·실기 2시간에서 사내 교육이 총 3시간 강사 배분한강의 때 멀티 캠퍼스에서 운영하는 데이터 분석 자격 시험인 ProDS를 자주 언급했다.사내 시험과 ProDS등급의 출제 범위를 비교하면 사내 시험은 ProDS Associate급에 해당한다고 생각된다.
멀티캠퍼스 :: 직무교육전문데이터사이언스, 프로그래밍, UXUI, 마케팅, 블록체인, 보안, 웹개발, 디자인실무교육 certi.multicampus.com
제공문서 : numpy 1.18 manual.pdf pandas 0.25.1 manual.pdf scikit-learn 0.21.3 manual.pdf scipy 1.5.2 manual .pdf stats models 0.11.1 manual リンク
공부 과정 2021~레몬과 투자에 관심을 가지면서 Python공부를 시작했다.코딩에 대해서 아무것도 모르는 코를 모르는 상태였기 때문에 강의 동영상을 보고모방하면서 기본기를 익혔다.하루 2시간 공부하는 것을 목표로 되도록 지키려고 노력했다.이때까지는 주요 함수와 메소드의 사용법을 이해는 했지만 외우지 않고, 필요하면 검색할 수준이었다.그러나 프로그래밍 언어는 문자 그대로 영어 일본어처럼 언어이기 때문에 제대로 활용하기 위해서는 사용 빈도가 높은 라이브러리나 함수 알고리즘은 암기가 필수적이다.필요성은 알지만 실천은 못하고 있었지만, 시험 준비를 하고 보면 어쩔 수 없이 암기를 하게 됐다.공부 자료 파이썬 프로그래밍(KMOOC강의자:한 도쿄대 학교 김·교은미)K-MOOC에 가입만 하면 무료로 들을 수 있고 내용도 체계적으로 파이썬 초심자가 들을 만하다.
파이썬 프로그래밍의 다양한 플랫폼에서 사용할 수 있는 파이썬 언어를 배우는 방법을 김경미 교수가 알려드립니다.www.kmooc.kr
혼자 공부하는 파이썬, 혼자 공부하는… 시리즈의 하나로 위의 강의보다 더 상세한 내용을 다룬다. 강의자 윤인성 씨가 굉장히 차분한 목소리로 설명을 잘해준다. 2개의 강의를 충실히 들어도, 기본기는 단련된다고 생각한다. 확인해보니 2022년 개정판이 나왔고, 유튜브 영상도 업데이트됐다.
혼자 공부하는 파이썬 저자 윤인성 출판 ‘한빛미디어’ 출간 2022.06.01.
혼자 공부하는 파이썬 저자 윤인성 출판 ‘한빛미디어’ 출간 2022.06.01.
2023년 5월 사내 시험에 대비한 공부를 본격적으로 시작했다.통계와 데이터 분석을 위한 머신러닝 이론 강의와 교재는 회사에서 제공하는 것을 이용했다.통계를 공부하면서 개념 간의 관계를 잘 이해하지 못해 전체 개념도를 먼저 정리했다. 이렇게 핵심 개념을 하나의 프레임으로 정리하자 관련된 세부 개념도 교통정리됐다.아래 개념도가 처음에는 잘 이해되지 않지만 통계 공부하면서 참고하면 도움이 되지 않을까 생각한다.통계 개념도 | 출처 : 자체제작실기는 사내 교육 시 제공된 6가지 연습 문제를 반복적으로 풀었다.꾸준히 하루 2시간은 공부하려고 했다.저녁에는 시간을 내기가 어려워서 새벽 공부를 습관화했다.1시간은 이론 공부를, 1시간은 문제를 풀었다.문제를 풀 때 내가 반복해서 틀리거나 중요한 코드는 따로 정리했다.이때는 한번에 합격해 보겠다는 근거 있는 자신감을 갖고 공부를 했다.공부자료회사에서제공한통계,머신러닝이론학습교재회사에서제공한실기연습문제6문제(회사자료는저작권문제로공유가불가능하다.)실기는 사내 교육 시 제공된 6가지 연습 문제를 반복적으로 풀었다.꾸준히 하루 2시간은 공부하려고 했다.저녁에는 시간을 내기가 어려워서 새벽 공부를 습관화했다.1시간은 이론 공부를, 1시간은 문제를 풀었다.문제를 풀 때 내가 반복해서 틀리거나 중요한 코드는 따로 정리했다.이때는 한번에 합격해 보겠다는 근거 있는 자신감을 갖고 공부를 했다.공부자료회사에서제공한통계,머신러닝이론학습교재회사에서제공한실기연습문제6문제(회사자료는저작권문제로공유가불가능하다.)2023 6월1차 시험 도전1차 시험을 봤다.결과는 불합격···이론 시험은 과락 점을 넘었으나 실기 점수가 0점이었다.시험은 컴퓨터 기반 시험(CBT)에서 열렸다.시험 받는 방식에 대한 사전 정보가 너무 없어서, 실제로 시험장에 들어가면 너무 나도 당황했다.파이썬은 어떻게 실행시키면 좋을까… 그렇긴 데이터는 어디에서 내려받아 어느 폴더에 다운로드하면 파이썬에서 읽을 수 있나…이래봬도등의 파이썬 실행 아이콘을 찾느라 헤매었지만, 시험 방법을 안내할 때 제대로 못 들었다.코드 제출과 시험 화면에도 정답을 따로 써야 했지만 코드만 제출하여 실기가 0점이 나온 것이다.주변 동료들이 시험은 잘 갔느냐고 묻고 있지만 실기에서 0점을 받아 불합격이 됐다는 얘기는 부끄러워서 도저히 못 했다.실기는 0점을 땄지만 그래도 6문항 중 5문항을 풀 수 있었다.이 정도의 난이도라면 다음 시험에서 대답조차 제대로 쓰면 합격할 수 있다는 생각이 들었다.2개월마다 시험을 다시 치를 수 있어 8월 시험을 목표로 다시 준비를 시작했다.통계 부분에서 개념 이해가 잘 안 되는 부분이 있고 보충하기 위한 공부를 했다.첫번째 떨어지고 깨달은 것은 사전에 시험을 받는 방법을 숙지하는 것이 정말로 중요하다!!!공부 자료 Power of Statistics, Coursera, Google사회 연구 방법, 신·민철 이 책은 통계의 개념이 간단하게 설명되어 있어서 개념 이해에 도움이 컸다.사회연구방법 저자 신민철 출판창민사 발매 2018.02.26。유튜브 채널 콘도르의 수학 노트가 잘 이해되지 않는 확률과 통계 개념을 시뮬레이션을 통해 이해하기 쉽게 설명해준다. 예를 들어 카이제곱 분포가 왜 그렇게 생겼는지를 시각화해 보여준다. 재충전도 되고 개념을 이해하는 데 도움이 됐다.확률과 통계 www.youtube.com확률과 통계 www.youtube.com2023~7월 6월 시험에서 시험 환경이나 과정에 대해서 한번 경험한 적은 있지만 익숙해질 필요성을 느꼈다.시간이 있을 때마다 시험장에 들러서 컴퓨터도 붙어 보거나, 주피터 노트북을 실행시키고 보았다.사내 시험을 봐서 가능했던 부분이다.Datamanim이라는 사이트를 알고 여기에서 공유된 문제를 추가로 풀기 시작했다.매일 1시간은 이론 공부, 1시간은 문제 해결을 유지했다.보통 1시간에 3개의 작은 문제로 구성된 문제 하나를 풀었다.몇번이나 반복해서 풀었는데 여전히 문제를 풀때마다 실수하는 부분이 나왔다.영어 시험을 보면 철자가 다르게, 코딩은 함수 이름의 철자 뿐만 아니라, 대문자와 소문자, 괄호의 형태까지 완벽하게 입력하지 않으면 오류가 발생하므로, 더 어렵다는 생각이 들었다.자주 실수할 부분은 따로 정리하고 코드를 외웠다.공부 자료사 안에서 배포한 통계 교재와 연습 문제 6개 사내에서 배포한 실전 과정 6개 Datamanim의 Pandas연습 튜터리얼 100문항 Pandas와 관련된 100문항의 문제가 수록되고 있다.계속 풀어 본 뒤 제대로 풀지 못할 것만 선별하고 숙달할 때까지 반복 연습했다.https://www.datamanim.com/dataset/99_pandas/pandasMain.htmlDatamanim의 기출 문제 및 모의 시험 여기에 수록된 문제가 사내 시험 포맷과 거의 비슷하게 생겨서 도움이 되었다.1.6과거 문제 및 모의 시험-DataManim Cagle코드의 이용 방법모의 시험은 Cagle에 같은 문제로 업로드됩니다.다른 분들의 코드를 참고하면서 학습에 도움이 되었으면 합니다.반대로 스스로 해결한 방법의 코드도 공유하고 다른 쪽에 도움이 되길 바랍니다!코드와 데이터 세트에 upvote도 부탁 드립니다ww 1. 문제 Copy code생성 및 문제 해결각 모의 시험의 Cagle데이터 세트 링크에 들어 code탭에서 problem에 해당하는 코드를 찾아 들어갑니다.Edit my Copy버튼을 누르고 코드 창을 실행하고 문제를 풀겠습니다.2)제목 변경 및 보존 코드 이름을 바꿉니다(본인의 모델···www.datamanim.com1.6 기출문제 및 모의고사 – DataManim Cagle 코드 이용방법 모의고사는 Cagle에 동일한 문제로 업로드 됩니다. 다른 분들의 코드를 참고하여 학습에 도움이 되었으면 합니다. 반대로 스스로 해결한 방법의 코드도 공유해서 다른 분들에게 도움이 되게 해주세요! 코드와 데이터셋에 upvote도 부탁드립니다ㅎㅎ 1. 문제 Copy code 생성 및 문제해결 각 모의고사의 Cagle 데이터셋 링크로 들어가서 code 탭에서 problem에 해당하는 코드를 찾아 들어갑니다. Edit my Copy 버튼을 눌러 코드 창을 실행하여 문제를 풀겠습니다.2. 타이틀 변경 및 저장 코드 타이틀을 바꿉니다. (본인 모델의 … www.datamanim.com1.6 기출문제 및 모의고사 – DataManim Cagle 코드 이용방법 모의고사는 Cagle에 동일한 문제로 업로드 됩니다. 다른 분들의 코드를 참고하여 학습에 도움이 되었으면 합니다. 반대로 스스로 해결한 방법의 코드도 공유해서 다른 분들에게 도움이 되게 해주세요! 코드와 데이터셋에 upvote도 부탁드립니다ㅎㅎ 1. 문제 Copy code 생성 및 문제해결 각 모의고사의 Cagle 데이터셋 링크로 들어가서 code 탭에서 problem에 해당하는 코드를 찾아 들어갑니다. Edit my Copy 버튼을 눌러 코드 창을 실행하여 문제를 풀겠습니다.2. 타이틀 변경 및 저장 코드 타이틀을 바꿉니다. (본인 모델의 … www.datamanim.com2023 8월2차 시험 도전8월 1주째에 2차 시험을 봤다.이론 시험부터 풀기 시작했는데 첫 문제부터 까다로워서 풀리지 않고 다음 문제로 넘어갔다.그런데 다음의 문제도 어려웠다.그리고 그 다음 문제도 훨씬 어려웠어.이번에는 이론에서 지내락점을 넘는 것은 어렵다고 생각했다.그런데 실기 문제도 어렵기는 마찬가지였다.우선 주어진 데이터가 좌우로 스크롤 해야 보이지 않을 정도로 칼럼이 많아 각 칼럼의 이름도 일렬로 표기할 수 없을 만큼 길었다.데이터 자체가 이렇게 복잡해지고 먹으면 푸는 것이 훨씬 어려워진다.데이터의 전처리 과정도 1,2번이 아니라 3회 4회 전 처리해야 했다.이론 실기 함께 지난번 시험과는 비교가 안 될 정도로 난이도가 높았다.시험을 받은 3시간 계속 머리가 폭발할 것 같았다.결과는… 그렇긴예상대로 불합격···필기, 실기를 간신히 과락은 넘겼지만 총점은 70점에 못 미쳤다.첫 시험을 받을 때는 어느 정도 배운 범위에서 나오는 연습 문제를 반복 숙달하는 전략으로 접근했다가 2차 시험을 받고는 이 전략이 더 이상 유효하지 않다는 것을 깨달았다.내가 공부하고 있지 않는 타입의 문제가 나왔을 때 대응 전략이 필요하다고 느꼈다.특히 데이터의 전처리 과정이 문제였다.다양한 전 처리 방법으로 그 때문에 Pandas를 더 깊이 공부해야 할 필요성을 느꼈다.두번째 떨어지고 정신을 차린 점전 처리를 더욱 폭넓게 공부할 필요가 있다!!!공부 자료 한 방으로 끝난 Pandas, Udemy(20230807~)머신 러닝을 위한 데이터 전처리, Udemy(20230813~)Udemy강좌는 일반 수강자는 수강료를 내야 하는데 무료로 듣는 방법도 있다.무료 수강 방법은 아래의 글을 참고할 것.온라인 강좌 무료 수강 요령 AI와 같은 기술이 빠르게 발전하면서 대학 커리큘럼이 그 속도를 따라가지 못하고 있다. 그러니까 해킹… blog.naver.com빅데이터형을 위한 확률과 통계, KMOOC(매치업 과정) 확률 통계를 좀 더 정리해 보자는 목적으로 들은 강좌다.빅데이터를 위한 확률과 통계 www.kmooc.kr파이썬 라이브러리를 활용한 데이터 분석 판다스 개발자가 직접 저술한 ‘판다스의 바이블’과 같은 책이다. 책 분량이 700쪽 가까이 되기 때문에 필요할 때 사전을 찾듯이 찾아보면 도움이 된다.파이썬 라이브러리를 활용한 데이터 분석 저자 Wes McKinney 출판 한빛미디어 출시 2023.05.01.수제비 빅데이터 분석기사 필기이론 시험의 다양한 변형 문제에 대응하기 위해 기출문제를 중심으로 풀었다.2022 스이토 빅데이터분석기사 필기1권+2권 합본세트 저자 NCS정보처리기술사 연구회 출판 건기원 발매 2022.02.25.2022 스이토 빅데이터분석기사 필기1권+2권 합본세트 저자 NCS정보처리기술사 연구회 출판 건기원 발매 2022.02.25.2022 스이토 빅데이터분석기사 필기1권+2권 합본세트 저자 NCS정보처리기술사 연구회 출판 건기원 발매 2022.02.25.2023년 9월 회사가 제공하는 6개 실전 문제가 추가됐다. 실전 과정 문제 6문제, 데이터 사모님 6문제, 실전 문제 6문제, Datamanim 모의고사 중 틀린 문제를 반복해서 풀었다. 아래 체크표에 맞은 문제와 틀린 문제를 체크하고, 반복해서 틀린 문제는 좀 더 신경 써서 풀었다.문제별로 적어도 10번 이상은 반복해서 푼 것 같다.문제풀이 체크리스트시험을 보기 전에는 한번에 합격하면 야심 차게 시작했지만 2번 떨어지면 자신도 함께 떨어졌다.계속하고 과연 합격할 수 있을까?그만둘까도 생각했다.그래도 돼었으니, 한 곳까지 오고 보자.정신 차리고…이래봬도 다음 시험 준비를 했다.공부 자료 회사의 예상 문제 6문항, 실전 문제 6문항, 데이터 사모님 문제 6문항, Datamanim모의 시험 반복 2023년 10월 3차 시험 도전 10월 13일 금요일 3차 시험을 봤다.하필 13일의 금요일이다.시험장은 앉을 자리가 사전에 할당되어, 그 자리에 앉아야 되는데···입구에 붙는 목록에서 내 자리 번호를 확인하면 하필이면 13번이었다.이건 정말 MSG1도 더하지 않은 실화이다.정말 불길한 예감이 들었다.시험도 받기 전에 “이번 시험도 실패했다는 예언인가?”라는 생각이 들었다.3번째라 마음에 여유는 있었다.예전에는 그런 일이 없었지만 혹시나 하고 제공 문서 가운데 scipy와 statsmodels를 열어 놓았다.이론 문제부터 풀기 시작했다.불길한 예감과는 달리 예상 밖으로 문제가 풀렸다.일부 복잡한 문제도 있었지만 무난했다.실기도 막히는 부분이 일부 있었지만, 비틀어 낸 부분이 별로 없어서 다 풀었다.게다가 어제 복습에서 푼 샘플 문제의 데이터 세트 그대로 출제됐다.지금까지 기출 문제는 한번도 본 적이 없었지만, 처음의 문제는 문제까지 똑같이 나왔다.어제 풀어서 답까지 어렴풋이 기억이 나고 있었다.이것이 왜 떡인가 생각했다.시험 전에 공식 문서를 미리 열어 둔 것도 신의 한 손이었다.K-Means에서 군중을 구한 뒤 센트로이드 간의 거리를 구하는 문제가 나왔다.pdist메서드는 기억하고 있는데, 어떤 라이브러리를 가져올지 기억하지 못 했다.막 열어 둔 scipy공식 문서에서 검색하고 해결할 수 있었다.시험 후 3일 후 시험 결과 통지 메일이 도착했다.이렇게 두근거리는 맘으로 시험 결과 메일을 열어 보는 게 얼마 만인가라고 생각했다.결과는 합격이다!!!부정의 부정은 강한 긍정이라고 했지?13일 금요일 13번 자리에서 3번만에 합격했다.5월부터 시작해서 약 6개월간 3회 시험을 보며 우여곡절이 많았지만 올해가 끝나기 전에 합격을 하게 되니 너무 홀가분하고 가슴이 벅찼다.전체적인 감상을 처음에 실기 시험 대비 공부를 할 때 너무 시간 내에 풀것에만 신경을 쓰면서 문제를 풀었다.2차 시험 이후에는 문제가 어차피 연습 문제 안에서만 나오지 않고 나타난 것으로 정답을 충당하기 위해서 서두르지 말고 충분한 시간을 갖고 해결 방법을 고민했다.그러나 오히려 이 방법이 결과적으로는 더 큰 도움이 됐다.생각하는 힘을 키우지 않으면 공부하지 않는 범위에서 문제가 나왔을 때 주저가 있기 때문이다.그래서 어느 정도의 기본기를 익힌 후에는 연습 문제를 풀때에 나타나지 않으면 해답을 보지 않고 충분한 시간을 갖고 고민하고 보자.2~3일 정도 고민하면 너무 나이슨 방법은 아니어도 푸는 방법이 떠오른다.중요한 것은 스스로 문제를 해결하는 것이다.문제를 푼 뒤는 내가 해결한 방법으로 출제자가 제시한 해결 방법을 비교해서 더 좋은 방법을 선택하고 숙달되도록 반복 연습하고 자신의 것으로 하면 된다.이렇게 서두르지 말고 5~6개월 정도 자신의 부족한 점을 채우며 포기하지 않고 착실히 준비하면 충분히 합격할 것이다.