ADP실기 6

[ADP] 데이터 분석 전문가 31회 실기 후기, 문제 복기

[ 31회 후기 ] 난이도 : 어렵지 않았음. 중 정도 29, 30, 31회 지금까지 3차례 시험 치르는 동안 그나마 가장 잘 본것 같음. 29회엔 머신러닝 문제 한 세트를 제대로 손대지도 못했고, 30회엔 통계분석 파트 중 배점이 컸던 두 문제를 통으로 날려버려서.. 시험 치르고 나오면서 느낌이 조금 다르긴 했다. 부분점수 좀 많이 줘서 합격했으면.. ㅠㅠ 확실히 29회부터 머신러닝 2세트 60점 + 통계분석 40점으로 가는 추세가 맞고, 내가 생각하는 관건은 아래와 같다. 1. 데이터 전처리를 효율적으로 척척 해나가는 스킬 (시간 절약의 포인트) 2. 기초 다지기 (기본적인 확률 분포에 대한 이해는 필수, 기출 제대로 풀어보기) 모든 걸 다 알고있으면 좋겠지만 매번 예측할 수 없는 새로운 키워드가 등..

[ADP] 데이터 분석 전문가 29회, 30회 실기 후기

ADP는 29회, 30회 이렇게 두 회차를 봤는데 29회차 후기를 따로 포스팅하지는 않아서 이 포스팅에서 짧게 같이 다뤄보려고 한다. 장소 : 서울은 역시나 서일대 배양관 29회 첫 시험 짧은 후기 복기는 데이터 마님 사이트에서 잘 해주셔서, 복기 토대로 다시 풀어보았다. 29회 머신러닝 풀이 : https://github.com/Minju-nimm/ADP/blob/master/ML/29%ED%9A%8C_ML.ipynb 난이도 : 중상 29회부터 머신러닝 60점 (2문제;;) + 통계분석 40점 배점으로 바뀌었다. (아마 이 형태로 계속 가지 않을까) 뜬금 머신러닝 2문제라 무엇보다도 시간이 부족해도 너무 부족했었고, 데이터 전처리가 관건이었다. 일단 데이터 설명도 이해가 안갔고 문제도 대체 무슨 소리인..

[통계/Python] ANOVA & 사후검정, ADP 실기 29회 풀이

⬇️ 더 많은 ANOVA 자료와 코드는 깃허브에서 볼 수 있습니다 ! ⬇️ https://github.com/Minju-nimm/ADP/blob/master/Statistics/8_ANOVA.ipynb [ One-way ANOVA ] 개념 인자, 요인 (factor) : 학년과 같이 모집단의 그룹을 구분하는데 사용되는 변량을 그룹 또는 인자(factor)라고 하는데 대부분 이산형 변량이다. 수준(level) : 인자가 가지는 값들을 인자의 수준(level)이라고 하며, 이들 수준의 개수가 비교되는 모집단의 개수가 된다. 이와 같이 하나의 인자가 반응변량에 미치는 영향을 조사하는 분산분석법을 일원분산분석(one-way ANOVA)이라 한다. 예시 어느 대학에서 각 학년별 도서관 평균이용시간이 같은가? 세 ..

📊 Statistics 2023.08.19

[통계/Python] 맥니마 검정(McNemar's test) 개념 및 예제, ADP 실기 28회 풀이

[ 맥니마 검정(McNemar's test) ] 목적 : 2개의 대응 표본을 가지고 범주형 변수의 분포가 변화했는지 검정 짝지은(paired) 범주형 데이터의 2x2 분할표가 있을 때, Column과 Row의 주변확률(marginal probability)가 같은지 검정 paied, 연관 : 동일인에 대해 두 번 측정하거나, 부모-자식처럼 관련있는 사람들에 대해 측정 즉, 범주형 변수가 2개일 때 쓸 수 있는 방법 맥네마 검정은 분할표에서 각 관측치 간에 독립성이 만족하지 않을 때 사용하는 검정 독립성 : 두 변수가 서로 영향을 주지 않는 상황. 두 변수 간에 아무런 상관관계가 없다는 뜻 머신러닝에서는 2x2 혼동행렬에 대한 예측모델의 정확도를 비교하는 방법으로도 사용 가설 검정통계량 검정 통계량은 카이..

📊 Statistics 2023.08.15

[통계/Python] 다항분포(Multinomial Distribution) 개념 및 예제

[ 다항분포(Multinomial Distribution) ] 여러 개의 독립 확률변수들에 대한 확률분포로, 여러 번의 독립적 시행에서 각 사건(확률변수)에 따라 특정 횟수가 나타날 확률을 정의하는 분포이다. 독립 확률변수가 여러 개? : 독립적으로 서로 다른 여러 개의 사건 또는 범주가 존재한다는 것을 의미 이항분포의 확장이라고 볼 수 있다. 동전을 N번 던져 '앞면'이 나오는 횟수의 분포가 이항 분포 주사위를 N번 던져 '각 면'이 나오는 횟수 집합의 분포가 다항분포 이항분포는 앞면이라는 성공 횟수에 초점을 두고, 다항분포는 하나가 아닌 여러'집합'의 분포에 초점을 둔다. 카테고리가 $k$개인 카테고리 확률변수의 표본 데이터를 $N$개 얻었을 때, 각각의 카테고리 $k(k=1, \cdot \cdot ..

📊 Statistics 2023.08.08

[통계/R] 베이지안 회귀 기초 개념 & ADP 실기 26회 R 구현

통계학을 공부하면서 가장 어려운 개념이라고 생각하는 베이지안. ADP 실기가 베이즈 관련 개념들을 많이 출제하는 것 같아서 나름 공부한 내용을 포스팅하기로 했다. 더 공부하면서 지속적으로 포스팅 수정할 계획. 베이지안은 접할수록 쉽지 않은 개념이다. 이렇게 정리를 해도 온전히 내 것으로 만들지 못했다.. 갈길이 멀다. ㅠㅠ 어렵지만 그만큼 흥미로운 분야라고 생각한다. 복습하고 많이 접할수록 언젠간 더 가까워지지 않을까.. [ 베이지안 회귀 ] 확률론적인 방법을 이용하여 회귀분석을 수행하는 방법 베이지안 회귀는 베이즈 정리를 기반으로 사전 확률분포에서 MCMC기법에 의해 선정된 관측값을 반영하여, 사후 확률분포를 추산하는 방식 모든 관측값이 반영되었을 때 새로운 값 관측값(unobserved data) x..

📊 Statistics 2023.08.05
728x90