전체 글 36

[ADP] 데이터 분석 전문가 31회 실기 후기, 문제 복기

[ 31회 후기 ] 난이도 : 어렵지 않았음. 중 정도 29, 30, 31회 지금까지 3차례 시험 치르는 동안 그나마 가장 잘 본것 같음. 29회엔 머신러닝 문제 한 세트를 제대로 손대지도 못했고, 30회엔 통계분석 파트 중 배점이 컸던 두 문제를 통으로 날려버려서.. 시험 치르고 나오면서 느낌이 조금 다르긴 했다. 부분점수 좀 많이 줘서 합격했으면.. ㅠㅠ 확실히 29회부터 머신러닝 2세트 60점 + 통계분석 40점으로 가는 추세가 맞고, 내가 생각하는 관건은 아래와 같다. 1. 데이터 전처리를 효율적으로 척척 해나가는 스킬 (시간 절약의 포인트) 2. 기초 다지기 (기본적인 확률 분포에 대한 이해는 필수, 기출 제대로 풀어보기) 모든 걸 다 알고있으면 좋겠지만 매번 예측할 수 없는 새로운 키워드가 등..

[통계/개념] p-value란 대체 무엇인가? (+ 유의수준)

p-value의 정의 귀무가설이 참이라는 가정 하에, 계산된 검정 통계량이 귀무가설을 얼마나 지지하는지 나타내는 확률 (p-value가 작음 → 귀무가설이 참일 확률이 적어짐) 확률이기에 0~1로 표준화된 지표 p-value가 작으면 귀무가설이 참일 확률이 적어진다. 하지만 얼마나 작아야 '통계적'으로 작다고 할 수 있을까? 통상적으로 0.05(혹은 0.01)보다 작으면 귀무가설이 참일 확률이 매우 작다고 판단한다. 검정통계량 : 귀무가설이 참이라는 가정 아래 얻은 통계량 더보기 귀무가설(H0)이 참일 때, 관측된 결과 또는 더 극단적인 결과를 얻을 확률 귀무가설이 옳다는 가정하에, 검정통계량이 이론적으로 따르는 표집분포상에서 표본에 기반한 검정통계량보다 더 극단적인 확률을 말한다. 표본에 기반한 검정통..

📊 Statistics 2023.09.16

[ADP] 데이터 분석 전문가 29회, 30회 실기 후기

ADP는 29회, 30회 이렇게 두 회차를 봤는데 29회차 후기를 따로 포스팅하지는 않아서 이 포스팅에서 짧게 같이 다뤄보려고 한다. 장소 : 서울은 역시나 서일대 배양관 29회 첫 시험 짧은 후기 복기는 데이터 마님 사이트에서 잘 해주셔서, 복기 토대로 다시 풀어보았다. 29회 머신러닝 풀이 : https://github.com/Minju-nimm/ADP/blob/master/ML/29%ED%9A%8C_ML.ipynb 난이도 : 중상 29회부터 머신러닝 60점 (2문제;;) + 통계분석 40점 배점으로 바뀌었다. (아마 이 형태로 계속 가지 않을까) 뜬금 머신러닝 2문제라 무엇보다도 시간이 부족해도 너무 부족했었고, 데이터 전처리가 관건이었다. 일단 데이터 설명도 이해가 안갔고 문제도 대체 무슨 소리인..

[SQL/프로그래머스] SQL 고득점 Kit SELECT문 - 3월에 태어난 여성 회원 목록 출력하기

문제 설명 다음은 식당 리뷰 사이트의 회원 정보를 담은 MEMBER_PROFILE 테이블입니다. MEMBER_PROFILE 테이블은 다음과 같으며 MEMBER_ID, MEMBER_NAME, TLNO, GENDER, DATE_OF_BIRTH는 회원 ID, 회원 이름, 회원 연락처, 성별, 생년월일을 의미합니다. 문제 MEMBER_PROFILE 테이블에서 생일이 3월인 여성 회원의 ID, 이름, 성별, 생년월일을 조회하는 SQL문을 작성해주세요. 이때 전화번호가 NULL인 경우는 출력대상에서 제외시켜 주시고, 결과는 회원ID를 기준으로 오름차순 정렬해주세요. 주의사항 DATE_OF_BIRTH의 데이트 포맷이 예시와 동일해야 정답처리 됩니다. 예시 풀이 년, 월, 일 추출 : YEAR(), MONTH(), D..

[통계/Python] 이표본 비율 검정, ADP 실기 29회 풀이

⬇️ 더 많은 자료와 코드는 깃허브에서 볼 수 있습니다 ! ⬇️ https://github.com/Minju-nimm/ADP/blob/master/Statistics/5_%EB%B9%84%EC%9C%A8_%EC%B6%94%EC%A0%95_%EA%B2%80%EC%A0%95.ipynb 이표본 모비율 검정은 두 비율이 같은지, 차이가 있는지를 보는 방법이다. 개념과 예시를 통해 자세히 알아보자. 예시 1) 금년도 대통령 선거에서 특정후보에 대한 지지율에 유권자의 성별에 따른 차이가 있는가? 2) 어느 공장에서 제품을 만들어 내는 두 대의 기계가 있는데 두 기계의 불량률이 서로 다른가? 신뢰구간 검정통계량 1) 표본비율을 이용한 검정통계량 신뢰구간에 사용되는 방법과 같음 표본비율을 이용한 검정통계량, 공통비율을..

📊 Statistics 2023.08.26

[SQL/프로그래머스] SQL 고득점 Kit SELECT문 - 12세 이하인 여자 환자 목록 출력하기

문제 설명 다음은 종합병원에 등록된 환자정보를 담은 PATIENT 테이블입니다. PATIENT 테이블은 다음과 같으며 PT_NO, PT_NAME, GEND_CD, AGE, TLNO는 각각 환자번호, 환자이름, 성별코드, 나이, 전화번호를 의미합니다. 문제 PATIENT 테이블에서 12세 이하인 여자환자의 환자이름, 환자번호, 성별코드, 나이, 전화번호를 조회하는 SQL문을 작성해주세요. 이때 전화번호가 없는 경우, 'NONE'으로 출력시켜 주시고 결과는 나이를 기준으로 내림차순 정렬하고, 나이 같다면 환자이름을 기준으로 오름차순 정렬해주세요. 예시 PATIENT 테이블이 다음과 같을 때 SQL을 실행하면 다음과 같이 출력되어야 합니다. 풀이 IF문 이용, NULL값은 'NONE'으로 표현되게끔 하기 & ..

[SQL/프로그래머스] SQL 고득점 Kit SELECT문 - 재구매가 일어난 상품과 회원 리스트 구하기

문제 설명 다음은 어느 의류 쇼핑몰의 온라인 상품 판매 정보를 담은 ONLINE_SALE 테이블 입니다. ONLINE_SALE 테이블은 아래와 같은 구조로 되어있으며 ONLINE_SALE_ID, USER_ID, PRODUCT_ID, SALES_AMOUNT, SALES_DATE는 각각 온라인 상품 판매 ID, 회원 ID, 상품 ID, 판매량, 판매일을 나타냅니다. 동일한 날짜, 회원 ID, 상품 ID 조합에 대해서는 하나의 판매 데이터만 존재합니다. 문제 ONLINE_SALE 테이블에서 동일한 회원이 동일한 상품을 재구매한 데이터를 구하여, 재구매한 회원 ID와 재구매한 상품 ID를 출력하는 SQL문을 작성해주세요. 결과는 회원 ID를 기준으로 오름차순 정렬해주시고 회원 ID가 같다면 상품 ID를 기준으로..

[통계/Python] ANOVA & 사후검정, ADP 실기 29회 풀이

⬇️ 더 많은 ANOVA 자료와 코드는 깃허브에서 볼 수 있습니다 ! ⬇️ https://github.com/Minju-nimm/ADP/blob/master/Statistics/8_ANOVA.ipynb [ One-way ANOVA ] 개념 인자, 요인 (factor) : 학년과 같이 모집단의 그룹을 구분하는데 사용되는 변량을 그룹 또는 인자(factor)라고 하는데 대부분 이산형 변량이다. 수준(level) : 인자가 가지는 값들을 인자의 수준(level)이라고 하며, 이들 수준의 개수가 비교되는 모집단의 개수가 된다. 이와 같이 하나의 인자가 반응변량에 미치는 영향을 조사하는 분산분석법을 일원분산분석(one-way ANOVA)이라 한다. 예시 어느 대학에서 각 학년별 도서관 평균이용시간이 같은가? 세 ..

📊 Statistics 2023.08.19

[통계/Python] 맥니마 검정(McNemar's test) 개념 및 예제, ADP 실기 28회 풀이

[ 맥니마 검정(McNemar's test) ] 목적 : 2개의 대응 표본을 가지고 범주형 변수의 분포가 변화했는지 검정 짝지은(paired) 범주형 데이터의 2x2 분할표가 있을 때, Column과 Row의 주변확률(marginal probability)가 같은지 검정 paied, 연관 : 동일인에 대해 두 번 측정하거나, 부모-자식처럼 관련있는 사람들에 대해 측정 즉, 범주형 변수가 2개일 때 쓸 수 있는 방법 맥네마 검정은 분할표에서 각 관측치 간에 독립성이 만족하지 않을 때 사용하는 검정 독립성 : 두 변수가 서로 영향을 주지 않는 상황. 두 변수 간에 아무런 상관관계가 없다는 뜻 머신러닝에서는 2x2 혼동행렬에 대한 예측모델의 정확도를 비교하는 방법으로도 사용 가설 검정통계량 검정 통계량은 카이..

📊 Statistics 2023.08.15
728x90