본문 바로가기

python & DS

t-sne 정형데이터/분류시 사용 t-분포 확률적 임베딩은 데이터의 차원 축소에 사용되는 기계 학습 알고리즘 중 하나로, 2002년 샘 로이스Sam Rowise와 제프리 힌턴에 의해 개발되었다. t-SNE는 비선형 차원 축소 기법으로, 고차원 데이터를 특히 2, 3차원 등으로 줄여 가시화하는데에 유용하게 사용된다.feature개수는 몇 천개고, train,test데이터 불균형은 심할 때, 어느 부분이 얼마나 다른지 확인해야될 때가 있다. 이때 사용하면 유용하다. 모 대회에서는 train 데이터 셋과 test 데이터 셋의 차이가 심하고, 심지어 test의 특정 class가 train에 거의 없는 것만 들어간 적이 있었다. 일반적인 분류알고리즘으로 성능이 너무 안나와서 t-sne를 그려보니, test의 데이터셋에 알 수 없는 class가 뭉.. 더보기
시험 DP-900: Microsoft Azure https://learn.microsoft.com/ko-kr/credentials/certifications/resources/study-guides/dp-900 시험 DP-900: Microsoft Azure 데이터 기본 사항 핵심 데이터 개념 설명(15~20%) 핵심 데이터 워크로드 유형 설명 스트리밍 데이터 설명 배치 데이터와 스트리밍 데이터의 차이점 설명 관계형 데이터의 특성 설명 데이터 분석 핵심 개념 설명 데이터 시각화(예: 시각화, 보고, 비즈니스 인텔리전스(BI)) 설명하기 막대형 차트 및 원형 차트와 같은 기본 차트 유형 설명하기 분석 기술(예: 설명, 진단, 예측, 규범, 인지) 설명하기 eLT 및 ETL 처리 설명 데이터 처리의 개념 설명 Azure에서 관계형 데이터로 작업하는 방법 .. 더보기
python 실행시간 측정 및 디버깅 If you want to time how long it takes for a whole cell to run, you’d use %%timeit like so: Debugging in the Notebook With the Python kernel, you can turn on the interactive debugger using the magic command %pdb. When you cause an error, you'll be able to inspect the variables in the current namespace. https://ipython.readthedocs.io/en/stable/interactive/magics.html Built-in magic commands — IPyt.. 더보기
데이터 분석 - 회귀 계수 축소 모델 * 일반적으로 변수가 많을수록 회귀 모델의 학습 데이터에 대한 성능은 높아지고, 학습하지 않은 데이터에 대한 성능은 낮아짐. 변수가 많아지면 변수의 해석력도 낮아짐. -> 회귀모델이 지니고 있는 학습의 특성때문임. 종속 변수를 설명하는 독립 변수의 설명력이 있을 때 각각의 독립 변수가 지니고 있는 이 설명력을 중복으로 가져가ㅣ는 못함. 예를들어, 키와 발의 크기를 이용해 몸무게를 예측한다고 했을 때, '키'라는 변수가 지니고 있는 설명력과 '발'이라는 변수가 지니고 있는 설명력이 겹치는 부분이 있을텐데, 이에 대해 각각의 변수가 중복으로 가져가지 못함. 그러면 키나 몸무게 하나만 적합시켰을 때, 그 변수의 영향력 보다 적게 나오게 됩니다. 이러한 문제 때문에 적절한 변수만 선택해 사용하는 것이 중요함. .. 더보기
RandomForestClassifier Help on RandomForestClassifier in module sklearn.ensemble._forest object: class RandomForestClassifier(ForestClassifier) | RandomForestClassifier(n_estimators=100, *, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False,.. 더보기
pandas AI https://www.geeksforgeeks.org/pandas-ai/ Pandas AI: The Generative AI Python Library - GeeksforGeeks A Computer Science portal for geeks. It contains well written, well thought and well explained computer science and programming articles, quizzes and practice/competitive programming/company interview Questions. www.geeksforgeeks.org Text로 질문을 하면 dataframe에 있는 데이터로 답을 해줌;; NLP 인식모듈 탑재됨 ㅋㅋㅋ 더보기
make_column_transformer, make_column_selector sklearn.compose에 있는 컬럼 트랜스포머와 셀렉터 사용법 StandardScaler, OneHotEncoder 동시적용 selector 사용시 dtype_include 지정 np.number or object OneHotEncoder 사용시 sparse False옵션 import numpy as np import pandas as pd from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import make_column_transformer, make_column_selector from sklearn.model_selection import train_test_split fuel = pd.re.. 더보기
dbscan https://zephyrus1111.tistory.com/356 30. DBSCAN에 대해서 알아보자 with Python 이번 포스팅에서는 클러스터링 알고리즘 중 하나인 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)에 대해서 알아보고자 한다. - 목차 - 1. DBSCAN이란 무엇인가? 2. DBSCAN 알고리즘 3. DBSCAN 장단 zephyrus1111.tistory.com 내 데이터로는 컬러링이 잘 안된다.... 더보기