Data Traveler
Tantum videmus quantum scimus

2021-12-31

Author: 98hyun

Published: 2021-12-28

Tags: 개발 시각화 머신러닝 데이터분석 시각화 오피스

Share :


  블록체인

블록체인이라고 구글에 쳐도 네이버에 쳐도 많은 정보를 얻을 수 있다.

쉽게 말하면, 블록으로된 체인인데 이 블록안에 정보를 담는다는 것이다. 그리고 블록은 이어져있기 때문에 누군가가 쉽게 수정할 수도 없다. 그리고 어디에 저장되는 것이 아닌 모두가 블록을 가지고 있을 수 있어서 분산되어있다는 특징이 있다.

지문을 이용한 did 신원인증확인 서비스를 만들기 위해 간단한 블록체인을 python으로 만들었고, 위 코드는 github를 통해 올려놓았다.


  PPT

ppt는 프레젠테이션을 할때 시각적인 자료를 위해 보조로 사용하는 소프트웨어의 종류다.

현재 마케팅을 공부하고 있는데 기본 기획서를 만들 때 디자인 뿐만 아니라 하고 싶은 말을 하는데 있어 글과 같이 눈이 즐겁게 할 수 있는 간편하고 좋은 프로그램이다. 중학교부터 발표를 위해 꼭 쓰이기 때문에 기본 기술정도는 알면 좋다.

ppt를 공부하면서 얻은 팁과 템플릿 링크를 공유하려고 한다.

이번에 ppt를 공부하면서 본인이 생각하는 중요한 tip들을 정리했다. 또한, 템플릿은 틀. 즉, 방법과 같이 써놓았기 때문에 이런식으로 하면 된다는 것을 보여준다. 본인이 직접 만들어보는게 중요하다.

이 링크를 따라가서 다운로드 할 수 있다.


  word

word의 기본을 공부하여 대쉬보드 기획서를 작성했다. 꼭 필요한 초기 설정값들을 보여주려고 한다.

그리고 이 파일은 기획서다. 밑의 태블로 대쉬보드가 데모이고, 관련된 필드 만드는 방법 또한 다 기획서에 있다.

code


## 
1줄 띄어쓰기
레이아웃 우리나라는 인치가 아닌, cm 기 때문에 3cm 까지 가능.
줄간격을 고정해서 *2 
글꼴은 한글은 바탕, 영어는 times 
한글 문서에서는 양쪽정렬에 한글잘림x
단락뒤 0 초기화
b7 + alt + x 는 중간점


  superstore dashboard

superstore는 tableau 기본 제공 파일로, 이번에 vizable 지원에서 대쉬보드 기획과제로 내 준 demo를 가져왔다.



  plotly

저번 포스트에서 임베드를 하는 방법을 보여줬었는데 간단하게 plotly의 공통적인 틀. 만드는 기본 공식을 가져와봤다.

code


## bar chart
trace1=go.Bar(x=index,y=value,text="")
trace2=go.Bar(x=index,y=value,name="")
data=[trace1,trace2]
## text는 pointer text, name은 legend
layout=go.Layout(title="",barmode='stack')
## 혹은 dictionary형태로
fig=go.Figure(data=data,layout=layout)
py.iplot(fig,filename='bar-chart')


  특성 공학

한글로 써서 특성 공학이고, 영어로하면 feature engineering 이다. 다시 말하면 전처리가 될 수 있다. 캐글스터디에서 공부한 것 중 머신러닝에서 자주 쓰이는 scikit-learn과 카테고리 변수의 딥러닝 embedding 방법 등을 가져왔다.

code


## PolynomialFeatures 
n 차원으로 feature를 생성  
a,b에서 2면 1 a,b,a2,ab,b2

## VarianceThreshold
bias 는 예측값과 실제값의 차이의 평균
variance 분산. 예측값이 몰려있는 정도_양. 높으면 흩어진것. 낮으면 뭉쳐있는것.
즉, 특정 feature로 인한 variance가 낮을 경우 그 feature는 제거해야한다.
sklearn의 variancethreshold는 낮은 variance의 feature들을 걸러준다. 
그래서 본문에서는 없는 feature들을 보려고 lambda not 을 사용한것이다.

## SelectFromModel
threshold로 적절한 feature를 선택하여 준다.

## Rank Gauss
오차함수의 역수함수를 넣어 convert
nueral에 되게 좋다.

## box-cox & yeo-johnson
from sklearn.preprocessing import PowerTransformer
pt = PowerTransformer(method='box-cox') # yeo-johnson

## entity embedding
2등 솔루션의 emtity embedding

https://www.kaggle.com/c/cat-in-the-dat-ii/overview
https://www.kaggle.com/hwangchanghyun/same-old-entity-embeddings

## smoothing target encoding
ps_car_11_cat 이 너무 많은 unique 값들을 가졌기 때문에 target encoding을 사용하는데
여기서 min_samples_leaf가 100인 이유는 104개의 값들 중 최소한 100개는 가지게 한다는 뜻이고, noise level은 알아서 정하고 진폭이 커지게 되냐 아니냐 차이이다.
여기서 파생된게 https://www.kaggle.com/subinium/11-categorical-encoders-and-benchmark 이다.


  광진구교통사고주의서비스

프로젝트를 진행했다. 파이썬 라이브러리들을 사용하여 홈페이지에 BANs KPI와 날씨와 시간을 이용한 사고 예측 모델을 올려서 서비스를 만들었다.

소비자분석_광진구교통사고주의및예측서비스 from 황창현


Contact Form