In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
In [2]:
titanic = sns.load_dataset('titanic')
titanic
Out[2]:
In [3]:
tips = sns.load_dataset('tips')
In [4]:
sns.lmplot(x="total_bill", y="tip", height=8, data=tips)
plt.show()
In [5]:
sns.lmplot(x="total_bill", y="tip", hue="smoker", height=8, data=tips)
plt.show()
In [6]:
sns.lmplot(x='total_bill', y='tip', hue='smoker', col='day', col_wrap=2, height=8, data=tips)
plt.show()
In [7]:
sns.relplot(x="total_bill", y="tip", hue="day", data=tips)
plt.show()
In [8]:
sns.relplot(x="total_bill", y="tip", hue="day", col="time", data=tips)
plt.show()
In [9]:
sns.relplot(x="total_bill", y="tip", hue="day", row="sex", col="time", data=tips)
plt.show()
In [10]:
sns.relplot(x="total_bill", y="tip", hue="day", row="sex", col="time", palette='CMRmap_r', data=tips)
plt.show()
In [11]:
sns.jointplot(x="total_bill", y="tip", height=8, data=tips)
plt.show()
In [12]:
sns.jointplot("total_bill", "tip", height=8, data=tips, kind="reg")
plt.show()
In [13]:
sns.jointplot("total_bill", "tip", height=8, data=tips, kind="hex")
plt.show()
In [14]:
iris = sns.load_dataset('iris')
sns.jointplot("sepal_width", "petal_length", height=8, data=iris, kind="kde", color="g")
plt.show()
데이터 테이블의 값들이 너무 커서 산점도나 피벗 시각화로 나타내기 힘들 경우에는 어떤 방법으로 나타내는 것이 옳은 건가요?
답글삭제밀도 폴리곤으로 하세요.
삭제정규화로 나타내는 것은 정확하지 않나요?
삭제값이 너무 많으면 점들이 겹쳐 보여서 경향성을 바로 보기 어렵지요. 적당히 크면 jitter (옆으로 약간씩 비틀어서 보여주는 방법)와 alpha(투명도)를 섞어서 시각화하거나 특정 영역의 밀도로 보여주는 법이 정석이에요. 정규화(normalization)은 중심과 편차를 고정시켜서 서로 다른 측정치의 단위 크기를 통일하는 방법인데 찍을 값들이 많은 것과는 다르지요. 값이 크다(scale이 크다는 아닌듯)의 의미에서 unknown(구글 아이디를 몰라서)이 이야기하는 것과 결이 다르다고 봐요.
삭제