파이썬 Python/판다스 Pandas
판다 데이터프레임 합치기 concat(), merge(), merge_asof() Joining DataFrames in Pandas
2020. 8. 8.대부분의 경우 데이터는 다수의 소스나 파일로부터 나오므로, 데이터프레임을 합치는 작업은 아주 중요한 작업 중 하나로, 여기서는 Pandas 라이브러리를 사용하여 복수의 데이터프레임을 병합하는 방법에 대해 살펴보자. Concatenate DataFrames 먼저 pandas 라이브러리를 임포트한다. import pandas as pd 파이썬 딕셔너리로 샘플로 사용할 데이터프레임을 다음과 같이 만든다. dummy_data1 = { 'id': ['1', '2', '3', '4', '5'], 'Feature1': ['A', 'C', 'E', 'G', 'I'], 'Feature2': ['B', 'D', 'F', 'H', 'J']} 딕셔너리 dummy_data1 의 키는 컬럼명이고 리스트의 값들은 각각의 행에 대응..
np.random.seed 란 무엇인가?
2020. 8. 8.np.random.seed(0) 은 난수를 예측가능하도록 만든다. 다음의 예를 보자. np.random.seed 를 사용하면 다음과 같이 동일한 셋트의 난수가 나타나게 된다. import numpy as np np.random.seed(0) ; np.random.rand(4) array([0.5488135 , 0.71518937, 0.60276338, 0.54488318]) np.random.seed(0) ; np.random.rand(4) array([0.5488135 , 0.71518937, 0.60276338, 0.54488318]) 하지만 random seed 가 리셋되지 않으면, 다음과 같이 매번 서로 다른 수가 나타나게 되는 것이다. np.random.rand(4) array([0.423654..
Numpy linspace 함수 살펴보기 numpy.linspace() in Python
2020. 8. 8.NumPy linspace 함수는 숫자로 된 시퀀스를 생성하는 툴로, NumPy arange 함수와 유사하지만, Numpy array 로 구성된 균등한 간격을 둔 시퀀스를 생성한다. 시작점과 종점을 정하고, 해당 간격내(시작점과 종점 포함)의 브레이크포인트의 총 갯수를 정하면, np.linspace 함수는 해당 간격내에 일정한 간격을 둔 브레이크포인트 갯수만큼의 시퀀스를 반환하게 된다. 간단하게 다음과 같은 경우를 생각해보자. import numpy as np np.linspace(start = 0, stop = 100, num = 5) array([ 0., 25., 50., 75., 100.]) 위 코드는 다음과 같은 Numpy Array (ndarray object) 를 생성한다. 해당 범위내에 nu..