Notice
Recent Posts
Recent Comments
Link
«   2025/07   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Archives
Today
Total
관리 메뉴

TIL

2021-03-31(수) : 데이터분석, cub 진행 상황 본문

2021/일일 기록

2021-03-31(수) : 데이터분석, cub 진행 상황

ililillllllliilli 2021. 4. 1. 00:28

20210331(수)



1. 학습 날짜 : 20210331(수)


2. 학습 시간 :


3. 학습 주제 : 모두의 데이터분석


4. 동료 학습 방법 : 개인


5. 학습 목표 : 데이터분석 책


6. 학습 내용 :


0. 실제 코딩에 사용한 시간 :

8시간

 

오늘 목표

  • 2012년 ~ 2021년 중 더웠던 해는 언제인가?
  • 2012년 ~ 2021년 중 추웠던 해는 언제인가?
  • 서울과 대구의 1년간 온도 차이.
    • 대구가 서울보다 더운가?
    • 서울이 대구보다 추운가?
  • 강원도와 서울의 1년간 온도 차이
    • 강원도가 서울보다 더운가
    • 강원도가 서울보다 추운가?
  • 내 생일은 보통 추웠는가?
  • 1940년대의 온도와 2020년의 온도를 비교했을 때, 지구온난화의 영향을 받아 기온이 올라갔는가?
  • 봄이 겨울보다 더 추운가..?



서울과 대구의 1년간 온도 차이.


대구를 기준으로 서울의 평균일일기온을 비교했다.

꺾은선 그래프 데이터의 특성상, 온도차가 눈에 들어오지 않는다. 평균일일기온이라는건, 하루마다 특정 지역이 더 덥고 더 춥고가 바뀌는 것 같고, 그렇기 때문에 두 지역의 온도차를 비교해보기에는 무리가 있지 않을까 싶다.


image-20210331044201299

이번에는, 연단위가 아닌, 계절을 기준으로 나누어 꺾은선 그래프를 그려보도록 했다.


import matplotlib.pyplot as plt
import csv
import sys

daeguf = open('..\daegu.csv')
seoulf = open('..\seoul.csv')

data_d = csv.reader(daeguf)
data_s = csv.reader(seoulf)
next(data_d)
next(data_s)

arr_d = [[],[],[],[]]
arr_s = [[],[],[],[]]

final_d = [[],[],[],[]]
final_s = [[],[],[],[]]



year = -1
month = -1

for row in data_d : 
    year = int(row[0].split('-')[0])
    month = int(row[0].split('-')[1])
    if year == 2020 :
        if row[2] == '' :
            row[2] = '0'
        if month == 12 or month <= 2 :
            arr_d[0].append(row)
        elif month >= 3 and month <= 5 :
            arr_d[1].append(row)
        elif month >= 6 and month <= 8 :
            arr_d[2].append(row)
        else :
            arr_d[3].append(row)

for row in data_s : 
    year = int(row[0].split('-')[0])
    month = int(row[0].split('-')[1])
    if year == 2020 :
        if row[2] == '' :
            row[2] = '0'
        if month == 12 or month <= 2 :
            arr_s[0].append(row)
        elif month >= 3 and month <= 5 :
            arr_s[1].append(row)
        elif month >= 6 and month <= 8 :
            arr_s[2].append(row)
        else :
            arr_s[3].append(row)

for i in range(0, 4) :
    arr = arr_d[i]
    for row in arr :
        final_d[i].append(float(row[2]))

for i in range(0, 4) :
    arr = arr_s[i]
    for row in arr :
        final_s[i].append(float(row[2]))

temp_diff = [[],[],[],[]]

for i in range(0,4) :
    for j in range(0, len(final_d[i])) :
        temp_diff[i].append(final_d[i][j] - final_s[i][j])

plt.title('daegu - seoul average temp : spring')
plt.plot(temp_diff[1])
plt.show()

plt.title('daegu - seoul average temp : summer')
plt.plot(temp_diff[2])
plt.show()

plt.title('daegu - seoul average temp : fall')
plt.plot(temp_diff[3])
plt.show()

plt.title('daegu - seoul average temp : winter')
plt.plot(temp_diff[0])
plt.show()

print(final_d[0])
print('\n')
print(final_s[0])

데이터를 계절별로 꺾은선 그래프로 나타내니, 훨씬 확연하게 데이터가 보임을 알 수 있다.

대체적으로 대구의 온도가 높게 나옴을 알 수 있으나,

어떤 경우에는 서울의 온도가 더 높은 경우가 있었지만, 경향을 보았을 때는, 대구가 대체적으로 서울의 온도보다 더 높았다.

꺾은선 그래프의 대구-서울 온도차가 확연하게 드러나지 않는다면, box plot으로 데이터를 표현해도 되겠다.

2020년 사계절 그래프

image-20210331052513559image-20210331052529968image-20210331052544544image-20210331052604147image-20210331054647399image-20210331054703086image-20210331054711926image-20210331054722317

대략 대구의 기온이 서울의 기온보다 높음이 보인다.



2020년과 1940년 서울 기온 변화.


평균 기온으로 비교해봤다.

단순 꺾은선 그래프로 봤을때는, 별 변화가 없어보인다.

image-20210331074328939

만약, 여름만 놓고 본다면?

image-20210331074516841

대체적으로 여름에는 2020년의 기온이 높아보이지만, 1960년의 기온이 높은 때도 장기적으로 존재했다.


평균기온의 결과와 최고기온의 결과는 다른가?

당장 최고기온만 놓고 봐도 위 그래프와 비슷한 것을 알 수 있었다.

1960년만 위의 그래프 양상을 띄는 것일까?


image-20210331074826644image-20210331075019754

음.. 솔직히 잘 모르겠다.

1960년대와 2020년의 최고기온은 살짝 높다면 높다고 할수는 있지만, 지구온난화로 크게 기온이 변한것 같지는 않다.


boxplot으로 바꿔서 살펴보면 좀 다르지 않을까.

image-20210331075230029image-20210331075304270

별 다를게 없어보이지 않는가?

특이점이라면 1960년대에는 기온이 좀 낮고, 그 외에는 변한건 딱히 없어보인다.

1965년보다 2020년의 온도가 살짝 상향평준화된 감이 없지않아 있다.

그 외에는 딱히...? 달라진것은 없어보인다.



결론 : 1960년과 2020년의 기온은 평균적으로 정말 적게 변화했지만, 그 변화가 환경에 영향을 미치는지는 모른다.


인구 공공 데이터


인구 공공데이터 중 인구통계 데이터로 어떤 작업을 할까.

['XX도 XX시 XX동(1111111111)', '35,737', '35,737', '166', '187', '212', '293', '387', '485', '540', '600', '692', '695', '794', '677', '710', '750', '688', '631', '596', '625', '588', '501', '512', '482', '403', '362', '378', '357', '334', '330', '269', '320', '283', '278', '318', '269', '307', '375', '406', '512', '676', '739', '851', '914', '849', '858', '886', '966', '889', '892', '824', '824', '781', '683', '587', '508', '450', '416', '406', '314', '313', '310', '324', '280', '221', '216', '223', '198', '165', '145', '159', '114', '117', '123', '120', '130', '103', '87', '91', '80', '91', '85', '61', '51', '40', '52', '43', '31', '29', '26', '28', '14', '6', '7', '6', '4', '6', '2', '4', '1', '2', '0', '3']

이렇게 정보를 뽑아 낼 수 있는데, 추후에 어떤 정보를 뽑아낼 수 있고, 어떤 데이터를 분석할 것인가?


42 관련 작업 :

  • 3명과 cub 평가
  • 동료와 cub에 대한 토론

'2021 > 일일 기록' 카테고리의 다른 글

2021-04-05 (월) : 데이터 분석  (0) 2021.04.06
2021-04-02(금) : 데이터 분석  (0) 2021.04.02
2021-03-30 : 데이터분석  (0) 2021.03.30
20210321(일) : cub 진행상황  (0) 2021.03.22
20210319(금) : cub 진행 상황  (0) 2021.03.20
Comments