這篇我講解一下如將統計資料做量化的圖表比較分析這樣比較有助於理解
(每日確診數比較:台灣,新加坡,南韓,中國大陸)上一篇有提到如何將全球COVID-19統計資料抓取下來並存在data farm,例如我取出了台灣,
新加坡,南韓,中國大陸的4個國家最近365天的資料,可以用 tail(data) 來看最近的6筆也就是近6天的統計資料。
有了這些data frame 就可以用圖表方式來呈現要表示的資料,如果我要比較這4個國家的死亡率(Mortality_Rate)程式如下:
ggplot(taiwan.df, aes(dates, mortality_rate)) +
geom_line(aes(color="Taiwan")) +
geom_line(data=singapore.df, aes(color="Singapore")) +
geom_line(data=korea.df, aes(color="Korea")) +
geom_line(data=china.df, aes(color="China")) +
guides(colour = guide_legend("Country")) +
ggtitle('Mortality Rate Taiwan vs Singapore vs Korea vs China') +
xlab('') +
ylab('')
輸出:(新加坡死亡率很低)
(死亡率比較圖)
如果要比較總確診數程式如下:(Y軸我除以1000以K為單位)
ggplot(taiwan.df, aes(dates, cases/10^3)) +
geom_line(aes(color="Taiwan")) +
geom_line(data=singapore.df, aes(color="Singapore")) +
geom_line(data=korea.df, aes(color="Korea")) +
geom_line(data=china.df, aes(color="China")) +
guides(colour = guide_legend("Country")) +
ggtitle('Total Case Taiwan vs Singapore vs Korea vs China') +
xlab('') +
ylab('(K)')
輸出:(可以看到韓國確診數非常陡峭)
(總確診數比較圖)
如果比較每日確診數程式如下:
#Daily Case
ggplot(taiwan.df, aes(dates, daily)) +
geom_line(aes(color="Taiwan")) +
geom_line(data=singapore.df, aes(color="Singapore")) +
geom_line(data=korea.df, aes(color="Korea")) +
geom_line(data=china.df, aes(color="China")) +
guides(colour = guide_legend("Country")) +
ggtitle('Daily Case Taiwan vs Singapore vs Korea va China') +
xlab('') +
ylab('')
輸出:
(台灣在五月有很明顯的上升趨勢,韓國在2021/1月高峰後有下降,4月後明顯有增加趨勢,新加坡在2020/8後控制得很不錯)
(每日確診數比較圖)
沒有留言:
張貼留言