CNBlog首頁博客熱度分析
本文github地址
前言
每個博客園的園友或許都會有這種經歷:自己辛辛苦苦,認認真真的寫了篇博客,然后滿心歡喜的發到了博客園首頁,當你以為大功告成坐等點擊量暴表的時候,卻發現自己的博文根本無人問津。那將是何等的痛苦:(
不要再自我懷疑,不要再自怨自艾,博客不火,不一定是博文內容不夠嚴謹深入,也不一定是你能力不足,而可能僅僅是因為你選擇了錯誤的發表時機。
本文基于博客園近3個月4000篇首頁博文,運用大數據分析,機器學習,文本挖掘等先進技術,深入而細致的剖析決定博客熱度的若干因素,讓您從此也能寫出精湛的技術博客,成為博客園的技術達人(做夢到此結束...)。
技術實現
經分析,博客園首頁網頁結構比較簡潔,通過爬蟲抓取http://www.cnblogs.com/sitehome/p/your_page_num 連接下的內容,即可獲取所有首頁博文。本文采用的是jsoup這個Java HTML Parser進行的網頁抓取。博客園頁碼只支持到200,每頁20篇,也就是最多能夠抓取4000篇首頁博客。對數據進行清洗后存儲到文件,供下一步分析。
由于數據量并不大,分析數據采用的是excel表格。不要覺得low,用表格來處理小規模數據,效果不亞于數據庫。
分析結果
博友們一天之內喜歡什么時候發博客?
哪個時間段發的博客更容易火?

我們對一天中不同時間段發表的博客進行統計,然后計算每個小時內的博客發表量,以及當前這個小時每篇博客的平均熱度。這里的熱度是用來衡量一篇博文受歡迎程度的綜合指標,計算公式為:
hot=(recommend*10+comment*5+view)
為避免離群點,當hot值超過1600時則按1600處理。上圖中標注的熱度(紅色線)為對文章熱度求平均之后,然后做歸一化(avg_hot/800*100%)
之后的結果。
從上圖可以明顯看出,一天之內有三個時間段大家比較愛發博客,分別是10:00左右,16:00左右和22:00左右,這分別對應的是上午上班時間,下午上班時間,和晚上加班時間。一天內也有三個時間段大家不怎么愛發博客,分別是1:00~7:00,12:00左右,19:00左右,分別對應大家的睡覺時間,午飯時間和下班時間。
什么時候發的博客更容易火呢?拋開凌晨那段時間不提(因為博客量太少),上圖可以看出,早上8:00左右發的博客熱度最高,中午12:00左右和晚上22:00左右也是個熱度小高峰。
對比上圖中的藍線和紅線,我們發現博客發表高峰和訪問高峰(熱度評估主要基于訪問量,所以熱度表示了訪問量的趨勢)并不總是成比例。具體表現如下:
- 早上8:00是一天中訪問量最高的時候,但博客發表并不是很多(上班路上大家刷刷博客?)
- 上午10:00左右是博客發表的高峰,但訪問量卻呈下降趨勢(忙著寫自己的博客而忘記看別人的博客)
- 中午12:00左右訪問量很高,但博客發表量卻出奇的低(吃飯的時候不寫博客,倒是可以手機刷刷博客)
大家一周之內喜歡在哪一天發博客?
一周之內哪一天發的博客更容易火?

我們對一周中不同天發表的博客進行統計,然后計算每天的博客發表量,以及當天每篇博客的平均熱度。
通過上圖可以看出:
- 星期一和星期二是博客發表的熱潮(上班前兩天不但工作積極,寫博客也很積極)
- 之后一直下降,到周六達到最低谷(終于盼來周末,誰還寫博客!)。
- 博客熱度跟發表量基本吻合,可見工作日大家不但工作熱情高,寫博客和讀博客的熱情都不低。
- 到了周末,寫博客的人少,看博客的人更少!
- 周四博客閱讀量出現了回升,你可以幫忙想想是為什么。
上圖意味著,周末還是老老實實的出去玩吧,即使寫了博客也不會有人看的。特別是周六,千萬不要在周六發表技術博客,切記切記!
總結
經過以上分析,我們得出結論:為了避免吃力不討好的情況,發表博客一定要認準時機。
- 博客想要火,就不能睡懶覺,因為你要在8:00鐘左右發表博客。
- 更不能吃午飯,因為你還要在12:00左右發表博客。
- 當然,為了犒勞以下忙碌一周的你,周末切記不要苦逼的寫博客,因為即使寫得再認真也不會有人看。
- 周一,周二以及周四,才是您發表博客的黃道吉日。
以上四項基本原則,一定要牢記于心,切記不要輕易違背。否則沒有點擊量,你的博客還不如寫道日記本里。
未來的工作
博客熱度不僅跟發表時間有關,當然也跟博客內容,以及博主的個人影響力等諸多因素相關。希望各位博友能夠加入更多分析。
本文用到的所有代碼和數據,都已經放到了博主github上,歡迎各位博友切磋。
posted on 2016-05-11 09:02
CarpenterLee 閱讀(1407)
評論(8) 編輯 收藏