alexa前100萬網站列表下載與應用
2016-11-14 at 03:32 下午 kk1、直接上結果:
alexa前100萬網站列表下載:
http://s3.amazonaws.com/alexa-static/top-1m.csv.zip
2、在哪里找到這個列表的
https://support.alexa.com/hc/en-us/articles/200449834-Does-Alexa-have-a-list-of-its-top-ranked-websites
3、找的方法
用google查詢 site:alexa.com top-1m.csv.zip
4、這個列表有什么用?
(1)例子1:判斷域名應用率,國內域名應用率
- 先把國內經常會用的域名后綴列出來:com、cn、com.cn、net、net、gov.cn
- 從列表中篩選出這些域名
- python爬蟲遍歷,再次確認他們語言是中文
- 再拆分后綴,統計數據,計算占比
- 一直在吹噓的某些泡沫后綴,其實可以完全不計了,米農要跳過這些泡沫,不要玩。也可以看前綴,看看有那些優秀的網站用的是什么域名前綴,還是否有這樣的前綴機會。同時也可以找到優秀域名將來可能會啟用的域名,提前布局。當然還有一種域名就更牛了,直接是行業詞,例如geyan.com xiaohua.com 或者大流量站,上升流量站還沒有收購終端域名,都值得提前布局。
(2)例子2:挖行業詞庫
- 如例子1找到這些中文站,爬蟲抓取標題
- Search標題的核心詞,舉例:手表,就搜索“表”按alexa排序,牛叉的行業站就出來了
- python遍歷愛站關鍵詞,就是行業詞庫了
更多應用場景,等你來開發