撸linux


Linux下用各种工具软件分析alexa前100万网站域名

下载alexa每日更新的top-1m.csv.zip

Alexa官网手动下载top-1m.csv.zip,或直接运行wget http://s3.amazonaws.com/alexa-static/top-1m.csv.zip

如果发现amazonaws.com被屏蔽了,建议下载一个柿油门,在vbox虚拟机里运行之,破墙下载top-1m.csv.zip

解压top-1m.csv.zip,并重命名

unzip top-1m_20161105.csv.zip

mv top-1m.csv top1m #反正csv也就是一个文本文件,去掉后缀名算了

找出.cn结尾(包括.com.cn,.net.cn等)的中国域名

sed -n -e "s/\,/ /g" -e "/\.cn$/p" top1m

统计.cn结尾(包括.com.cn,.net.cn等)的中国域名的个数

sed -n "/\.cn$/p" top1m | wc -l

找出.com.cn结尾的中国域名

sed -n -e "s/\,/ /g" -e "/\.com\.cn$/p" top1m

统计.com.cn结尾的中国域名的个数

sed -n "/\.com\.cn$/p" top1m | wc -l

找出纯.cn结尾(排除.com.cn,.net.cn等)的中国域名

sed -n -e "s/\,/./g" -e "/\.cn$/p" top1m | awk -F '.' 'NF==3{print $1" "$2"."$3}'

统计纯.cn结尾(排除.com.cn,.net.cn等)的中国域名的个数

sed -n -e "s/\,/./g" -e "/\.cn$/p" top1m | awk -F '.' 'NF==3{print $1" "$2"."$3}' | wc -l

列出前10000名中.cn结尾(包括.com.cn,.net.cn等)的中国域名

sed -n -e "s/\,/./g" -e "/\.cn$/p" top1m | awk -F '.' '$1<10001 {if(NF==3){print $1" "$2"."$3}else if(NF==4){print $1" "$2"."$3"."$4}}'

列出前50000名中纯.cn结尾(排除.com.cn,.net.cn等)的中国域名

sed -n -e "s/\,/./g" -e "/\.cn$/p" top1m | awk -F '.' 'NF==3 && $1<50001{print $1" "$2"."$3}'

找出.cc结尾的顶级域名(排除像abcd.abc.cc这样的域名)

sed -n -e "s/^.*\,//g" -e "/\.cc$/p" top1m|awk -F '.' 'NF==2{print $1"."$2}'
#解释:-e "s/^.*\,//g"表示先替换掉开头的类似“998815,”之类的序号
#解释:-e "/\.cc$/p表示打印.cc结尾的行
#解释:awk -F '.' 'NF==2{print $1"."$2}'表示以点号分割,找出只有2列字段的行,并打印之

找出前缀为四个字符,以.cc结尾的顶级域名(排除像abcd.abc.cc这样的域名)

sed -n -e "s/^.*\,//g" -e "/\.cc$/p" top1m|awk -F '.' 'NF==2 && length($1)==4{print $1"."$2}'
#解释:NF==2 && length($1)==4表示同时满足两个条件:字段列数为2;第一个字段的长度为4。

找出前缀为四个字母,以.cc结尾的顶级域名(排除像abcd.abc.cc这样的域名)

sed -n -e "s/^.*\,//g" -e "/\.cc$/p" top1m|awk -F '.' 'NF==2 && length($1)==4 && $1~/^[a-z]+$/{print $1"."$2}'
#解释:NF==2 && length($1)==4 && $1~/^[a-z]+$/表示同时满足3个条件:字段列数为2;第一个字段的长度为4;第一个字段只包含字母

找出前缀为四个汉语拼音声母,以.cc结尾的顶级域名(排除像abcd.abc.cc这样的域名)

sed -n -e "s/^.*\,//g" -e "/\.cc$/p" top1m|awk -F '.' 'NF==2 && length($1)==4 && $1~/^[bpmfdtnlgkhjqxrzcsyw]+$/{print $1"."$2}'
#解释:NF==2 && length($1)==4 && $1~/^[bpmfdtnlgkhjqxrzcsyw]+$/表示同时满足3个条件:字段列数为2;第一个字段的长度为4;第一个字段只包含汉语拼音声母

找出前缀为四个汉语拼音声母,以.cc结尾的顶级域名(排除像abcd.abc.cc这样的域名),并且展示排名

sed -n -e "s/\,/./g" -e "/\.cc$/p" top1m|awk -F '.' 'NF==3 && length($2)==4 && $2~/^[bpmfdtnlgkhjqxrzcsyw]+$/{print $1" "$2"."$3}'

分析ctrl.cn的网站标题,以ctrl.cn为例

curl www.ctrl.cn | iconv -f `curl www.ctrl.cn|grep -o 'charset=.*"'|sed -e 's/charset=//g' -e 's/\"//g'|head -n 1` -t utf-8|grep '<title>'|sed -e 's/<title>//g' -e 's/<\/title>//g'

 

相关博文



发表评论

电子邮件地址不会被公开。