设为首页 收藏本站
查看: 2985|回复: 0

脚本应用之一: 查找并删除重复文件

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2016-4-18 09:50:51 | 显示全部楼层 |阅读模式
作用:查找指定目录(一个或多个)及子目录下的所有重复文件,分组列出,并可手动选择或自动随机删除多余重复文件,每组重复文件仅保留一份。(支持文件名有空格,例如:"file  name" 等)


实现:find遍历指定目录查找所有文件,并对找到的所有文件进行MD5校验,通过比对MD5值分类处理重复文件。

不足:  find 遍历文件耗时;  
      MD5校验大文件耗时;
      对所有文件校验比对耗时(可考虑通过比对文件大小进行第一轮的重复性筛选,此方式针对存放大量大文件的目录效果明显,本脚本未采用);

演示:
wKiom1cMa8-j8vdmAACUSNJMCks146.png
注释:
脚本执行过程中显示MD5校验过程,完毕后,统计信息如下:
Files: 校验的文件总数
Groups: 重复文件组的数量
Size:此处统计的大小为,多余文件的总大小,即将要删除的多余的重复文件的大小,换句话说就是,删除重复文件后,磁盘空间会节省的空间。

可在“Show detailed information ?”提示后,按键“y”,进行重复文件组的查看,以便确认,也可直接跳过,进入删除文件方式的选择菜单:
删除文件方式有两种,一种是手动选择方式(默认的方式),每次列出一组重复文件,手动选择欲留下的文件,其他文件将会被删除,若没有选择 则默认保留列表的第一个文件,演示如下:
wKiom1cMeu-BIb4FAAC-lT0tjn0614.png

另一种方式是自动选择方式,默认保留每组文件的第一个文件,其他重复文件自动删除。(为防止删除重要文件,建议使用第一种方式),演示如下:
QQ截图20160418094957.png
支持文件名空格的情况,演示如下:
QQ截图20160418095006.png

代码专区:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
#!/bin/bash
#Author: LingYi
#Date: 2016.4.12
#Func: Delete duplicate files
#EG  : $0 [ DIR1 DIR2 ... DIRn ]

#定义临时文件,自行确定用户的写入权限
md5sum_result_log="/tmp/$(date +%Y%m%d%H%M%S)"

echo -e "Md5suming ..."

#遍历目录,校验文件并做输出和写入临时文件
find $@ -type f -print0 | xargs -0 -I {} md5sum {} | tee -a $md5sum_result_log
files_sum=$(cat $md5sum_result_log | wc -l)

#定义数组,此数组的索引为文件的MD5值,元素为文件名称,因此需要提前声明(需要bash支持)
declare -A md5sum_value_arry

while read md5sum_value md5sum_filename
do
    #为了支持文件名有空格的情况,使用“+”代替空格符作为分隔个个文件名的分隔符
    #因此,文件名若带有“+",则脚本执行结果会有问题,需要用户删除文件时,选择手动选择模式以便确认
    md5sum_value_arry[$md5sum_value]="${md5sum_value_arry[$md5sum_value]}+$md5sum_filename"
    (( _${md5sum_value}+=1 ))
done <$md5sum_result_log


#此循环实现统计重复文件的组数据并对多余文件的大小做统计
groups_sum=0
repfiles_size=0
for md5sum_value_index in ${!md5sum_value_arry[@]}
do
    if eval [[ ${_${md5sum_value_index}} -gt 1 ]]; then
        let groups_sum++
        need_print_indexes="$need_print_indexes $md5sum_value_index"
        eval repfile_sum=$(( $_$md5sum_value_index - 1 ))
        repfile_size=$( ls -lS "`echo ${md5sum_value_arry[$md5sum_value_index]}|awk -F'+' '{print $2}'`" | awk '{print $5}')
        repfiles_size=$(( repfiles_size + repfile_sum*repfile_size ))
    fi
done

#输出统计信息
echo -e "Files: $files_sum    Groups: $groups_sum   
Size: ${repfiles_size}B $((repfiles_size/1024))K $((repfiles_size/1024/1024))M"
[[ $groups_sum -eq 0 ]] && exit

#用户选择是否查看重复文件的分组详情。
read -n 1 -s -t 300 -p 'Show detailed information ?' user_ch
[[ $user_ch == 'n' ]] && echo || {
    [[ $user_ch == 'q' ]] && exit
    for print_value_index in $need_print_indexes
    do
        echo -ne "$((++i)) "
        eval echo -ne "\$print_value_index [ $_${print_value_index} ]:\"
        echo ${md5sum_value_arry[$print_value_index]} | tr '+' ''
    done | more
}

#用户选择删除文件的方式
echo -e "Manual Selection by default !"
echo -e " 1 Manual selection 2 Random selection"
echo -ne ""
read -t 300 USER_CH
echo -ne ""
[[ $USER_CH == 'q' ]] && exit
[[ $USER_CH -ne 2 ]] && USER_CH=1 || {
    echo -ne "WARNING: you have choiced the Random Selection mode, files will be deleted at random !Are you sure ?"
    read -t 300  yn
    [[ $yn == 'q' ]] && exit
    [[ $yn != 'y' ]] && USER_CH=1
}

#根据用户选择的方式,进行处理
echo -e "Warn: keep the first file by default."
for exec_value_index in $need_print_indexes
do
    #此循环获取包含即将删除的文件的数组
    for((i=0,j=2;i<$(echo ${md5sum_value_arry[$exec_value_index]} | grep -o '+' | wc -l); i++,j++))
    do
        file_choices_arry="$(echo ${md5sum_value_arry[$exec_value_index]}|awk -F'+' '{print $J}' J=$j)"
    done
     
    eval file_sum=$_$exec_value_index
    if [[ $USER_CH -eq 1 ]]; then
        #如果用户选择手动模式,则循环输出重复文件分组,并一一处理
        echo -e "$exec_value_index"
        for((j=0; j<${#file_choices_arry[@]}; j++))
        do
            echo "[ $j ]  ${file_choices_arry[j]}"
        done
        read -p "Number of the file you want to keep: " num_ch
        [[ $num_ch == 'q' ]] && exit
        seq 0 $((${#file_choices_arry[@]}-1)) | grep -w $num_ch &>/dev/null || num_ch=0
    else
        num_ch=0
    fi
    #如果用户选择自动删除方式,则直接删除多余重复文件
    for((n=0; n<${#file_choices_arry[@]}; n++))
    do
        [[ $n -ne $num_ch ]] && {
            echo -ne "Deleting file \" ${file_choices_arry[n]} \" ... "
            rm -f "${file_choices_arry[n]}"  
            [[ $? -eq 0 ]] && echo -e "OK" || echo -e "FAIL"
            echo -ne ""
        }
    done
done   





代码下载链接 chkrepfiles.rar (1.31 KB, 下载次数: 6)

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-205474-1-1.html 上篇帖子: 脚本游戏之三: 坦克大战 下篇帖子: 脚本应用之二: 聊天工具
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表