脚本应用之一：查找并删除重复文件

2211we · 发表于 2016-4-18 09:50:51

作用：查找指定目录（一个或多个）及子目录下的所有重复文件，分组列出，并可手动选择或自动随机删除多余重复文件，每组重复文件仅保留一份。（支持文件名有空格，例如："file  name" 等）

实现：find遍历指定目录查找所有文件，并对找到的所有文件进行MD5校验，通过比对MD5值分类处理重复文件。

不足：  find 遍历文件耗时；
   MD5校验大文件耗时；
   对所有文件校验比对耗时（可考虑通过比对文件大小进行第一轮的重复性筛选，此方式针对存放大量大文件的目录效果明显，本脚本未采用）；

演示：

注释：
脚本执行过程中显示MD5校验过程，完毕后，统计信息如下：
Files: 校验的文件总数
Groups: 重复文件组的数量
Size：此处统计的大小为，多余文件的总大小，即将要删除的多余的重复文件的大小，换句话说就是，删除重复文件后，磁盘空间会节省的空间。

可在“Show detailed information ?”提示后，按键“y”，进行重复文件组的查看，以便确认，也可直接跳过，进入删除文件方式的选择菜单：
删除文件方式有两种，一种是手动选择方式（默认的方式），每次列出一组重复文件，手动选择欲留下的文件，其他文件将会被删除，若没有选择则默认保留列表的第一个文件，演示如下：

另一种方式是自动选择方式，默认保留每组文件的第一个文件，其他重复文件自动删除。（为防止删除重要文件，建议使用第一种方式），演示如下：
QQ截图20160418094957.png

支持文件名空格的情况，演示如下：
QQ截图20160418095006.png

代码专区：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107

#!/bin/bash
#Author: LingYi
#Date: 2016.4.12
#Func: Delete duplicate files
#EG  : $0 [ DIR1 DIR2 ... DIRn ]

#定义临时文件，自行确定用户的写入权限
md5sum_result_log="/tmp/$(date +%Y%m%d%H%M%S)"

echo -e "[1;31mMd5suming ...[0m"

#遍历目录，校验文件并做输出和写入临时文件
find $@ -type f -print0 | xargs -0 -I {} md5sum {} | tee -a $md5sum_result_log
files_sum=$(cat $md5sum_result_log | wc -l)

#定义数组，此数组的索引为文件的MD5值，元素为文件名称，因此需要提前声明（需要bash支持）
declare -A md5sum_value_arry

while read md5sum_value md5sum_filename
do
#为了支持文件名有空格的情况，使用“+”代替空格符作为分隔个个文件名的分隔符
#因此，文件名若带有“+",则脚本执行结果会有问题，需要用户删除文件时，选择手动选择模式以便确认
md5sum_value_arry[$md5sum_value]="${md5sum_value_arry[$md5sum_value]}+$md5sum_filename"
(( _${md5sum_value}+=1 ))
done <$md5sum_result_log

#此循环实现统计重复文件的组数据并对多余文件的大小做统计
groups_sum=0
repfiles_size=0
for md5sum_value_index in ${!md5sum_value_arry[@]}
do
if eval [[ ${_${md5sum_value_index}} -gt 1 ]]; then
      let groups_sum++
      need_print_indexes="$need_print_indexes $md5sum_value_index"
      eval repfile_sum=$(( $_$md5sum_value_index - 1 ))
      repfile_size=$( ls -lS "`echo ${md5sum_value_arry[$md5sum_value_index]}|awk -F'+' '{print $2}'`" | awk '{print $5}')
      repfiles_size=$(( repfiles_size + repfile_sum*repfile_size ))
fi
done

#输出统计信息
echo -e "[1;31mFiles: $files_sum Groups: $groups_sum
Size: ${repfiles_size}B $((repfiles_size/1024))K $((repfiles_size/1024/1024))M[0m"
[[ $groups_sum -eq 0 ]] && exit

#用户选择是否查看重复文件的分组详情。
read -n 1 -s -t 300 -p 'Show detailed information ?' user_ch
[[ $user_ch == 'n' ]] && echo || {
[[ $user_ch == 'q' ]] && exit
for print_value_index in $need_print_indexes
do
      echo -ne "[1;35m$((++i)) [0m"
      eval echo -ne "\[1;34m$print_value_index [ $_${print_value_index} ]:\[0m"
      echo ${md5sum_value_arry[$print_value_index]} | tr '+' ''
done | more
}

#用户选择删除文件的方式
echo -e "Manual Selection by default !"
echo -e " 1 Manual selection 2 Random selection"
echo -ne "[1;31m"
read -t 300 USER_CH
echo -ne "[0m"
[[ $USER_CH == 'q' ]] && exit
[[ $USER_CH -ne 2 ]] && USER_CH=1 || {
echo -ne "[31mWARNING: you have choiced the Random Selection mode, files will be deleted at random !Are you sure ?[0m"
read -t 300  yn
[[ $yn == 'q' ]] && exit
[[ $yn != 'y' ]] && USER_CH=1
}

#根据用户选择的方式，进行处理
echo -e "[31mWarn: keep the first file by default.[0m"
for exec_value_index in $need_print_indexes
do
#此循环获取包含即将删除的文件的数组
for((i=0,j=2;i<$(echo ${md5sum_value_arry[$exec_value_index]} | grep -o '+' | wc -l); i++,j++))
do
      file_choices_arry="$(echo ${md5sum_value_arry[$exec_value_index]}|awk -F'+' '{print $J}' J=$j)"
done

eval file_sum=$_$exec_value_index
if [[ $USER_CH -eq 1 ]]; then
      #如果用户选择手动模式，则循环输出重复文件分组，并一一处理
      echo -e "[1;34m$exec_value_index[0m"
      for((j=0; j<${#file_choices_arry[@]}; j++))
      do
         echo "[ $j ]  ${file_choices_arry[j]}"
      done
      read -p "Number of the file you want to keep: " num_ch
      [[ $num_ch == 'q' ]] && exit
      seq 0 $((${#file_choices_arry[@]}-1)) | grep -w $num_ch &>/dev/null || num_ch=0
else
      num_ch=0
fi
#如果用户选择自动删除方式，则直接删除多余重复文件
for((n=0; n<${#file_choices_arry[@]}; n++))
do
      [[ $n -ne $num_ch ]] && {
         echo -ne "[1mDeleting file \" ${file_choices_arry[n]} \" ... [0m"
         rm -f "${file_choices_arry[n]}"
         [[ $? -eq 0 ]] && echo -e "[1;32mOK" || echo -e "[1;31mFAIL"
         echo -ne "[0m"
      }
done
done

代码下载链接

chkrepfiles.rar (1.31 KB, 下载次数: 6)

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

脚本应用之一：查找并删除重复文件

浏览过的版块

扫码加入运维网微信交流群

脚本应用之一： 查找并删除重复文件

浏览过的版块

脚本应用之一：查找并删除重复文件