设为首页 收藏本站
查看: 936|回复: 0

[经验分享] 使用PHP对非法内容进行检查

[复制链接]

尚未签到

发表于 2017-4-10 10:05:38 | 显示全部楼层 |阅读模式
  使用PHP对非法内容进行检查
  * 作者:heiyeluren
* 时间:2006-01-23
* Blog:
http://blog.csdn.net/heiyeshuwu
  
【程序思路】
大致的思路比较弱智了,就是一个文件列表中保存了非法关键字的内容,一行一个,然后在程序中读取非法关键字跟用户输入内容进行正则匹配,如果匹配或者模糊匹配发现是非法关键字,则提示用户。关键字列表可能有普通的,只是不允许全字匹配的,使用精确匹配,还有一种就是绝对不能出现的,使用模糊匹配。
  
【实现思路】
使用了三个函数,一个是精确匹配函数、一个是模糊匹配函数,一个是调用这两个函数的接口函数,基本没有技术含量,使用正则,只是简单的实现,原来还考虑如果长期这样使用,那么就使用php来申请一块内存,把文件列表放进去,但是测试发现,其实如果小数据量的话,直接使用也没有太大问题,效率还比较高。遍历非法关键字列表的话,最好能够使用一些诸如二分法之类的算法来遍历,这样能够最快速的找到非法内容,当然,对关键字进行排序是比较麻烦的,我尝试了,对UTF-8和GBK的排序结果非常奇怪,有兴趣的可以研究一下。
提示:PHP中的“Semaphore, Shared Memory and IPC Functions”和“Shared Memory Functions”两组函数能够申请共享内存,有兴趣的可以去研究一下。
  
【程序代码】
  //======================================================================
//
// 函数:string_filter($string, $match_type=1)
// 功能:过滤非法内容
// 参数:
// $string需要检查的字符串
// $match_type匹配类型,1为精确匹配, 2为模糊匹配,默认为1
//
// 返回:有非法内容返回True,无非法内容返回False
// 其他:非法关键字列表保存在txt文件里, 分为普通非法关键字和严重非法关键字两个列表
// 作者:heiyeluren
// 时间:2006-1-18
//
//======================================================================
function lib_lawless_string_filter($string, $match_type=1)
{
//字符串空直接返回为非法
$string = trim($string);
if (empty($string))
{
return false;
}
//获取重要关键字列表和普通关键字列表
$common_file= "common_list.txt";//通用过滤关键字列表
$signify_file= "signify_list.txt";//重要过滤关键字列表
  //如果任何列表文件不存在直接返回false,否则把两个文件列表读取到两个数组里
if (!file_exists($common_file) || !file_exists($signify_file))
{
return false;
}
$common_list= file($common_file);
$signify_list= file($signify_file);
  //精确匹配
if ($match_type == 1)
{
$is_lawless = exact_match($string, $common_list);
}
  //模糊匹配
if ($match_type == 2)
{
$is_lawless = blur_match($string, $common_list, $signify_list);
}

//判断检索结果数组中是否有数据,如果有,证明是非法的
if (is_array($is_lawless) && !empty($is_lawless))
{
return true;
}
else
{
return false;
}
}
  //---------------------
// 精确匹配,为过滤服务
//---------------------
function exact_match($string, $common_list)
{
$string = trim($string);
$string = lib_replace_end_tag($string);
  //检索普通过滤关键字列表
foreach($common_list as $block)
{
$block = trim($block);
if (preg_match("/^$string$/i", $block))
{
$blist[] = $block;
}
}
//判断有没有过滤内容在数组里
if (!empty($blist))
{
return array_unique($blist);
}
  return false;
}
  //----------------------
// 模糊匹配,为过滤服务
//----------------------
function blur_match($string, $common_list, $signify_list)
{
$string = trim($string);
$s_len = strlen($string);
$string = lib_replace_end_tag($string);
  //检索普通过滤关键字列表
foreach($common_list as $block)
{
$block = trim($block);
if (preg_match("/^$string$/i", $block))
{
$blist[] = $block;
}
}
//检索严重过滤关键字列表
foreach($signify_list as $block)
{
$block = trim($block);
if ($s_len>=strlen($block) && preg_match("/$block/i", $string))
{
$blist[] = $block;
}
}
//判断有没有过滤内容在数组里
if (!empty($blist))
{
return array_unique($blist);
}
  return false;
}
  //--------------------------
// 替换HTML尾标签,为过滤服务
//--------------------------
function lib_replace_end_tag($string)
{
if (empty($string)) return false;
$string = htmlspecialchars($string);
$string = str_replace( '/', "", $string);
$string = str_replace("\\", "", $string);
  return $string;
  //HTML标签,可以作为扩展过滤
/*
$tags = array("/html", "/head", "/body", "/div", "/span","/DOCTYPE", "/title", "/link", "/meta", "/style", "/p", "/h1,", "/h2,", "/h3,", "/h4,", "/h5,", "/h6", "/strong", "/em", "/abbr", "/acronym", "/address", "/bdo", "/blockquote", "/cite", "/q", "/code", "/ins", "/del", "/dfn", "/kbd", "/pre", "/samp", "/var", "/br", "/a", "/img", "/area", "/map", "/object", "/param", "/ul", "/ol", "/li", "/dl", "/dt", "/dd", "/table", "/tr", "/td", "/th", "/tbody", "/thead", "/tfoot", "/col", "/colgroup", "/caption", "/form", "/input", "/textarea", "/select", "/option", "/optgroup", "/button", "/label", "/fieldset", "/legend", "/script", "/noscript", "/b", "/i", "/tt", "/sub", "/sup", "/big", "/small", "/hr" );
*/
}
  
wirte by heiyeluren
2006-01-23

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-362762-1-1.html 上篇帖子: [转] 贴Snoopy.class.php代码学习参考 下篇帖子: php socket模拟POST GET请求 fsockopen版
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表