SpringBoot使用前缀树过滤敏感词的方法是什么

SpringBoot使用前缀树过滤敏感词的方法是什么

这篇文章跟大家分析一下“SpringBoot使用前缀树过滤敏感词的方法是什么”。内容详细易懂,对“SpringBoot使用前缀树过滤敏感词的方法是什么”感兴趣的朋友可以跟着小编的思路慢慢深入来阅读一下,希望阅读后能够对大家有所帮助。下面跟着小编一起深入学习“SpringBoot使用前缀树过滤敏感词的方法是什么”的知识吧。

一、前缀树

一般设计网站的时候,会有问题发布或者是内容发布的功能,这些功能的有一个很重要的点在于如何实现敏感词过滤,要不然可能会有不良信息的发布,或者发布的内容中有夹杂可能会有恶意功能的代码片段,敏感词过滤的基本的算法是前缀树算法,前缀树也就是字典树,通过前缀树匹配可以加快敏感词匹配的速度。

前缀树又称为Trie、字典树、查找树。主要特点是:查找效率高,但内存消耗大;主要应用于字符串检索、词频统计、字符串排序等。

到底什么是前缀树?前缀树的功能是如何实现的?

举一个具体的例子:若有一个字符串"xwabfabcff",敏感词为"abc"、"bf"、"be",检测字符串,若有敏感词,则将敏感词替换为"*",实现一个算法。

前缀树的特点:

1. 跟结点为空结点,没有任何字符。

2. 除了根节点以外,每个结点只有一个字符。

3. 每个结点包含的子节点不相同。 例如,root的子节点本来有两个b,但我们只保留一个

4. 在每个敏感词的末尾结点做一个标记,表示从根节点到此节点组合成的字符串是一个敏感词,中间未被标记的结点和根节点中间的字符串不构成一个敏感词。

前缀树的算法逻辑:

1. 准备:我们需要三个指针,①指针指向前缀树,默认指向根节点; ②、③指针指向要检测的字符串(同向尺距法,②从头到尾走一遍,标记敏感词的开头,③随着②而动,标记敏感词的结尾),默认指向字符串的第一个字符。我们还需要一个存放检测结果的字符串(StringBuilder)。

2. ①访问树的第一层,发现没有'x',则②、③向下走一步,并将'x'存入StringBuilder字符串里。'w' 同理。

3. 此时②、③指向'a',①访问树的第一层,发现有'a',但'a'未被标记,所以不是敏感词,则把'a'存入StringBuilder字符串。然后②不动,①、③继续向下走,直至走到被标记的结点或者不匹配时,①归位,②向下走一步,③回到此时②指向的地方。重复以上步骤。

4. 若检测到敏感词,则在StringBuilder中存储"***",并使②跳过此敏感词,②、③共同指向原来③的下一个位置。

5. ②、③走到字符串的末尾时,检测完成。最终结果为"xwa******ff"。

二、敏感词过滤器

我们再开发项目时,需要开发出一个可复用的过滤敏感词的工具,成为敏感词过滤器,以便在项目中可以复用。

开发敏感词过滤器主要有以下三个步骤:

1. 定义前缀树

2. 根据敏感词,初始化前缀树

3. 编写过滤敏感词的方法

代码实现如下:

importorg.apache.commons.lang3.CharUtils;importorg.apache.commons.lang3.StringUtils;importorg.slf4j.Logger;importorg.slf4j.LoggerFactory;importorg.springframework.stereotype.Component;importjavax.annotation.PostConstruct;importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.util.HashMap;importjava.util.Map;@ComponentpublicclassSensitiveFilter{//记录日志privatestaticfinalLoggerlogger=LoggerFactory.getLogger(SensitiveFilter.class);//替换符privatestaticfinalStringREPLACEMENT="***";//初始化根节点privateTrieNoderootNode=newTrieNode();/***2.根据敏感词,初始化前缀树*/@PostConstruct//当容器在服务器启动时实例化此Bean,调用Bean的构造方法后,该方法就会被自动调用publicvoidinit(){try(//加载敏感词文件sensitive-words.txt是自建的存放敏感词的文件InputStreamis=this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");//字节流-->字符流-->字符缓冲流BufferedReaderreader=newBufferedReader(newInputStreamReader(is));){Stringkeyword;while((keyword=reader.readLine())!=null){//添加到前缀树,addKeyword为自定义的方法,将一个敏感词添加到前缀树中去this.addKeyword(keyword);}}catch(IOExceptione){logger.error("加载敏感词文件失败:"+e.getMessage());}}//封装方法:将一个敏感词添加到前缀树中去privatevoidaddKeyword(Stringkeyword){TrieNodetempNode=rootNode;for(inti=0;i<keyword.length();i++){charc=keyword.charAt(i);TrieNodesubNode=tempNode.getSubNode(c);if(subNode==null){//如果子节点中没有该字符,则以此字符初始化子节点,并装配到树中subNode=newTrieNode();tempNode.addSubNode(c,subNode);}//指向字节点,进入下一层循环tempNode=subNode;//设置结束标识if(i==keyword.length()-1){tempNode.setKeywordEnd(true);}}}/***3.检索并过滤敏感词*@paramtext待过滤的文本*@return过滤后的文本*/publicStringfilter(Stringtext){if(StringUtils.isBlank(text)){returnnull;}//指针①TrieNodetempNode=rootNode;//指针②intbegin=0;//指针③intposition=0;//存放结果StringBuildersb=newStringBuilder();while(position<text.length()){charc=text.charAt(position);//跳过符号if(isSymbol(c)){//若指针①处于根节点,将此符号计入结果,让指针②向下走一步if(tempNode==rootNode){sb.append(c);begin++;}//无论符号在未检测时出现还是正在检测时出现,指针③总是向下走一步//(未检测时和指针②一起向下走一步,检测时指针②不动,指针③向下走一步)position++;continue;}//检查下级节点tempNode=tempNode.getSubNode(c);if(tempNode==null){//以begin开头的字符串不是敏感词sb.append(text.charAt(begin));//进入下一个位置begin++;position=begin;//指针①归位,重新指向根节点tempNode=rootNode;}elseif(tempNode.isKeywordEnd()){//发现敏感词,将begin~position字符串替换掉sb.append(REPLACEMENT);//进入下一个位置position++;begin=position;//指针①归位,重新指向跟接待你tempNode=rootNode;}else{//检查下一个字符position++;}}//将最后一批字符计入结果:指针③比指针②先到中终点,且两者之间的字符串不是敏感词sb.append(text.substring(begin));returnsb.toString();}//封装方法:判断是否为特殊符号privatebooleanisSymbol(Characterc){//0x2E80~0x9FFF是东亚文字范围,不予当作特殊符号看待return!CharUtils.isAsciiAlphanumeric(c)&&(c<0x2E80||c>0x9FFF);}/***1.定义前缀树*/privateclassTrieNode{//敏感词(关键词)结束标识privatebooleanisKeywordEnd=false;//子节点(key是下级字符,value是下级节点)privateMap<Character,TrieNode>subNodes=newHashMap<>();publicbooleanisKeywordEnd(){returnisKeywordEnd;}publicvoidsetKeywordEnd(booleankeywordEnd){isKeywordEnd=keywordEnd;}//添加子节点publicvoidaddSubNode(Characterc,TrieNodenode){subNodes.put(c,node);}//获取子节点publicTrieNodegetSubNode(Characterc){returnsubNodes.get(c);}}}

springboot是什么

springboot一种全新的编程规范,其设计目的是用来简化新Spring应用的初始搭建以及开发过程,SpringBoot也是一个服务于框架的框架,服务范围是简化配置文件。

关于SpringBoot使用前缀树过滤敏感词的方法是什么就分享到这里啦,希望上述内容能够让大家有所提升。如果想要学习更多知识,请大家多多留意小编的更新。谢谢大家关注一下恰卡编程网网站!

发布于 2022-01-17 22:03:18
收藏
分享
海报
0 条评论
46
上一篇:jdk8中怎么使用stream实现对象属性的合并 下一篇:css3设置动画的相关属性有哪些
目录

    0 条评论

    本站已关闭游客评论,请登录或者注册后再评论吧~

    忘记密码?

    图形验证码