先说结果，后谈过程。文章同步在个人微信公众号：我对安全与NLP的实践和思考，欢迎关注。

结果

通过对安全与NLP的实践和思考，有以下三点产出：

首先，产出一种通用解决方案和轮子，一把梭实现对各种安全场景的安全检测。通用解决方案给出一类安全问题的解决思路，打造轮子来具体解决这一类问题，而不是使用单个技术点去解决单个问题。具体来说，将安全与NLP结合，在各种安全场景中，将其安全数据统一视作文本数据，从NLP视角，统一进行文本预处理、特征化、预训练和模型训练。例如，在Webshell检测中，Webshell文件内容，在恶意软件检测中，API序列，都可以视作长文本数据，使用NLP技术进行分词、向量化、预训练等操作。同理，在Web安全中，SQLi、XSS等URL类安全数据，在DNS安全中，DGA域名、DNS隧道等域名安全数据，同样可以视作短文本数据。因此，只要安全场景中安全数据可以看作单变量文本数据，这种通用解决方案和轮子就适用，轮子开源在我的github仓库FXY中，内置多种通用特征化方法和多种通用深度学习模型，以支持多种安全场景的特征化和模型训练，达到流水线式作业。

其次，是对应用能力和底层能力的思考。之前写过一篇文章《应用型安全算法工程师的自我修养》，在我当时预期想法中，我理解的应用型，重点在于解决实际安全问题，不必苛求于对使用技术本身的理解深度，可以不具备研究型、轮子型的底层能力。映射到我自身，我做安全和算法，最初想法很好，安全和算法两者我都要做好，这里做好，仅仅指用好。之后，面试时暴露了问题，主管给出的建议是两者都要做好。这里做好，不单单指用好，还要知其所以然。举个例子，就是不仅要调包调参玩的6，还要掌握算法的底层原理，这就是底层能力。当时，懂，也不懂，似懂非懂，因为，说，永远是别人的，悟，才是自己的。在实现通用解决方案和轮子的过程中，遇到关于word2vec底层的非预期问题，才深刻体会到，底层能力对应用能力的重要性。过程中遇到的预期和非预期问题，下文会详述。现在我理解的应用型，重点还是在解决安全问题，以及对安全问题本身的理解，但应用型还需具备研究型、轮子型等上下游岗位的底层能力。安全算法是这样，其他细分安全领域也是一样，都需要底层能力，以发展技术深度。

最后，带来思考和认识的提升。从基于机器学习的XX检测，基于深度学习的XX检测，等各种单点检测，到基于NLP的通用安全检测，是一个由点到面的认知提升。从安全和算法都要做好，到安全和算法都要做好，其中蕴含着认知的提升。从之前写过一篇安全与NLP的文章《当安全遇上NLP》，到现在这篇文章。对一件事物的认识，在不同阶段应该是不一样的，甚至可能完全推翻自己之前的认识。我们能做的，是保持思考，重新认识过去的经历，提升对事物的认知和认知能力。这个提升认知的过程，类似boosting的残差逼近和强化学习的奖惩，是一个基于不知道不知道->知道不知道>知道知道->不知道知道的螺旋式迭代上升过程。

起源

促成对安全与NLP的实践和思考，起源于以下三点：

第一，也是最初的起源，之前写过一篇文章《FXY：Security-Scenes-Feature-Engineering-Toolkit》，FXY的定位是一款安全领域的特征工程框架，用于支撑上层的机器学习算法。当时是希望对每种安全场景，发挥安全领域知识，定制统计特征工程方法，预期是像写poc一样写特征化方法，像集成poc脚本到pocsuite中一样，集成特征化方法到FXY特征工程框架中，现在想来，当时的想法有点幼稚。因为全定制化开发，就算是将别人相关工作中的特征化方法，按照一定格式改写到FXY特征工程框架中来，工作量也太大。因此，怎么把FXY打造的更加实用，是我一直在思考的问题。

第二，起源于两个github项目。第一个是一个单纯的文本分类项目，作者是对3个文本数据集，使用1种特征化方法，训练13种机器学习和深度学习模型。这里我关注的点不是13种模型，学术界主刷models，我关注的是1种特征化方法，一种特征方法对三个文本数据集。第二个是早之前阿里云安全webber师傅写的基于深度学习的XSS检测的两篇文章和github仓库。这两篇文章使用1种文本数据特征化方法，训练4种模型，文章我在三个时期看过很多遍，每次的理解都不相同，但主要的思想都还是把安全数据当文本处理。当两个仓库撞在一起，想到的是将单点的XSS+word2vec+深度学习模型，向前扩展，扩展至文本数据类安全场景+NLP特征化方法+深度学习模型。对各类安全数据求同存异，‘同’是能否看作文本数据，一般只要能看作文本数据，例如域名数据、文件数据、序列数据，就可以使用统一的NLP特征化方法，‘异’是采用不同特征化方法如人工提取的特征千差万别。求同存异后，就可以用一类通用方法，统一处理多个安全场景，而不必根据每个安全场景定制化开发特征工程方法。

下图是两点起源相遇时顺手写下的idea。

第三，指导思想是不断思考。第一次明确听到关于“思考”的字眼，是在实习刚入职那会，晚上七点左右主管找我的谈话，当时似乎是听懂了，现在回想起来，记得的只有两字“思考”。思考，是一种基础能力，促使我不断的对知识进行融合，思考每一种产生化学反应的可能性。

预期问题

基于以上三点起源，我开始从NLP视角重构FXY，争取打开突破口。下图为顺手记录过程中遇到的问题和解决方式。

总计有20+个问题，我们把问题归类，分成安全场景、数据特征化、模型三类，其中问题较多的是数据特征化部分，重点说说这部分。

按照流程的先后顺序，我们把问题划分在分词粒度、预训练前字典的建立、序列、词向量等部位。首先是分词粒度，粒度这里主要考虑字符粒度和词粒度。在不同的安全场景中，安全数据不同，采用的分词粒度也可能不同，例如用于恶意样本检测的动态API行为序列数据，需要进行单词粒度的划分。域名安全检测中的域名数据，最好采用字符粒度划分。URL安全检测中的URL数据，使用字符和单词粒度划分都可以。需要根据具体的安全场景，选择合适的粒度，FXY特征化类wordindex和word2vec中参数char_level实现了该功能。基于深度学习的XSS检测文中，是根据具体的XSS攻击模式，写成正则分词函数，对XSS数据进行划分，这是一种基于攻击模式的词粒度分词模式，但这种分词模式很难扩展到其他安全场景中。在其他安全场景中，可以根据此思路，写自定义的基于攻击模式的分词，但适用范围有限。我这里提供了两种通用词粒度分词模式，第一种是忽略特殊符号的简洁版分词模式，第二种是考虑全量特殊符号的完整版分词模式，这两种分词模式可以适用于各种安全场景中。FXY特征化类word2vec中参数punctuation的值‘concise’，‘all’和‘define’实现了两种通用分词和自定义安全分词功能。下文的实验部分，会测试不同安全场景中，使用字符粒度和词粒度，使用不同词粒度分词模式训练模型的性能对比。

其次是关于预训练前字典的建立。特征化类word2vec的预训练需求直接引发了字典建立的相关问题。在word2vec预训练前，需要考虑预训练数据的产生。基于深度学习的XSS检测文中，是通过建立一个基于黑样本数据的指定大小的字典，不在字典内的数据全部泛化为一个特定词，将泛化后的数据作为预训练的数据。这里我们将此思路扩充，增加使用全量数据建立任意大小的字典。具体到word2vec类中，参数one_class的True or False决定了预训练的数据来源是单类黑样本还是全量黑白样本，参数vocabulary_size的值决定了字典大小，如果为None，就不截断，为全量字典数据。下文的实验部分会测试是单类黑样本预训练word2vec好，还是全量数据预训练更占优势，是字典截断好，还是用全量字典来预训练好。

然后是关于序列的问题，具体地说，是长文本数据特征化需求，如下图中的webshell检测等安全场景，引发了序列截断和填充的问题。

短文本数据的特征化，可以保留所有原始信息。而在某些安全场景中的长文本数据，特征化比较棘手，保留全部原始信息不太现实，需要对其进行截断，截断的方式主要有字典截断、序列软截断、序列硬截断。字典截断已经在上段说过了，序列软截断是指对不在某个范围内（参数num_words控制范围大小）的数据，直接去除或填充为某值，长文本选择直接去除，缩短整体序列的长度，尽可能保留后续更多的原始信息。如果长本文数据非常非常长，那么就算有字典截断和序列软截断，截断后的序列也可能非常长，超出了模型和算力的承受范围，此时，序列硬截断（参数max_length控制）可以发挥实际作用，直接整整齐齐截断和填充序列，保留指定长度的序列数据。这里需要注意的是，为了兼容后文将说到的“预训练+微调”训练模式中的预训练矩阵，序列填充值默认为0。

最后，是词向量的问题，具体说，是词嵌入向量问题。词嵌入向量的产生有三种方式：词序列索引+有嵌入层的深度学习模型、word2vec预训练产生词嵌入向量+无嵌入层的深度学习模型、word2vec预训练产生预训练矩阵+初始化参数为预训练矩阵的嵌入层的深度学习模型。这里我把这三种方式简单叫做微调、预训练、预训练+微调，从特征工程角度，这三种方式是产生词嵌入向量的方法，从模型角度，也可以看作是模型训练的三种方法。第一种微调的方式实现起来比较简单，直接使用keras的文本处理类Tokenizer就可以分词，转换为词序列，得到词序列索引，输入到深度学习模型中即可。第二种预训练的方式，调个gensim库中word2vec类预训练，对于不在预训练字典中的数据，其词嵌入向量直接填充为0，第三种预训练+微调的方式，稍微复杂一点，简单来说就是前两种方式的组合，用第二种方式得到预训练矩阵，作为嵌入层的初始化权重矩阵参数，用第一种方式得到词序列索引，作为嵌入层的原始输入。下文的实验部分会测试并对比按这三种方式训练模型的性能，先说结论：预训练+微调>预训练>微调。

非预期问题

预期问题，说到底都是应用层面的问题，都比较好解，非预期问题比较难顶，有些涉及到底层的知识，这正是引发我对应用能力和底层能力思考的原因。

第一个非预期问题是，已知的库和函数不能满足我们的需求。一般来说，使用keras的文本处理类Tokenizer预处理文本数据，得到词序列索引，完全没有问题。但类Tokenizer毕竟是文本数据处理类，没有考虑到安全领域的需求。比如类Tokenizer的单词分词默认会过滤所有的特殊符号，仅保留单词，而特殊符号在安全数据中是至关重要的，很多payload的构成都有着大量特殊符号，忽略特殊符号会流失部分原始信息。虽然类Tokenizer的单词分词可以不过滤特殊符号，但其分词的自由度有限，我们需要对其魔改。首先阅读了keras的文本处理源码和序列处理源码，不仅搞懂了其结构和各函数的底层实现方式，还学到了一些tricks和优质代码的特性。下图为Tokenizer类的结构。借鉴并改写Tokenizer类，加入了多种分词模式，我们实现了wordindex类。

第二个非预期问题是，对word2vec的理解不到位，尤其是其底层原理和代码实现，导致会有一些疑惑，无法得到验证，这是潜在的问题。虽然可以直接调用gensim库中的word2vec类暂时解决问题，但我还是决定把word2vec深究深究，一方面可以答疑解惑，另一方面，就算不能调用别人的库，自己也可以造轮子自给自足。限于篇幅问题，不多讲word2vec的详细原理，原理是我们私下里花时间可以搞清楚的，不算是干货，对原理有兴趣的话，这里给大家推荐几篇优质文章，在github仓库Always-Learning中。

这里，只以其中的关键点之一“负采样”来举例。word2vec本质上是一个神经网络模型，具体来说此神经网络模型是一个输入层-嵌入层-输出层的三层结构，我们用到的词嵌入向量只是神经网络模型的副产物，是模型嵌入层的权重矩阵。以word2vec实现方式之一的skip-gram方法为例，此方法本质是通过中心词预测周围词。如果有一段话，要对这段话训练一个word2vec模型，那么很明显需要输入数据，还要是打标的数据。以这段话中的某个单词为中心词为例，在一定滑动窗口内的其他单词都默认和此单词相关，此单词和周围其他单词，一对多产生多个组合，默认是相关的，因此label为1，即是输入数据的y为1，而这些单词组合的one-hot编码是输入数据的x。那么很明显label全为1，全为positive sample，需要负采样来中和。这里的负采样不是简单地从滑动窗口外采样，而是按照词频的概率，取概率最小的一批样本来做负样本（这个概念下面马上要用到），因为和中心词毫不相关，自然label为0。负采样的原理到这里简单说完，talk “talk is cheap，show me your code” is cheap，看到对应代码的实现才心里踏实。word2vec的底层代码实现有多种方式，有tensorflow1.x版的，有keras版的，为了适应新版tensorflow，我用tensorflow2.x改写了tensorflow1.x版的word2vec，几种不同框架及框架版本实现的word2vec代码在FXY仓库的tutorials文件夹。其实原理都相同，只是其中的写法不同。以原生的tensorflow2.x版为例，跟踪一下负采样的实现，tensorflow中的nce_loss函数实现了loss和负采样。

以负采样参数num_sampled为线索，跟进nce_loss函数，

跟进_compute_sampled_logits()函数，该函数负责采样，

一直往下跟，遇到点问题，tensorflow的超底层代码太难懂，没有明确跟到负样本的产生。这里，联想上面我们说到负采样是按照词频的概率，取概率最小的一批样本来做负样本，再对应到tensorflow官方实现的word2vec代码中的下段代码，下段代码实现了词频排序。

那么log_uniform_candidate_sampler函数极有可能利用参数labels、num_sampled、num_classes生成一批接近vocabulary_size大小的随机数，作为负样本。

第三个非预期问题是装备太差。由于没带电脑回家，加上疫情的影响，只好租了台辣鸡笔记本，再搭载手机热点100K以下的强势网速，收集数据，跑代码，出现一些问题。比如4G内存跑代码的时候总报内存错误，只好使用不吃内存的代码重写了报错代码。受限于网速、硬件、软件等，一方面制约了学习，另一方面又无意中优化了代码，使得在辣鸡电脑上都能正常运行。

轮子的能力和构成

解决了这一系列问题，轮子的雏形终于显现，轮子内置多种通用特征化方法和多种通用深度学习模型，以支持多种安全场景的特征化和模型训练，达到流水线式作业。最初的考虑是只做特征工程，不向后兼容，即不加入模型部分，同学们自己做模型训练。之后细想，需要向后兼容，模型部分模型不在多，但起码要有几种模型作为demo，这样就形成了一个管道，一条龙作业。

轮子的具体构成包括：安全数据类、特征类、算法类。

首先是安全数据，目前收集、测试通过了6种安全数据，之后会继续扩充。

文件命名中第一个A/B标记了数据是否异源（这里对异源的定义是数据来自不同的github仓库），第二个A/B标记了训练集/测试集。

其次是特征类，目前实现了tfidf类、wordindex类和word2vec类，其中wordindex和word2vec是重点。

wordindex类主要是将安全数据转换为词序列向量，参数主要有：num_words、char_level、max_length、punctuation。num_words是序列软截断参数，如果设置为1000，则字典大小为1000个词，不在此范围内的词会被泛化。char_level取值True or False，True指按字符粒度分词，False指按单词粒度分词。max_length是序列硬截断参数，如果设置为100，则序列长度会被截断/填充到100。punctuation是分词模式参数，需要char_level=False为前提，如果值为‘concise’，即忽略所有特殊符号，值为‘all’，将所有特殊符号都分词，值为‘define’，调用自定义分词模式。

word2vec类主要是通过预训练将安全数据转换为词嵌入向量，参数主要有：punctuation、tunning、one_class、out_dimension、vocabulary_size、num_words、max_length、embedding_size。tunning值是否是”预训练+微调“模式，值为True or False。one_class指预训练的来源是单类黑样本还是全量样本，值为True or False。out_dimension指输出向量是三维向量还是二维向量，三维词嵌入向量是为了对接深度学习模型，二维词嵌入向量可以对接机器学习模型，值为2或3。vocabulary_size指预训练前的字典的大小，可以保证快速预训练。embedding_size指词嵌入向量的维度。

最后是算法类，目前包括lstm和textcnn两个模型，两个模型中内置3种训练方式，分别用于对接wordindex类、word2vec类的预训练模式、word2vec类的预训练+微调模式。

测试

使用其中part1A_url.csv和part1B_url.csv数据集，测试轮子鲁棒性的同时，给出系列参数设置及对应的结果，限于篇幅，详细测试报告在FXY仓库docs文件夹中。

测试结果分析

分词模式考虑全部特殊符号比忽略特殊符号，最终效果要好，因为在很多payload中特殊符号有一定占比。
根据攻击模式自定义分词模式，效果最好。
预训练的数据不是越多越好，字典也不是越大越好，随着数据量的增大，性能有上限，该截断就截断。
训练模式效果对比一般有：预训练+微调>预训练>微调。
无论是同源数据还是异源数据，只有其攻击模式类似，模型效果就可以泛化到。

这篇文章是对我部分工作的一个总结，把零零散散的单点串成线，站在一个更高的视角看待问题。真相在第五层，现在我以为我看到了第二层，但我可能还在第一层，我们能做的是，唯有不断学习，不断思考。

完整代码及相关文档在我的github：https://github.com/404notf0und/FXY。

分类机器学习下的文章

我对安全与NLP的实践和思考

结果

起源

预期问题

非预期问题

轮子的能力和构成

测试

测试结果分析

推荐阅读

最新文章

最近回复

分类

归档

分类 机器学习 下的文章

我对安全与NLP的实践和思考

结果

起源

预期问题

非预期问题

轮子的能力和构成

测试

测试结果分析

推荐阅读

最新文章

最近回复

分类

归档

分类机器学习下的文章