分类 安全数据 下的文章

从思想革命到技术创新

写在前面

几个月来,工作和生活发生了很多事情,也就耽误了些思考和总结的时间。现在,收拾收拾重新出发。

这几个月来的状态,像极了研一刚上学那会,分享和写作的产出寥寥,究其原因有这么几点。首先,菜是原罪,没有好的作品,不敢发声。其次,甲方安全工程师自身需是安全的,谨言慎行。自打迈入公司,个人技术也就和公司技术相融合,可能不经意间的一句话就反应了公司内部真实的安全水位。所以,以后分享的主要是个人的理解,和公司无关,中坚技术在此自动略过。最后,一定程度上,忙碌的工作和自由的分享是矛盾的,很佩服那些高产的安全从业者能克服这个矛盾。

思想革命

从英国的“光荣革命“到法国的文化大革命,一场席卷欧洲的思想启蒙运动,用光明驱散了黑暗,用理性替代了萌妹。传统的标准解释,瓦特改良的蒸汽机拉开了第一次工业革命的序幕。然而,启蒙运动也为工业革命打下了坚实的思想基础。可以说,从思想革命开始,就注定了西方科学技术的大飞跃。

历史如此,人亦如此。我的第一次思想革命发生在一年多前,也是第一次找到了自己的大一统方程式:安全、数据和算法,沿用至今,稍加修改为安全、数据、计算和算法。当然,其中每一个点都是一个很大的领域,要自底向上搞清所有领域不大现实,我要做的是形成自己的领域,交叉应用和最佳实践,并不断向其中纳入新的东西。

下面是几个月来思想层面的一些改变、经验和教训。现在,我感受到第二次思想革命在开始酝酿,而其中主要触发因素是学生思维向职业思维的转变。

目的是什么?来自老板的灵魂拷问。引申一些,也就是问题和价值是什么,更务实于实际落地的价值大小,团队和公司会因此而收益。不断被熏陶,现在已然养成了做事之前拷问自己的习惯,我的目的是什么,我的价值是什么,衡量指标,解决方案,需求,等等一整套链路。

达到目的,要抬头看路和换位思考,来自亲身经历的经验和教训。转正答辩后复盘,发现有几个问题的回答多是从自己的理解和技术出发,只知道低头走路,有局限性,一不小心走的可能就是一条死路。高年级同学期望的回答是在走路的同时,抬头看路,多向业界大小公司学习精华,在一些点上大公司不一定做得好,小公司不一定做的不好。没能很好地回答高年级同学的提问,究其原因,是没能换位思考,站在高年级同学的思维角度,更关注的是你如何抽象地思考,更关注的是把握方向,方向对了,剩下的就是下面人的事情了。

应届进大厂,知识汇成江,换位思考的实践之一。高年级同学面对一个问题,是如何分析、思考、实现的,我呢,我又会如何做。上述这些凝聚了一个团队、几个团队经验的资源在内部大多可以轻易获取到,然而,“仅内部分享”的标签打在了很多资源上,这些是以前我在外面从没看到过的东西。资源的本质来源是人,最大的体会是专家就是专家,高p果然是高p,精通是真的精通,可以很明显感受到来自不同职级不同程度的知识分层和碾压,而我们要做的就是模仿和创造,模仿这群顶尖的安全从业者,创造属于自己的style。

跳出安全圈,从非安全视角重新审视安全,换位思考的又一实践。每个人都有每个人的知识库和归纳偏好,看问题的角度各不相同,拥有的视界也不尽相同,而我们孜孜以求的是视界的全集,也就是各个视角的并集。从基础架构视角看基础设施数据,从业务视角看业务数据,从研发、运维视角看应用数据,它们都属于广义安全数据,看到了这些也就从数据维度实践了跳出安全圈的这一想法,从非安全角度解读和重新解读安全。

技术创新

正如欧洲启蒙运动促进了第一次工业革命的发展,思想变革也启发着我在技术层面的一些思考。

创新的可能性。计算机的数字电路由二进制01组成,关于偶数的哥德巴赫猜想,任一大于2的偶数都可写成两个素数之和,这些都表明原始问题是由多个原子问题构成的。现阶段人工智能技术求解安全问题的原子问题主要是简单的分类问题,需要指出的是回归、聚类、异常检测等都可以转化为或可以看作是分类问题,即是和否。从数据的角度,分类问题的求解,本质上是对样本空间的精确检索。

人们常说“特征工程决定了机器学习效果的天花板,而后续的模型和优化只是为了无限逼近这个天花板“,这个说法是不全面的,进一步地向前思考,其实是数据的质量决定了样本空间精确检索的程度,也就决定了机器学习效果的天花板。这也引出了我关于安全智能落地实践的一个方向:从外到内,从边界安全到内部安全。无论是数据的质还是量,外网>>边界>办公网>测试网>生产网。更具体地说,是黑样本数据的质量,没有大量且真实的黑样本支撑,何谈样本空间的精确检索和模型的鲁棒性、实战性。站在上帝视角,这是因为起初,整体样本空间是混沌的未知的,不确定性很高,随着黑样本不断丰富,剩余未知黑样本空间逐渐被压缩,不确定性会降低,确定性增大,将本来不确定性的难解问题转化为确定性的易解问题,不断逼近终极真实样本空间分布,问题必然会被突破。如果基于可信的思想,积累的白样本足够大,那么理论上也是可以达到同样目的的,但是单向逼近的难度要比双向逼近的难度大,一般来说,手边能用的数据越多越好。

透过现象看本质,回归安全本身,从外到内,攻击不断被纵深防御所缓解,实战对抗的频率及其产生的安全数据的质量是逐级递减的,而攻击隐蔽性是增强的,也就决定了安全智能落地的可能性和效果趋势。本质在人,从外到内,正常用户数和恶意用户数都是减少的,人群基数一定程度上直接决定了上层用户行为数据。

创新的必要性。站在团队的视角,核心竞争力是生存的第一需要,而技术创新是大多数人培养核心竞争力的主要途径之一。站在更高视角,从历史的角度,每一次的工业革命都源于技术创新解放生产力,提高生产效率,每一次的大国兴衰都源于科技创新。

我理解的技术创新,是对未知空间的孜孜搜索,当你持续投入其中,会发现技术流的排面就是创新,要么创新,要么死亡。

快快订阅我的公众号,这里提供对安全、数据和算法的独家思考,扫描它,带走我。