找坏人 (网上找人最快方法是真的么)

甲:“哥,现在网上坏人太多了,细思极恐啊,你想想?”

乙:“我在睡午觉。你自个儿好好玩吧。”

甲:“你就看着坏人这么折腾?你也能睡着?”

乙:“你这么折腾我,我是睡不着。”

甲:“你瞅瞅,总有人在网上发这些小图(上方三幅图),我一般直接给他来个定性(下方图片)。可是最近,这种东西好像突然多了……”

网上“找坏人”的科学方法

乙:“哦,画得还行……你还有别的事吗?”

甲:“你评评理,这都过去多少年了,还炒这些陈年烂谷子的冷饭,这不就是不懂事,挑拨关系吗?我看不都是不懂事,最开始肯定有坏人带节奏!俄罗斯现在多不容易啊!每次看到他们发这些图,我这心里就特别不舒服,浑身难受!”

乙:“那咋办?要么放松一下,你请我吃顿日料?能吃饱还不会撑着。”

甲:“哥你大意了,吃日料属于汉奸。咱这样,你不是擅长大数据、人工智能么?帮我把带头炒这一波冷饭的坏人找出来,我请你吃莫斯科餐厅。”

乙:“那餐厅可不便宜……先问一句,你这“抓坏人”不是想搞网暴吧?”

甲:“都是正义之士的事,怎么能算网暴?你只管把挑头的挖出来,我找战友组团去给他回复——擒贼先擒王,枪打出头鸟——我让他欲哭无泪,哭笑不得!”

乙:“那咱们看看吧,开机伺候。”

甲:“喳”

乙:“你这事属于信息溯源问题,也就是追踪信息在网上的传播路径,并进而发现信息的源头。第一步,先用网络爬虫……”

甲:“哥你这词用得好,这些坏人就是网上的爬虫,是网上的大毒草!”

乙:“别瞎打岔,网络爬虫是*载下**网页数据用的程序,咱们给它些源地址、关键词,它就能把相关联的网页从网上都*载下**到咱这计算机上。有数据才能分析啊。”

甲:“那我略知一二了——这爬虫是人类的好朋友。”

(10分钟后)

乙:“一共*载下**了几万个网页。下一步,咱们需要看看这些网页里的文本都在说哪些事,再把那些和你的问题无关的网页删掉。这个过程我们一般叫数据清洗。”

甲:“清洗这词隐约感觉有点别扭……现在讨论的事主要是扶俄反美。我的问题是找到恶意诋毁、抹黑的人。和这个问题有关的具体事有:五千枚*弹核**、打出卢金、举红旗的老奶奶、京东国家馆……”

乙:“你先坐下!你说这些计算机能理解吗?”

甲:“你的计算机要是正义的,他就能理解!”

乙:“你别敲我的计算机!我不能理解行了吧!我们需要一种自动地从文本中概括出主要内容的方法。可以用主题模型来试一下。它能从一堆文本中找出主要讨论的话题,同时还能发现每篇文本和这些话题间的联系。”

甲:“好像是这意思,要需要我帮忙你让它吱声。”

乙:“计算机说不需要。我们设定主题个数为30,再设几个参数,开始运行……你去给我冲杯茶,你那糖太齁嗓子。”

(15分钟后)

乙:“结果出来了。这几个主题看似和你的问题有关系。显示在topical word下面的是描述每个主题的关键词,有区分度的词有芬兰、波兰、外东北、海参崴、黑瞎子岛、江东六十四屯、唐努乌梁海、出海口、阿富汗、立陶宛、匈牙利、布拉格、珍宝岛……”

甲:“计算机眼睛真毒,就是这些玩意儿,全是炒冷饭!”

乙:“你这冷饭也太多了点,还需要筛选。可以看看程序中time这个变量的影响:把每个相关主题的文本依时间排序,并对每个时间段的文本进行计数,得到主题热度随时间变化的曲线。可以看到:多数主题一直有人在讨论,热度变化平稳;只有这个主题和你说的相似,是从五月末开始热起来的。这个主题的特色关键词是外东北、远东、瑷珲条约等。”

甲:“这些冷饭词挺耳熟的……”

乙:“现在主题内容基本清晰了,再来看看user这个变量……”

甲:“U什么?哥你是不是又大意了?U型锁可不是什么好词!”

乙:“我说的是user!指用计算机的人,就是你!”

甲:“绝交吧!他们骂我U型锁,没想到你也骂我!我找阿姨评理去!”

乙:“你先把我的显卡放下,小心扎着手。咱们先看看发这些文章的人,行吗?如果你再东扯西扯,程序会运行失败。”

甲:“正义为重,我不计较了。”

乙:“可以通过分析人的关系、人与文章关系或文章引用关系来进行信息溯源。但对于这个主题,从人和文章的关系图,看不出任何有价值的关联。这可能意味着:这些文章并不是有组织发布,并互相转发、引用、点赞。而且,这些文章似乎也未呈现出源头扩散的传播模式。有一个可能是:这个主题并非源自简体中文内容,或者说,这个主题的源头在境外。”

甲:“太厉害了哥!真是见识到高科技的力量了。瞧瞧这话——“主题的源头在境外”——这话听着多正义!饶你藏得再深,虽远必诛……”

乙:“这只是未经验证的假设。我们简单看看这些文章,好几篇里有这几张图片……”

网上“找坏人”的科学方法

甲:“西方图片!妥妥的。”

乙:“可以用基于内容的图像检索工具,找一找有哪些网页中也出现了与它们内容相似的图片。不过,咱可以简单点,用搜索引擎的以图搜图功能先搜一下试试。找到的结果按时间戳排下序……可以看到,最早是五月末,多地似乎在纪念某个历史事件。其中,这个网站看上去可信度较高,网页时间5月28日也恰在五月末。有可能这就是你所谓的“炒冷饭”的源头之一。”

网上“找坏人”的科学方法

甲:“是造了什么谣吗?”

乙:“翻译成中文,是某地在纪念《瑷珲条约》签订164周年,这个条约将黑龙江以北的领土割给了俄罗斯。他们在缅怀尼古拉·尼古拉耶维奇·穆拉维约夫,也就是阿穆尔斯基……

恭喜你,你要找的人应该已经找到了。真相只有一个,这一波炒冷饭的是……”

甲:“我有种不好的预感……哥,这肯定不是俄文,是日语吧?”

乙:“恭喜你不幸言中!这是俄罗斯阿穆尔州的网站。”

甲:“……”

(6分钟后)

乙:“贤弟,咱去莫斯科餐厅?”

甲:“有点乱,高科技太上头,容我静静吧……”

乙:“……我大意了”

注:引用新闻来源:AmurInfo。故事纯属虚构,仅供技术讨论。

#俄罗斯#​#俄乌战争#​#瑷珲条约#​#人工智能#​#大数据#