新闻

当前位置:手机版美高梅网站 > 新闻 > 中文锐推榜的优化,到场对饭否的总结

中文锐推榜的优化,到场对饭否的总结

来源:http://www.best-sclae.com 作者:手机版美高梅网站 时间:2019-12-09 16:36

其他问题:

为何加入对饭否RT行为的统计?

    这种热门新闻,自然会有不同的用户发起传播。我们拥有语义计算能力的做法,可以把某一个消息的大范围内传播进行合并,而不仅仅是追踪某一个人发布的消息如何传播。

郑昀@玩聚RT 20090615

Twitter 被封恢复之后,人民群众的热情高涨,尤其是加入饭否的监测后,显然面对 RT 信息量的增加,我们要提高入榜的门槛。

 

图片 1

三种收看中文锐推榜的方式:

    大家都知道,中文锐推榜 是可以追踪微博客中文世界中最流行的锐推、语录和段子,每一条上榜消息都可以查询到对应的所有 Twitter或饭否 用户转发的消息。那么,从每一次转发中提取转发用户名以及转发顺序,加以合并统计,即可得到每一条上榜消息的传播总路线图。

 

玩聚RT,即中文锐推榜,实时追踪中文微博客世界的最新鲜、传播最广的锐推。

三、Javascript Mind Map效果

具有传播特质的锐推,和人性有关,与Geek无关。Geek也是人。

订阅 @中文锐推榜 ;

郑昀@玩聚RT 20090714

    自由主义、科技、情色和爆炸性新闻。

饭否和Twitter的合并计算

参考阅读:

    解决办法:针对2和3,玩聚RT增加了一个黑名单,专门收纳那些有很多热情粉丝的、消息却不具有传播性的ID。但考虑到无处不在的“马太效应”,名人ID的消息上榜多,是显而易见的社会常态,不应该被禁止或限制。只要符合“有趣”的特质,那么即使是名人的消息,通过转发次数足够多证明了它的可传播性,那么就应该被传播出去。毕竟,榜单追求的是“有趣”。当初TechMeme的创始人Gabe非常强调的一点就是:“我希望能让读者感到有趣,同时也为不知名作者提供展示自己的舞台”。如果榜单上全都是东东枪、连岳或艾未未的名人锐推,人们也会很快厌倦的,所以增加不知名微博客用户的上榜几率,才是我们要认真考虑的。热门榜单相当于给你五分钟登上舞台中央的机会,至于是否抓人,就要看你的自身魅力了。上了锐推榜,第一波可以让至少两、三千人看到,然后也许有近百人再转发,按此估算,上榜的辐射面可能有近万人。这能够给不知名作者带来不少订阅者。

提高统计阈值

一、对Twitter神经网络的个案分析

 

订阅 RSS Feed 。

的数据。

饭否和twitter上的能上榜的锐推消息本质都是一样,无非几个命题:

此消息同时发送给 Twitter的 @rtmeme 和 饭否的 @中文锐推榜 两个官方帐户,欢迎订阅。

    它简明扼要地给出了传播的路线。玩聚RT作为中文微博客世界唯一追踪锐推行为的应用,掌握着大量的锐推行为真实数据,完全可以计算出类似的图形。

之后常被投诉的问题:

订阅 @rtmeme ;

    这种传播路线图,大家应该可以看出来,属于脑图(Mind Map)的画法。

 

 

二、中文锐推榜上榜消息的传播路线图

你可以回到加入饭否之前(6月9日)的锐推榜,比如  ,对,修改后面的p参数,翻到40、50页看看,看和现在合并统计的有何区别呢?不还都是那些东西吗?科技、自由、大事件、段子、情色。

饭否消息和Twitter Tweet经过剔除各种符号标点,经过语义处理,得到净化后的传播本体,然后统计出传播最多的锐推消息。

图片 2

当然,在@NetPuter 建议为饭否单独建一个锐推榜时,我也是这么认为;饭否用户质量不如Twitter质量高,所以它们的消息不能合并计算。

玩聚RT是什么?

 

但,在做了一段时间的实验后,我发现也不是这么绝对。

但站方提供此按钮,并自动加“转:”字样代表转发后,情况就好多了,有利于第三方统计。

图片 3

1、还是重复问题

最开始只是自动聚合Twitter 中文用户的RT(即转发)行为,统计得出最新鲜锐推榜单,并转发到官方帐号:@rtmeme 上。用户 follow @rtmeme 即可收看。或订阅 RSS Feed 。

  • 用户;
  • 转发时间;
  • 用户的Followings/Followers数字;
  • 谁传递给谁;

                  针对1,@terryxxy 建议,对每一条已达到上榜资格的锐推消息,在准备上榜之前,可以与48小时内的已上榜锐推进行相似性比较;如果此消息发现与之前的消息重复度大于85%,就不再上榜。但考虑到微博客用户对汉语运用的随意性,还是会存在一定判错几率的。

在饭否站方提供“转发”按钮之前,饭否用户也会自发地转发消息,但行为并不规范,多种格式并用,不像 Twitter 用户有被各种第三方工具认可的 RT 规范。所以,统计会遭遇很大麻烦。

    上周从玩聚SR上看到一篇《作为神经网络存在的Twitter(数据篇)》,作者对自己的一个Twitter消息的传播路径做了详尽的分析,并配发了节点图、时间线、延迟时间图、Followings数量图等5张图,罗列出了消息传播过程中涉及的:

在 @NetPuter 的建议下,最近加入对饭否数据的统计。

郑昀@玩聚RT 20090609

    这套javascript脚本是 Kenneth 的杰作,名叫“JavaScript MindMap”,你也可以叫它“SpiderMap”。

中文锐推榜(原理很简单,就是自动搜集中文世界微博客的锐推(转发)消息,语义计算消息之间的相似性,自动聚合一条消息被 Twitter和饭否用户转发的次数;转发次数高的消息将登上热榜)在6月9日加入饭否的合并统计之前,存在的老问题:

    代码:

5、@easthero 认为饭否用户和Twitter用户的群体是完全不同的,Twitter上的更具有Geek气质。所以他认为需要把Twitter的锐推榜与饭否的彻底分开,不要混合在一起计算和传播。

 

4、饭否的消息上榜过多:饭否的站方规范转发行为,增加了转发按钮之后,降低了转发行为的成本。

 

郑昀@玩聚RT 20090615

  • 某些核心节点虽然可以加快信息传播的速率和广度,但核心节点引发的RT行为数量与核心节点的Followers数量未必成正比;
  • 当后续传播用户的Followers/Followings数值大幅度下降时,传播也就快要结束了。也就是说,当消息传播到圈子的边缘用户时,基本上也就不会再继续传播了。

1、重复:发源自不同人的锐推,内容大致是一件事情或一个链接,但由于措辞不同(汉语博大精深),甚至只是在最前面加了几个字或者诡异的符号,然后只要转发次数足够多,就可以导致重复上榜;

    作者的这张MindMap引起了我的兴趣:

    解决办法:针对此问题,我们已经建立了不少规则,尽可能地去除锐推消息中的标点符号英文字母、各种格式各种习惯的转发过程中用户增加的评论。自然语言处理上,则清理消息中无意义的停止词,如“的”“是”等等。但只能尽可能减少,并未彻底解决。

    数据挖掘功课做得非常足,作者并没有给出明确的结论,但大致可以得知:

 

 

 

    Demo:

2、部分知名ID过于频繁上榜:尤其以饭否ID为主;

    有的时候,一个消息是由两个或多个渠道分别传播出去的。可能是传播中隐去了原作者的ID,比如这条饭否避难手册的广播 。也有可能是某个惊爆新闻由多个敏感人士第一时间各自独立发起,比如这个坐直升飞机上学的新闻:

3、少量上榜消息不具有传播性:即消息并不像玩聚RT所致力挖掘的那么“有趣”;

    下面是 @keso  作为核心传播的例子:

以后再增加其他微博客服务时,只要调高或调低发源自它们的消息的上榜阈值,调整好黑名单,我认为可以合并统计。

    它是由javascript绘制于一个Canvas(画布)上的,不仅拥有动态自动漂移效果,而且每一个节点都可以自由拖拽。

                  针对4,把来自twitter的消息上榜的阈值,与饭否的分开。饭否的上榜阈值要高得多。

1、MMDays:淺談網路世界的Power Law現象〈五〉──Plurk的名人效應與酪梨壽司的一千噗

    可以看出 @keso 后续的两个节点 @rtmeme(又传播给了5个人) 和 @secretaryzhang(又传播给了4个人) 是又一组核心节点。

本文由手机版美高梅网站发布于新闻,转载请注明出处:中文锐推榜的优化,到场对饭否的总结

关键词: