新闻

当前位置:手机版美高梅网站 > 新闻 > 探寻与集中,Media附加价值开辟的四大方式

探寻与集中,Media附加价值开辟的四大方式

来源:http://www.best-sclae.com 作者:手机版美高梅网站 时间:2019-12-09 16:36

郑昀@玩聚SD  20081108

郑昀 20090830

原文地址:

以下是我的一家之言,仅供参考。

社会化媒体的可携带可传播数据是海量的,从中打捞珍珠并串成线,还是需要一些手段的。你不能简单地获取那些像水一样流动的数据来展示,无论你的界面多么漂亮,都没有太大价值,你必须增加一些附加价值。

本体作为一种能在语义和知识层次上描述领域概念的建模工具,其目标是捕获相关领域的知识,确 定该领域内共同认可的词汇,通过概念之间的关系来描述概念的语义,提供对该领域知识的共同理解。语义Web(the Semantic Web)是在本体理论基础之上对现有Web所进行的扩展[15],其目标是使Web上的信息具有计算机可以理解的语义,在本体的支持下实现信息系统间语义 上的互操作性,以及对Web资源所进行的智能访问和检索[16]。充分实现语义Web的潜力,需要大规模采用基于本体的方法来共享信息和资源,本体是语义 Web得以实现的基础和关键。

引子

我大致归类这些附加价值,分为六大价值点:

本章主要介绍论文工作涉及的本体、语义Web、语义Web服务等基本概念。

   谷歌、百度、雅虎,以及新上线的有道,都在测试更多类型的OneBox。比如在Google里搜素“population of China”,OneBox中会显示“ChinaPopulation: 1,321,851,888 (July 2007 est.)”,这里我们姑且把OneBox模式称为聚合。

  1. Conversations:根据数据之间的关联,建立对话形式;
  2. Breaking News:及时发现突发新闻;
  3. Trends:热点趋势捕获和展现;
  4. Recommendations:根据用户数据做个性化推送;
  5. Groups/Tags:按照主题打包数据。
  6. Search:搜索。

1.1 Ontology

   搜索引擎中的聚合,从简单的搜索结果聚合,到简单信息聚合,直至目前的语义聚合,让人看到了整合搜索的曙光。

可能还有更多,欢迎留言或Tweets补充(follow zhengyun)。

Ontology 的概念最早源于亚里士多德(公元前384-322年)对事物存在本质的研究,在哲学上的定义为“对世界上客观存在物的系统地描述,即存在论”,是客观存在 的一个系统的解释或说明,关心客观现实的抽象本质[17]。近几年,Ontology作为信息抽象和知识描述的工具,被计算机领域所采用。

搜索和聚合是一个事物的两面。

 

计 算机领域的Ontology是否应该叫做“本体”,存在一定的争议。目前,Ontology主要有“本体”和“本体论”两种中文译法。大连海事大学智能信 息处理学科梯队的黄映辉教授从人工智能引入Ontology时候Ontology的定义开始,分析了Ontology的哲学意义和Ontology被引入 到计算机领域后的实质内容,认为计算机领域的Ontology不应该译作“本体”或者“本体论”。Ontology作为从哲学领域借用的术语,其实质是 “概念模型”,应该被翻译为“本体论模型”[19]。

    搜索提供信息参考。聚合则为无目的而来者提供探索路径,为有目的而来者提供条理化知识。二者都需要尽可能地猜测来者目的。

国际上通行的增加附加价值的模式,我总结有四大模式,如下所示。

将Ontology翻译成“本体”已经是计算机领域一个约定俗成的做法。本文在讨论Ontology的时候,为了行文方便并符合业界习惯,仍然使用“本体”的说法。这里讨论的本体的相关知识,均限于计算机领域的本体。

    大家都说搜索往往不知道搜索者所为何来,所以只能千人一面地提供搜索结果。最近Miguel Carrasco建议微软Live Search应该利用好人们在facebook等社区中的身份和活动信息,从而预先掌握用户输入关键词的目的,也就是SNS和Search整合在一起。Google的整合搜索也是如此,都是希望在尽可能多地理解用户的需求之后提供所需要的答案。

一、基于链接检测的聚合模式

1.1.1 本体的定义

    在更了解来者目的之后,揉合在搜索中的聚合将发挥更大传递知识作用。

这个模式非常好理解。只不过,我定义之所以叫链接“检测”,是因为链接并不显著,或在正文中隐藏,或在 Tweets 中隐藏,需要你特地提取出来。所以这个模式不包括 RssMeme 。

本 体在计算机领域的定义经历了一个演化过程。在人工智能界,最早给出本体定义的是Neches等人,他们将本体定义为“给出构成相关领域词汇的基本术语和关 系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义[19]”。1993年,Gruber给出了本体的一个最为流行的定义,即“本体是概念模 型的明确的规范说明[20]”。后来,Borst在此基础上,给出了本体的另外一种定义:“本体是共享概念模型的形式化规范说明[21]”。

搜索和聚合合二为一。

2005年9月上线的 Techmeme 作为本模式的最优秀代表,就深刻地教育了 mashup 开发者,原来 链接检测 混搭 适当的A-List 有如此高的信息过滤效率。

Studer 等人在对本体做了深入研究后,扩展了Gruber的定义,认为“本体是共享概念模型的明确的形式化规范说明(An ontology is a formal, explicit specification of a shared conceptualisation.)[22]”。该定义包含四层含义:

    搜索中的聚合,独立出来则可成为一个产品,合进去则成为Google OneBox中所展示的碎片聚合能力。譬如,搜索关键词“李开复”,谷歌搜索结果中,第一页先展现视频搜索结果的OneBox,接下来展示新闻搜索结果。

Techmeme 在 Blog 时代称雄一时。到了 Twitter 时代,后起之秀是 TweetMeme ,上线之初,它并没有像 Techmeme 一样大放光彩,但随着 Twitter 的如日中天,它终于爆发了,它的 Alexa 全球排名基本稳定在2200名左右。

1)概念模型(Conceptualization),即本体是通过抽象客观世界的概念而得到的模型,它表示的含义独立于具体的环境状态;

    大多数网民熟悉的互联网搜索和聚合技术仍然依赖相对简单的模式匹配:将搜索关键字与Web网页上的词汇进行匹配,然后根据一些因素对搜索结果进行排名,例如搜索词汇出现的频率,搜索词汇出现的位置或者是指向具体结果网页的链接数量等等。

Techmeme 和 TweetMeme 的“聚合”都很容易理解,它们都是把成百上千条信息的复杂度隐藏/合并到一个主题下。

2)明确性(Explicit),即本体所使用的概念及在这些概念之上的约束都有明确的定义,没有二义性;

    所以,目前百度、雅虎或谷歌的OneBox所展现的信息结构,都还只是信息的搜索结果,或者针对不同领域的数据简单聚合,如搜索股票名称或代码则展示该股票的实时行情。

backtype Widget 和 SRCBacks 等新型评论聚合服务,它们最为显著的功能是,在任何站点上安装 Widget 后,就可以显示有哪些人在各种 Social Media 站点上针对当前链接做出的评论或推荐,如Twitter、Google Reader、Facebook、MySpace、Digg等等。它们都要检测并储存所有链接的关联数据,比如谁收藏了这个链接,谁在 Twitter 中推荐了这个链接。

3)形式化(Formal),即本体是计算机可处理的,而不是自然语言;

垂直聚合和语义

目前处于被维护状态的 玩聚SR 也属于本模式,一个教训就是,在国内做这种模式,必须对聚合到的链接做自动分类,并彻底抛弃掉时政类的链接。顺便说一句,TweetMeme 的分类做得非常好。

4)共享(Shared),即本体体现的是共同认可的知识,反映的是相关领域中公认的概念集合,它所针对的是团体而不是个体。

    接下来,搜素引擎为了丰富OneBox的聚合,就必须切入每一个垂直领域。

 

本体的目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义[23]。

    不同垂直领域特性不同,比如用户可能搜索的是一个饭馆名字(譬如你在谷歌搜索“全聚德烤鸭店 北京”),那么为了更智能地聚合出用户可能需要的信息,而不仅仅是简单罗列地图和联系电话,那么搜索引擎就必须切入这个生活搜索的垂直领域,或者与人合作

二、基于重复文字检测的聚合模式

1.1.2 本体建模元语

    和Google Product Search一样,微软Live Search也早已将它的Product Live Search嵌入到了搜索结果中,只不过缺少了Google Checkout这种在线支付的集成。如果你输入N95或G10搜索,你将会看到OneBox中除了产品图片、价格区间、比价等,还出现了产品评论聚合以及打分星级。对于N95手机,列出很多个用户评论分类指标:一般评论、特色、易用性、电池寿命、声音质量等。对于G10相机,则列出画面质量、轻便性和大小指标。这个细节说明垂直做得够深才行。

Google News和百度新闻的新闻聚合,都属于本模式。它们可以通过检测近期发布的资讯之间的内容重合度,能将同一个主题的资讯合并在一起,也就是以文本相似性为技术基础的。

本体中的知识是通过类、关系、函数、公理和实例来形式化地表示的[20]。Perez等人用分类法组织了本体,归纳出5个基本的建模元语[24]:

图片 1

本模式一般是广泛收集新闻媒体信源,标记不同的权重度,做成扫描列表;然后通过爬虫抓取最新的新闻。通过对最近一段时间内的新闻计算文本相似性,可以获知哪些文章的相似度高于预设阈值,那么就说明这些文章是近似一个话题,可以合并。

1)          类(Classes)或概念(Concepts)

    微软Product Live Search的语义特色,在于它自动汇总了这些用户关心指标的评论,并计算了正面负面情感因素,从而可以列出对于Nokia N95手机的电池寿命只有19%的正面评论,定价可承受性只有64%的正面评价等等进一步的统计信息。

目前处于被维护状态的 玩聚中文锐推榜(@rtmeme) 也属于本模式,针对微博客的重复内容检测,是不会采用文本相似性技术的,而是有点像搜索引擎去重技术中的“信息指纹检测重复”,尽力给每个独立消息生成一个信息指纹。国外类似的锐推监测服务是 dailyRT ,但由于它并没有给出锐推历史,所以 无法确认它是否属于本模式。

指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲,它表示的是对象的集合,其定义包括概念的名称,与其他概念之间的关系的集合,以及用自然语言对概念的描述。

    这些,其实就是语义聚合的力量。如何做到呢?

 

2)          关系(Relations)

    在语义聚合引擎中,每一个查询都在一些“本体(Ontology)”的上下文范围内执行,来自本体的一些提示信息可以提高搜索的准确性。

三、基于标签的聚合模式

在领域中概念之间的交互作用,形式上定义为n维笛卡儿积的子集。如子类关系(subClassOf)。在语义上关系对应于对象元组的集合。

    什么是本体呢?简单地说,本体给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的确定词汇外延的有关规则的定义;其目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定领域内通用的词汇,并给出这些词汇和词汇之间相互关系的明确定义。

标签可以是原信息拥有的,也可以是自动提取的。

3)          函数(Functions)

    在语义检索中,使用的是概念匹配,即自动抽取文档的概念,加以标引,用户在系统的辅助下选用合适的词语表达自己的信息需求,然后在两者之间执行概念匹配,即匹配在语义上相同、相近、相包含的词语。 
    基于本体的智能聚合引擎的基本设计思想如下:
    (1)在领域专家的帮助下,建立相关领域的本体;
    (2)收集信息源中的数据,并参照已建立的Ontology,把收集来的数据按规定的格式存储在元数据库(关系数据库、知识库等)中:
    (3)对用户检索界面获取的查询请求,查询转换器按照Ontology把查洵请求转换成规定的格式,在Ontology的帮助下从元数据库中匹配出符合条件的数据集合;
    (4)检索的结果经过定制处理后,返回给用户。

在 Twitter 领域,由于拥有 #hashtags ,所以本模式相对容易做。Twubs 就是一个范例,它有点像 Twitter Groups,根据 #hashtags 实时显示 Tweets ,对某tag感兴趣的人可以直接订阅对应的Twub,比如 Follow Friday。

一类特殊的关系。该关系的前n-1个元素可以唯一决定第n个元素。形式化的定义为F: C1×C2×…×Cn-1→Cn。如motherOf就是一个函数,motherOf(x, y)表示y是x的母亲。

    有了这么模型之后,实际上就可以复制到不同垂直领域。在分领域做好之后,可以很容易地嵌入到搜索结果中。当然是在尽可能获知用户目的前提下。玩聚网有一个智能语义聚合应用框架,在股票方面做了一些尝试,比如汇总股评和专家点评,计算看多看空倾向,计算买入卖出建议,也有点这个意思。从这个意义来看,微软收购语义建模能手Powerset,未尝不是给自己的搜索输送炮弹。

WeFollow 首创了用 #hashtags 来标识Twitter用户特征的做法,随后中国开发者也开发了几个类似的应用,如早期的 Twitter中文用户目录 以及 最近的 Twitese 的Rank 。

4)          公理(Axioms)

    搜索们做了OneBox+垂直聚合,又揉合了语义进去之后,算是能见到整合搜索的曙光,接下来就要看如何整合入SNS等社区所包含的身份信息了,以便更深刻地理解用户随时随刻变化的搜索需求。

当年的奇虎聚客也属于这种模式,虽然严格意义上它属于“基于关键词的主题聚合模式”。

代表永真断言,如概念乙属于概念甲的范围。

郑昀@玩聚SD  20081108

 

5)          实例(Instances)

《站长Z周刊》 约稿 链接地址:

四、基于情感分析的聚合模式

代表元素。从语义上讲实例表示的就是对象。

这个模式稍微有些复杂。

本 体与面向对象的理论非常类似,但这两者本质是不同的。本体是对某个领域静态概念模型的描述。面向对象是一种软件开发方法,主要思想是使用对象、类、继承、 封装、消息和多态等基本概念来构造系统。在面向对象的理论中,对象或类不仅包括描述对象静态特征的属性,也包括描述对象动态特征(行为)的方法。对象的属 性和方法结合在一起形成一个独立的系统单位,尽可能对外隐蔽对象的内部细节,对外提供统一的接口。

Microsoft的Live Product Search,现在改为“Bing Shopping”,可以作为本模式的优秀范例。请点击“Apple iPod touch digital player”的user reviews搜索结果,可以看到机器生成的“Popular Features”,这些指标的评分就来自于机器分析抓取来的网络点评,从中提取出情感趋势以及对应的指标。

1.1.3 本体描述语言

在Twitter领域,也有不少网站属于本模式,但多半停留在雕虫小技上,尚未成为主力应用。

本 体描述语言起源于人工智能(Artificial Intelligence, AI)领域对知识表示的研究,这方面的本体描述语言主要有:KIF(Knowledge Interchange Format)[25]、Ontolingua[4]、OKBC(Open Knowledge Base Connectivity)[26]、OCML(Operational Conceptual Modeling Language)[27]、Frame logic[28]、Loom[29]等。近年来,随着Web技术的发展,Web与本体理论的结合成为必然趋势,诞生了一些Web本体描述语言,主要有 RDF(Resource Description Framework)[30]、RDF Schema[31]和SHOE(Simple HTML Ontology Extension)[32]等。

本模式所基于的语义技术,更多详情,请参考我的文章《情感分析方向近况·0908》,此处不再赘述。

描述逻辑(Description Logics, DLs)[33]是人工智能领域研究的一种重要的知识表示语言,目前正被积极应用于本体的描述。以描述逻辑为基础的本体描述语言主要有OIL[34]、DAML+OIL[35]和OWL[1]。

 

Web 本体语言OWL(Web Ontology Language, OWL)[1]是W3C2004年推荐的本体描述语言的标准,是在WWW上发布和共享本体的语义标记语言。OWL作为RDF/RDF(S)的扩展,是在 DAML+OIL的基础上发展起来的,目的是提供更多的原语以支持更加丰富的语义表达并支持推理。OWL 有三个子语言:OWL Lite、OWL DL和OWL Full。其中,OWL Lite用于提供给那些只需要一个分类层次和简单属性约束的用户。推理系统能够保证计算完备性(即所有的结论都能被计算出来)和可判定性(即所有计算都在 有限时间完成)。OWL Full支持那些需要在语法自由的RDF上进行最大程度表达的用户,它允许一个本体在预定义的(RDF或OWL)词汇表上增加词汇。

好,这就是常见的增加社会化媒体数据附加值的四个模式。如果你观察到更多模式,请评论或Tweet。

1.1.4 本体构建的准则

郑昀(follow zhengyun) 北京报道 20090830

目前已有的本体很多,出于对各自问题域和具体工程的考虑,构造本体的过程也是各不相同的。由于没有一个标准的本体构造方法,不少研究人员出于指导开发本体的目的,从实践出发,提出了不少有益于构造本体的标准。下面列举一些在实践中被证明比较有用的本体构建准则。

 

1)          清晰性和客观性(Clarity and Objectivity)[20]:本体应该通过客观定义和自然语言文档对所定义的术语给出明确的、客观的语义定义。

2)          完全性(Completeness)[20]:本体所给出的术语定义是完整的,完全能表达所描述术语的含义。

3)          一致性(Coherence)[20]:由术语得出的推论与术语本身的含义是相容的,即支持与其定义相一致的推理,不会产生矛盾;所定义的公理以及用自然语言进行说明的文档也应该具有一致性。

4)          最大单调可扩展性(Maximum Monotonic Extendibility)[20]:向本体中添加通用或专用的术语时,不需要修改其已有的概念定义和内容,支持在已有的概念基础上定义新术语。

5)          最小本体承诺(Minimal Ontological Commitments)[20]:本体约定应该最小,对待建模对象应给出尽可能少的约束。而所谓的承诺,在本体中指的是对怎样以一致的、相容的方式使用 共享词汇所达成的共识。一般地,本体约定只要能够满足特定的知识共享需求即可,这可以通过定义约束最弱的公理以及只定义交流所需的词汇来保证。

6)          本体描述原则(Ontological Distinction Principle)[36]:本体中的类应该是互不相交的。

7)          概念层次多样化(Diversification of hierarchies)增强多继承机制的能力[37]。

8)          模块化设计(Modularity)以最小化模块化之间的耦合度[38]。

9)          语义距离最小化(Minimization of the semantic distance)[37]:兄弟概念之间的语义距离最小化,尽可能把含义相似的概念抽象出来,用相同的元语来表示。

10)      命名标准化(Standardization of names)[37]:尽可能使用标准的名字。

在 这十条准则中,Gruber在1995年所给出的五条原则(上述十条原则的前五条)最具有影响力。这十条构建准则给出了构造本体的基本思路和框架,然而, 明显的不足之处就是它们所反映的内容非常模糊且难于把握。目前人们普遍认为,在构造特定领域的本体的过程中,需要领域专家的参与。

1.1.5 本体的应用

本体的应用主要涉及两个方面:第一,本体作为一种能在知识层提供知识共享和重用的工具在语义Web中的应用;第二,在信息系统中的应用,主要包括处理信息组织、信息检索和异构信息系统互操作问题[23]。

常 规的基于关键词的信息检索技术已不能满足用户在语义上和知识上的需求,寻找新的检索方法也就成为目前研究的热点。本体具有良好的概念层次结构和对逻辑推理 的支持,因而在信息检索,特别是在基于知识的检索中得到了广泛的应用。由于本体具有能通过概念之间的关系来表达概念语义的能力,所以能够提高检索的查全率 (Recall)和查准率(Precision)。

传统的信息集成技术很难解决 信息源之间的结构和语义的异构,要解决这些问题,根本的方法就是要减少、甚至消除在概念和用词上的混乱,达成对事物相互一致的共同认识,并将其作为一种统 一的框架和基础。因此,将本体技术引入到信息集成中来,对异构信息进行形式化和规范化表示,以期解决传统信息集成中存在的语法和语义异构问题。在信息集成 中使用本体具有以下优势:首先,本体提供了一个共享词汇库,可作为与数据源的稳定的概念接口,并且独立于数据源模式;其次,本的描述能力可以解决同名异义 及异名同义,描述概念间的相互关系,显示的描述数据的语义,支持相关信息源之间的信息交换,提高应用的互操作性,促进领域知识共享和重用;第三,由于本体 的描述能力,配合推理机可以进行一些推理查询,发掘一些蕴涵的数据关系。

本文由手机版美高梅网站发布于新闻,转载请注明出处:探寻与集中,Media附加价值开辟的四大方式

关键词:

上一篇:没有了

下一篇:没有了