Powerset初试


Powerset是一个自然语言搜索引擎。它是一家位于美国旧金山的创业公司,今年早些时候获得了施乐帕洛阿尔托研究中心(PARC)所研发的自然语言处理技术,标榜能够理解人类所使用的自然语言。这同Google、百度、雅虎之类的搜索引擎有极大的不同。后者利用关键字搜索,因而检出的结果同使用者原本的意图可能有很大差别,而且也很难判断自然语言中大量存在的同字不同意等模糊情况。一个自然语言搜索引擎,如果真像其名称所指的那样,就可以克服这些困难,更加准确地达到使用者想要的信息。

然而我总是对这样的宣称持怀疑态度。事实上人工智能发展了半个多世纪,自然语言处理一直是研究热点之一──但主要成果都集中在语音识别上,即将输入的自然语言语音解读成准确的文字。据我所知,还没有任何技术进展能够完整地识别一门自然语言,例如英语。不过,简单的理解并没有不可逾越的困难,例如基于特定句式的单句理解已经有了颇多的成果,人们可以把不太复杂的单句用逐字分析的方法纳入特定的语法结构,然后根据解析出的语法结构来判断单字的意义,并转化成计算机所能够识别的查询条件。

Powerset的搜索技术应该大致基于此。你不可能指望输入──不要说长篇大论──即使是一个小片段,该引擎也能理解并返回相关的结果。这种输入即使能够被允许,目前“智能”的自然语言理解恐怕远没有聪明点的关键字匹配来的有效甚至准确。

Powerset公布已经很久了,可是到目前未知仍然没有开放(说是要到2008年初)。前两天收到了他们的实验网站Powerlabs的邀请(你可以到这里来注册),于是来体验一把。Powerlabs的页面做得不错,充分使用了AJAX(没有Flash!),用户体验很好。网站的功能之一是用户社区,你可以提出改进意见,并且有类似Slashdot的业值(Karma)系统来评价你的贡献。业值高了能够试用更多的功能作为奖励。看样子目前Powerset正处于集思广益阶段,非常倚重社区,希望通过用户的反馈来不断改进服务。

另一个重点就是自然语言搜索演示。与我原本期待的不同,这里你不能随意输入任意的句子,而只能在一大组提供的句式中填空,例如A说了B什么,X画了什么,之类。演示所采用的索引数据库不是整个互联网,而是英文wikipedia。这大概也是因为相对整个互联网散漫的语言而言,wikipedia更有组织,更能够正确建模的缘故。演示将句式分成引用、商业、艺术和体育四大类,这一来方便用户,二来我想wikipedia的内容也可以根据分类优化,从而结果更准确。我测试了下面几个例子:

1、商业。句式 Who works for ___ (谁为___工作?)填入 chinese government (中国政府)

结果(点击放大)
谁为中国政府工作?
结果看上去不错。黄色高亮标出的是搜索引擎认为相关的结果。第一条来自漫画“Supreme Power”,第一段高亮不太相关,第二段很正确。第二条结果也是第二段正确。

2、引用。句式 What did ___ say about ___ ? (___说___了什么?) 填入 google 和 microsoft(微软)

结果(点击放大)
Google说微软了什么?
没有返回搜索引擎认为相关的结果。在我看来列出的结果确实不太好。也许wikipedia里目前没有相关内容?Powerset大概还没智能到联想的地步,比如不能理解Google和Microsoft高官之间的唇枪舌剑就是高度相关的。看来句式复杂一点就会出问题。

3、引用。句式 What did ___ say? (___说了什么?) 填入 steve ballmer(微软CEO)

结果(点击放大)
Steve Ballmer说了什么?
句式简化一点结果就好多了。不过此公确实经常大放厥词。

此外演示还提供了一个powermouse功能,用图示的方法列出两个名词和一个关系(动词)的结构。例如你可以填写man和woman,然后引擎列出男人和女人之间所有可能的关系和动作。不过还不能智能到归纳所有男人和所有女人,例如结果里就不会田亮和郭晶晶的故事。我试了查询colonize(殖民)关系,其中一方是mars(火星)。结果(点击放大):

什么/谁殖民火星?
结果大致靠谱。也许这是个科幻的话题,结果所列出的关系多出自于科幻小说。有趣的是其中关于中国人殖民火星的结果很多啊 🙂

总得来说Powerset初用感觉还行。总结下来优点如下:
1、对于英语能处理动词的变位,名字单复数,不过这应该是基本能力了吧。
2、界面体验不错,很漂亮。这年头这个很重要。
3、集思广益,充分利用网络的力量。而且自然语言毕竟是人类语言,不范式化的地方很多,所以要理出合理的关系,还要靠大量人工。

缺点:
1、最核心的,这只是自然句式处理。当然人工智能没有重大突破前真正的自然语言理解不可能实现。
2、虽然是这样,还是希望最后的产品能够允许用户自由地输入句子,而不是像现在这样选择并填空。
3、演示中没有更复杂的句式,例如三个以上空的。也许他们已经有了更强大的功能,我业值不高还不能试用?
4、不能联想啊……不过这是不是要求太高了。
5、目前速度很慢。尽管索引限于wikipedia,用户也很少,速度跟Google比还是差了一大截。这样会带来很不好的用户体验──现在人们已经被惯坏了,谁会愿意等半天只看到一堆无用的结果?

Powerset去年底得到默多克新闻集团和几个硅谷投资公司1250万美元的风险投资,风头正盛。它所标榜的技术是非常能够吸引人的,想要超过或者成为另一个Google,也许只需要做的稍好一点。不管怎样,这将是第一个“传统”的人工智能课题得到大规模应用的例子,如果能够顺利开展,一定会为这方面的研究带来巨大促动。


4 responses to “Powerset初试”

  1. google基本可以不用自己的员工了,我认识大批量的geeker~~~
    就是弄不明白,是非常喜欢google,还是对技术感兴趣?

  2. @Jiaxiang:
    呵呵,新年快乐!你今年该毕业了吧?

    @蛮子:
    这个……我不是G粉,不过Google在搜索和很多计算机领域有强大的技术是他受人尊敬的重要原因之一。通常专注于技术的人对这样强大而又开放的公司是心向往之的,更何况Google有非常好的员工福利。很多人喜欢Google的另一个原因也许是终于出现了一个可以和微软相抗衡的公司,后者尽管也有强大的技术,但在开放(例如对待开源的态度)上总显得不很招人(尤其是Geek)喜欢。

Leave a Reply

Your email address will not be published. Required fields are marked *