互联网上有着大量的Hidden Web ,也就是“暗网”的存在。目前能被搜索引擎检索到的信息只占人类所有信息中很小的一部分,大量的信息仍然处在“未知世界”当中。有数据显示,“已知”在“未知”中的比例大约为千分之二。这一方面是因为目前很多人类信息并没有实现Web化,另外一方面,即使是一些已经Web化的信息,也因为没有纳入到搜索引擎的检索体系而无法被人们便捷的获取。
“阿拉丁”:“暗网”世界的探照灯
百度“雪藏”多年之久的“阿拉丁计划”终于浮出水面。12月18日,在百度上海研发中心的揭牌仪式上,百度CEO李彦宏携刚刚履新的百度CTO李一男一同出席,并向外界首次透露了正在推进的“阿拉丁计划”。“百度有2000名核心工程师,现在有超过1000名的技术力量投入了‘阿拉丁平台’的研发。”李一男表示,“上海研发中心成立后,还会有更多的工程师加入到这一搜索‘暗网’的团队中。”
记者在上海研发中心挂牌的发布会上了解到,互联网上有着大量的Hidden Web ,也就是“暗网”的存在。目前能被搜索引擎检索到的信息只占人类所有信息中很小的一部分,大量的信息仍然处在“未知世界”当中。有数据显示,“已知”在“未知”中的比例大约为千分之二。“这一方面是因为目前很多人类信息并没有实现Web化,另外一方面,即使是一些已经Web化的信息,也因为没有纳入到搜索引擎的检索体系而无法被人们便捷的获取。”艾瑞咨询总裁杨伟庆告诉记者。
百度阿拉丁平台的推出,正是为解决现有搜索引擎无法抓取和检索“暗网”信息而来。“如果我们把百度搜索引擎比做一个探照灯,在无边无际的信息宇宙中扫射并且记录下来,那么,那些探照灯从来扫射不到的区域,都是‘暗网’。如何将这些已知和未知信息分门别类地融合,有序地纳入到我们的知识范畴,并且能够为广大互联网用户提供零成本、无障碍、无时差的精准送达,是有史来我们在技术上面临的最大挑战。”李一男对阿拉丁计划的艰巨性直言不讳。
在李一男看来,对Hidden Web的抓取仅仅是“阿拉丁计划”的“试水”,更高层次的搜索还在于,它将对Hidden Knowledge,也即对人类“未知的知识”进行挖掘和整理。一位搜索引擎专家说:“搜索引擎需要做的,就是如何将信息从人类的大脑以及其他地方挖掘出来。”今年汶川特大地震发生后的紧急救援中,就是百度贴吧的一位网友发帖、并经诸多网友的努力传播,救援部队才找到了合适的降落地点,顺利完成了空降任务。
“可以这么说,阿拉丁是一个开放的搜索引擎平台,它是百度的,更是面向所有人的。我们希望未来的搜索引擎,能像阿拉丁神灯那样,在瞬间满足用户所有的搜索需求。”李一男这样描绘着百度心目中搜索引擎的未来。中国互联网协会副理事长高卢麟也表示:“这不仅对中国,对于整个人类的信息和知识交流而言,都有着非常重要的意义。” |