搜狗实验室
频道地址:http://labs.blog.sohu.com/rss
离线订阅:
订阅数量:43  网站名称:其它  Tag(6)  评论(0)  与好友共享    举报
相关标签:搜狗实验室官方博客  
    最近更新:2008-02-28 21:32:16
提示:当前RSS频道由用户提交推荐而列出,如有不妥,请联系我们及时删除!
助理研究员、副研究员(搜索技术研发)职位描述1 负责通用搜索引擎和垂直搜索引擎相关技术的研究 2 相关性排序技术,anti-spam技术,分词技术,海量信息分类/聚类技术和web数据挖掘技术等 职位要求 1 硕士及其以上计算机相关学历 2 熟练掌握C/C++语言、VC/GCC开发环境 3 对NLP、Information Retrieval或Machine Learning有较为深刻的了解 4 有超链分析/内容分析/排序算法相关方向经验者优先 http://job.sogou.com/tech_index.html#01
2008-02-27 15:29:50   评论(0)
今天,我们来进行链接分析算法的最后一次讲座,今天介绍的PageRank算法是Google公司的Brin等人根据因特网用户浏览模型建立的链接分析算法。 PageRank算法的基本架构和实现思路在实际商用搜索引擎的应用中取得了巨大的成功,并由此得到了研究界的普遍关注,尝试对算法进行性能和效率改进的努力一直到最近也是链接关系分析方面研究的重点之一。 PageRank算法将网络浏览模型作了合乎情理的简化:假设存在这样一名网络浏览者,他从随机挑选的页面开始,按照页面上的链接前进,在每一个页面,浏览者都有可能不再对本页面内部的链接感兴趣,从而随机选择一个新的页面开始新的浏览。 在这种浏览模型下,一个页面被访问到的概率即反映在此页面的Rank值的大小上。如下图所示,页面q1包含指向页面p和m的链接,则它对p和m在Rank值上的贡献各是它自身Rank值的一半。 形式化的说,在PageRank算法中页面P被访问到的概率依下式给出: 其中,sigma是有链接指向页面P的网页的集合,而d是页面P的重要性因子,由先验知识得出,反映用户认为这个页面有用的程度。简而言之,就是用户会不会从抛弃这个页面而开始一个新的随机访问过程。算法中,上述计算过程被重复进行直到运算结果收敛为止。而作为计算结果的Rank(P)则被用作页面质量的评价参数。 PageRank算法被作为Google的主要成功经验之一广为推介,但他在学术研究的层次上并没有获得想象之中的比较大的成功。 Nick Craswell与David Hawking发现,即使在链接...[查看详细内容..]
2007-08-07 11:59:25   评论(0)
上个世纪最后二十年以来Internet的发展和普及为人们提供了一个全新的信息存储、加工、传递和使用的载体,Web信息迅速成为了社会成员获取知识和信息的主要渠道之一,于是将传统的信息检索技术与网络应用实际相结合的Web信息检索应运而生。Web信息检索技术的发展,已经为人们访问网络信息资源提供了巨大的便利如拥有最大规模网页索引量的Google系统(http://www.google.com/),IBM公司的Clever计划(http://www.almaden.ibm.com/cs/k53/clever.html)等都是其中检索效果和性能比较突出的代表。 随着网络普及程度的提高,网络搜索引擎在我国互联网用户的网络使用中也起到了举足轻重的作用,2005年7月公布的中国互联网络发展状况统计报告[CNNIC 2005]指出,当前中国搜索引擎用户已占互联网用户的95.2%,绝对用户数超过9500万人。包括搜索引擎在内的网络信息检索工具已经成为网络用户获取信息的主要手段,84.5%的用户指出搜索引擎是他们得知新网站的主要途径,而58.2%的用户认为搜索引擎是他们最主要的获取网络信息的途径。 中文互联网搜索市场日趋激烈的竞争也从另一个侧面反映了搜索引擎的用户吸引力和市场价值。2004年之前百度(http://www.baidu.com/)基本涵盖了中文互联网全部的搜索流量,但从2005年开始,传统意义上的四大中文门户网站(新浪、搜狐、网易、腾讯)均陆续推出了自己的搜索引擎服务,而Google,Yahoo!,MSN Search等跨国品牌也日渐重视中文搜索,分别推出自己全新的中文搜...[查看详细内容..]
2007-06-15 14:56:12   评论(0)
11月16日,SogouLab在北京航空航天大学进行了一次学术专场交流会,交流会由北航计算机学院的相关同学协助举办,北航70多名各院系同学和Sohu公司研发中心的8名研发人员参加了交流会。学术交流是SogouLab加强与学术研究领域沟通,取长补短的重要形式,为了办好这次交流会,SogouLab组织相关研发人员进行了认真的准备,将日常工作中的亮点和同学可能关注的热点进行提炼,为同学呈献了精彩的学术报告。 研发人员为同学们带来的学术报告内容包括: 1、大规模网页链接分析及其应用 (茹立云) Web链接分析是搜索引擎和网络信息检索系统区别于传统文本信息检索系统的重要特征之一,有效的链接分析对于搜索引擎结果排序、网页质量评估、垃圾过滤等有着非常重要的作用。尽管早在1998年,Google公司的Page和Brin就提出了PageRank的相关算法,但真正使用在大规模网络搜索引擎中的链接分析算法与传统的PageRank算法则大相径庭。茹立云副研究员在清华大学计算机系就读硕士期间就对链接分析算法有深入的认识,进入Sogou之后更是全面负责了这方面工作的工作开展。他的讲解深入浅出的回顾了网页链接分析的历史,并从实际应用中传统方法的困境出发,逐步介绍了搜索引擎链接算法真实应用的案例情况。 2、网页分层滤重算法及其应用 (苏雪峰) 互联网络中的冗余页面问题一直是困扰搜索引擎研究的核心问题之一,整个万维网中的冗余内容页面比例达到30%以上,而在中文互联网中的这个比例更高。如何判断结构形...[查看详细内容..]
2006-12-01 18:32:19   评论(0)
这次介绍一下搜索引擎中链接分析的HITS算法 HITS算法是由Kleinberg在90年代末提出的一种链接分析算法,与随后我们将介绍的PageRank等实用性算法不同,HITS算法更大程度上是一种实验性质的尝试。它必须在网络信息检索系统进行面向内容的检索操作之后,基于内容检索的结果页面及其直接相连的页面之间的链接关系进行计算。这使得在实际应用环境中使用HITS算法变得十分困难,尽管有人尝试通过算法改进和专门设立链接结构计算服务器(Connectivity Server)等操作,可以实现一定程度的在线实时计算,但这对于每天要处理超过几十亿次用户需求的商用搜索引擎而言,这样的计算代价仍然是不可接受的。 尽管如此,但HITS算法仍在学术界和产业界都获得了非常多的关注,IBM公司甚至基于改进后的HITS算法开发了专门的检索应用系统Clever系统(尽管此系统并没有投入真实的网络信息检索服务)。这是与HITS算法设计本身所具有的高度的数学严谨性相关的,但更重要的,是因为HITS算法的设计符合网络用户评价网络资源质量的普遍标准,因此能够为用户更好的利用网络信息检索工具访问互联网资源带来便利。 HITS算法对网页进行质量评估的结果反映在它对每个网页给出的两个评价数值——内容权威度(Authority)和链接权威度(Hub)上。 内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;与之相对应的,链接权威度与网页提供的超链接的质量相关,引用越多内容...[查看详细内容..]
2007-06-27 00:06:29   评论(0)
伴随着新年来临和搜狗网络搜索3.0版本的上线,搜狗实验室也同步推出了自己的一系列新产品,与研究界的朋友们分享。这些产品除了继续公布的一部分语料数据外,还包括了近期搜狗实验室参与撰写的一部分工作论文,其中不少涉及了搜狗搜索引擎自身的核心技术成果。它们的具体内容包括: 互联网语料对应的链接关系库:互联网超链接结构的分析一直是搜索引擎相关研究人员重点关注的研究对象,在2006年11月份公布4000万页面对应的互联网语料库SogouT之后,搜狗实验室已经接受了十几家研究单位的数据复制请求。为了进一步方便相关研究人员使用这部分语料资源,这次实验室专门提取了对应互联网语料库SogouT的链接关系库。这使得利用这部分数据尝试构建自己的“PageRank”算法成为可能。 互联网图片库:搜狗图片检索的易用与全面逐渐得到了用户的承认,这从图片检索节节攀升的用户量上就可以得到证实。这次推出的图片库就是图片检索核心研发成员精心制作的产品,其中不仅包括了十几万张图片的原始图片、缩略图,还包括了利用搜狗核心技术自动标注的关键词、描述文字等信息。相信不仅研究图像检索的研究人员可以使用,一般的技术爱好者也可以利用这个资源构建自己互联网图片库,丰富自己的设计素材。 最后,是一部分学术论文资源,目前公布了最近发表在国内外权威期刊与会议上的五篇论文,这几篇论文都是搜狐公司研发中心与清华大学智能技术与系统国家重点实验室合作研究的成果,而文章中涉...[查看详细内容..]
2007-01-16 17:21:23   评论(0)
1945年,在二次世界大战即将胜利之际,一位叫做Vannevar Bush的美国人提出了这样一个观点:在2010年左右,世界上应该有一种工具,它能够使人们最方便快捷的获取所有图书馆中藏有的知识。Bush的预见性确实对得起他卓著的声名(他被称为“科学将军”“加速二战胜利的人”,是曼哈顿工程和美国自然科学基金的创立人),尚未走到21世纪第二个十年的我们,已经能够很大程度上享用信息搜索技术带给我们的快捷与方便。数字图书馆、互联网搜索引擎、遍布各行各业的全文搜索系统等等已经成为我们生活中不可或缺的一部分。 科学研究的前瞻性,使其在互联网搜索技术的发展中一直发挥着重要的作用,从上世纪五十年代开始,Bush领导下的NSF基金就开始大力支持信息检索技术的研究与发展,众多大规模实验性检索技术和系统的涌现与发展,为互联网搜索引擎今日的迅猛发展奠定了坚实的基石。而互联网搜索产业的巨大成功,又成为包括信息检索、自然语言处理、互联网结构分析、网络用户行为分析等一系列学术研究方向的最强大推动力。 这说明互联网搜索产业一直与学术研究领域有着密不可分的关系,从Bush的预言和他对检索技术研发的支持,到1996年康奈尔大学简陋的实验室中PC上搭建的原型Google,再到今天在您面前呈现的这个尚在襁褓之中的“搜狗实验室”,都是反映这种“共生”关系的产物。
2006-11-03 10:38:23   评论(0)
提交成功...