软件工程
当前位置 :首页信息技术软件工程

Sphinx与Lucene站内搜索引擎对比

来源: 作者: 时间:2013-07-13 点击:

1、Sphinx

基于 GPL 2 协议颁发的免费开源的全文搜索引擎.它是专门为更好的整合脚本语言和SQL数据库而设计的.当前内置的数据源支持直接从连接到的 MySQL 或 PostgreSQL 获取数据, 或者你可以使用 XML 通道结构(XML pipe mechanism , 一种基于 Sphinx 可识别的特殊xml格式的索引通道) Sphinx 全文索引的主要特性:
1. 高速建立索引 (在主流CPU , 可达10M/秒)   
2. 高速查询 (在 2-4 GB 的文本里查询平均耗时在 0.1 秒以内)   
3. 高扩展性 (单CPU支持高达100G的数据文本,1亿条记录)   
4. 支持分布式检索 (0.9.6版起)   
5. 原生支持Mysql (MyISAM 和 InnoDB 表都被支持)   
6. 支持表达式查询
7. 支持相近词组排名,提供良好的相关查询   
8. 支持英文,俄文词干提取和音标查询   
9. 支持任意数量的文档字段 (可以查询时修改权重)   
10.支持文档组   
11.支持分词   
12.支持不同的查询模式   
13.通用的XML接口,大大简化了集成定制   
14.纯PHP客户端API(无需编译扩展)

2、Lucene

Apache Lucene是一个高性能[high-performance]的全能的全文检索[full-featured text search engine]的搜索引擎框架库,完全[entirely]Java开发
它是一种技术[technology],适合于[suitable for]几乎[nearly]任何一种需要全文检索[full-text search]的应用,特别是跨平台[cross-platform]的应用

Lucene 通过一些简单的接口[simple API]提供了强大的特征[powerful features]:
可扩展的高性能的索引能力[Scalable, High-Performance Indexing]
超过20M/分钟的处理能力[Pentium M 1.5GHz]
.很少的RAM内存需求,只需要1MB heap
.增量索引[incremental indexing]的速度与批量索引[batch indexing]的速度一样快
.索引的大小粗略[roughly]为被索引的文本大小的20-30%

强大的精确的高效率的检索算法Powerful, Accurate and Efficient Search Algorithms
.分级检索[ranked searching]能力,最好的结果优先推出在前面
.很多强大的query种类:phrase queries, wildcard queries, proximity queries, range queries等
.支持域检索[fielded searching],如标题、作者、正文等
.支持日期范围检索[date-range searching]
.可以按任意域排序[sorting by any field]
.支持多个索引的检索[multiple-index searching]并合并结果集[merged results]
.允许更新和检索[update and searching]并发进行[simultaneous]

跨平台解决方案[Cross-Platform Solution]
.以Open Source方式提供并遵循Apache License,允许你可以在即包括商业应用也包括Open Source程序中使用Lucene
.100%-pure Java[纯Java实现]
.提供其他开发语言的实现版本并且它们的索引文件是兼容的

最新评论共有 位网友发表了评论
发表评论
用户名: 密码: 游客发言不需要密码