`
duoerbasilu
  • 浏览: 1486685 次
文章分类
社区版块
存档分类
最新评论

Solr简介

 
阅读更多

Apache Solr简介(xiangjiang5011@163.com

Apache solr官方查看地址:http://lucene.apache.org/solr/

What Is Solr?

Solr is the popular, blazing fast open source enterprise searchplatform from the Apache Lucene project. Its major features includepowerful full-text search, hit highlighting, faceted search, dynamicclustering, database integration, rich document (e.g., Word, PDF) handling, andgeospatialsearch. Solr is highly scalable, providing distributedsearch and index replication, and it powers the search and navigation featuresof many of the world's largest internet sites.

Solr is written in Java and runs as a standalone full-text searchserver within a servlet container such asTomcat. Solr uses theLucene Java search library at its core for full-text indexing and search, andhas REST-like HTTP/XML and JSON APIs that make it easy to use from virtuallyany programming language. Solr's powerful external configuration allows it tobe tailored to almost any type of application without Java coding, and it hasan extensive plugin architecture when more advanced customization is required.

solr目前已经更新到3.5的版本可能由于中文分词器支持的原因(很多中文分词器并不支持solr的高版本),因此企业内部用的最多的还是1.4.1版本的solr,几乎支持所有的中分分词器,为了设计到solr的各方各面,已经公司的需要,因此,此次都是关于solr1.4.1相关的学习

windowns系统下在tomcat中安装单个solr

推荐学习地址:http://wiki.apache.org/solr/SolrTomcat

1.准备目录环境

新建目录D://solrworkspace/

下载solr1.4.1版本到目录D://solrworkspace/apache-solr-1.4.1.zip

下载tomcat6.0版本到目录D://solrworkspace/apache-tomcat-6.0.30.zip

解压D://solrworkspace/apache-solr-1.4.1.zip到当前目录为D://solrworkspace/apache-solr-1.4.1($APACHE_SOLR_HOME)

解压D://solrworkspace/apache-tomcat-6.0.30.zip到当前目录为D://solrworkspace/apache-tomcat-6.0.30($TOMCAT_HOME)

新建目录 D://solrworkspace/solr($SOLR_HOME)

新建目录($TOMCAT_HOME)/conf/Catalina/localhost

2.jar包部署

$APACHE_SOLR_HOME/dist/apache-solr-1.4.1.war copy到路径为D://solrworkspace/apache-solr-1.4.1.war 并改名为D://solrworkspace/solr.war

$APACHE_SOLR_HOME/dist/apache-solr-*.jar copy到目录$TOMCAT_HOME\lib

3.配置文件的修改

修改$TOMCAT_HOME/conf/tomcat-users.xml 添加

<role rolename="manager"/>
<role rolename="admin"/>
<user username="tomcat" password="tomcat" roles="manager,admin"/>
添加对中文的支持 $TOMCAT_HOME/conf/server.xml
<Server >
 <Service >
   <Connector port="8080" protocol="HTTP/1.1" 
 connectionTimeout="20000" 
 redirectPort="8443" URIEncoding="UTF-8" /> 
    ...
   </Connector>
 </Service>
</Server>

目录($TOMCAT_HOME)/conf/Catalina/localhost 新建solr.xml

修改solr.xml内容为

<?xml version="1.0" encoding="UTF-8"?>
<Context docBase="D:\solrworkspace\solr.war" debug="0" crossContext="true" >
<Environment name="solr/home" type="java.lang.String" value="D:\solrworkspace\solr" override="true" />
</Context>

4.solr配置文件的部署

copy ($APACHE_SOLR_HOME)/example/solr目录下所有文件到$SOLR_HOME目录

5.启动tomcat

($TOMCAT_HOME)/bin/startup.bat

6.访问solr管理界面 http://localhost:8080/solr

solr添加mmseg4j中文分词

mmseg4j-1.8.3版本支持solr1.4.1,当前最高版本版本mmseg1.8.5版本过高不支持solr1.4.1

在$SOLR_HOME目录下新建lib,dic两个文件夹

下载mmseg4j-1.8.3.zip到D:/solrworkspace/mmseg4j-1.8.3.zip

解压D:/solrworkspace/mmseg4j-1.8.3.zip 为D:/solrworkspace/mmseg4j-1.8.3($MMSEG_HOME)

复制$MMSEG_HOME/data 目录下 *.dic 到目录 $SOLR_HOME/dic目录下

复制$MMSEG_HOME/mmseg4j-all-1.8.3.jar 到目录$SOLR_HOME/lib目录下

修改$SOLR_HOME/config/schema.xml

复制

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">

<tokenizer class="solr.WhitespaceTokenizerFactory"/>

<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true" />

......

</analyzer>

</analyzer>

</fieldType>

分别为

<fieldType name="text_mmseg_complex" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>

<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true" />

......

</analyzer>

</fieldType>

<fieldType name="text_mmseg_max_word" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>

<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true" />

......

</analyzer>

</fieldType>

<fieldType name="text_mmseg_simple" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>

<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true" />

......

</analyzer>

</fieldType>

添加3条

<fields>

<field name="textMmsegComplex" type="text_mmseg_complex" indexed="true" stored="false"/>

<field name="textMmsegMaxWord" type="text_mmseg_max_word" indexed="true" stored="false"/>

<field name="textMmsegSimple" type="text_mmseg_simple" indexed="true" stored="false"/>

</fields>

访问http://localhost:8080/solr/admin/analysis.jsp

Filed 选择框选择 name 后面的输入框填写textMmsegComplex,textMmsegMaxWord,textMmsegSimple3种值,分别对应mmseg3中分词格式

Field value (Index) 被索引的分词词组,Field value (Query) 被查询的分词词组

后面的输入框输入你想要被分词的语句或词组

点击Analyze可以看到分词后被索引,和查询的结果

分享到:
评论

相关推荐

    Nutch搜索引擎·Solr简介及安装(第2期)

    1.1 Solr 简介 1.1.1 Solr 的特性 1.1.2 Solr 的目录结构 1.1.3 Solr 与Lucene 关系 1.2 Solr 安装 1.2.1 环境介绍 1.2.2 安装Solr 1.2.3 结合Nutch

    solr学习文档简介1

    solr简介

    solr概念介绍

    solr概念介绍ppt,用于公司内部培训

    高效的企业级搜索引擎Solr

    高效的企业级搜索引擎Solr简介,快速学习Solr

    Solr reRank简介

    Solr reRank简介,用于描述solr二次排序的规则,Solr reRank简介,用于描述solr二次排序的规则

    Lucene&solr.zip

    Lucene&solr简介及使用,首先介绍了lucene,之后介绍了solr,中间有各种相关插件的应用.

    积分商城基于Solr搜索引擎PPT

    1. 积分商城现状 2. 搜索领域知识、原理、应用 3. Solr简介、部署及中文分词 4. SolrJ项目中应用 5. Solr分布式应用 6. 大型网站架构分析

    solr_rce:通过Velocity模板的Apache Solr RCE

    0x01 solr简介 Solr是Apache Lucene项目的开源企业搜索平台。其主要功能包括全文检索,命中指示,分面搜索,动态聚类,数据库集成,以及富文本的处理。2019年10月30日,国外安全研究人员放出了一个关于solr模板注入...

    hive-solr:使用Hive读写solr

    (一)Hive+Solr简介 Hive作为Hadoop生态系统里面离线的数据仓库,可以非常方便的使用SQL的方式来离线分析海量的历史数据,并根据分析的结果,来干一些其他的事情,如报表统计查询等。 Solr作为高性能的搜索服务器,...

    Java微服务架构l零从基础到精通高清视频教程全套 163课

    148 Solr 全文搜索引擎-Solr 简介 149 Solr 全文搜索引擎-Solr 服务器部署 150 Solr 全文搜索引擎-Solr 配置字段域 151 Solr 全文搜索引擎-Solr 维护功能 152 Solr 全文搜索引擎-Solr 查询与高亮显示 153 Solr 全文...

    Java微服务架构163课

    148 Solr 全文搜索引擎-Solr 简介 149 Solr 全文搜索引擎-Solr 服务器部署 150 Solr 全文搜索引擎-Solr 配置字段域 151 Solr 全文搜索引擎-Solr 维护功能 152 Solr 全文搜索引擎-Solr 查询与高亮显示 153 Solr ...

    相关性搜索利用Solr与Elasticsearch创建智能应用

    资源名称:相关性搜索 利用Solr与Elasticsearch创建智能应用内容简介:《相关性搜索:利用Solr与Elasticsearch创建智能应用》揭开了相关性搜索的神秘面纱,告诉大家如何将 Elasticsearch与 Solr这样的搜索引擎作为可...

    Lucene全文检索框架+Solr+ElasticSearch搜索引擎(Java高级必备.ES)

    1、Solr简介 2、Solr下载安装以及目录结构介绍 3、Solr应用部署至Tomcat服务器 4、Solr后台管理界面介绍 5、通过managed-schema配置Field以及中文分词器 6、将数据库中的数据导入至Solr索引库 7、通过Solr后台...

    百度云盘 pdf《大数据架构和算法实现之路:电商系统的技术实战》百度云盘-带标签目录

    4.5.2 Solr 简介 ......………………… 113 4.5.3 Elasticsearch 简介…………… · 120 4.6 案例实践……………… 123 4.6.1 实验环境设置.. ... ....………… 123 4.6.2 基于 Solr 的实现 …………… 123 4.6.3 ...

    Nutch搜索引擎(1-5期)

    Nutch搜索引擎·Nutch简介及安装(第1期) Nutch搜索引擎·Solr简介及安装(第2期) Nutch搜索引擎·Nutch简单应用(第3期) Nutch搜索引擎·Eclipse开发配置(第4期) Nutch搜索引擎·Nutch浅入分析(第5期)

    solr 搜索引擎总结及相关安装教程

    有关solr搜索引擎的简介以及相关的安装教程,有助于新手的介入。。

    Solr培训文档

    开源搜索引擎Solr学习 搜索引擎发展大事记 搜索引擎分类--目录式搜索引擎 ...Lucene简介 Lucene与Solr的关系 Solr的特点与优势 Solr 客户端 Solr 体系结构图 查询HTTP接口参数 分库机制 缓存机制 庖丁解牛分词器

    ik-analyzer-solr:用于solr 7.x-8.x的ik-analyzer

    简介 适应最新版本的solr 7&8; 扩展IK首词库: 分词工具 词库中词的数量 最后更新时间 我知道 27.5万 2012年 毫米段 15.7万 2017年 字 64.2万 2014年 界坝 58.4万 2012年 ces 16.6万 2018年 搜词库 115.2万 2020...

    solr_exploit:Apache Solr远程代码执行突破(CVE-2019-0193)漏洞利用

    简介 理论上可以使用各种不同类型的数据源来构造 Exploit1使用数据源的类型为URLDataSource Exploit2使用的数据源类型为ContentStreamDataSource 检测突破-Exploit1 Exploit1使用数据源的类型为URLDataSource 优点...

    Lucene4.6+Solr4.6实战开发垂直搜索引擎视频课程

    47.struts 2.3.16简介 48.struts 2.3.16整合spring 4.0.1 49.spring 4.0.1整合hibernate 4.3.1 50.搜索引擎实战(1) 51.搜索引擎实战(2) 52.搜索引擎实战(3) 53.搜索引擎实战(4) 54.搜索引擎实战(5) 55.搜索引擎实战...

Global site tag (gtag.js) - Google Analytics