Solr 7.2.1配置smartcn中文分词器

  近期准备将歌词Style后端进行重构,首先将原来内嵌的Lucene 4.10.2升级到Solr 7.2.1。印象中上次使用Solr应该还是3的版本,变化非常大,整体看了下,其实简化了不少配置,通过admin管理界面能很方便的添加core和fieldType,也不用到处copy xml。这里简单记录下:

1、下载、解压:

wget http://mirrors.hust.edu.cn/apache/lucene/solr/7.2.1/solr-7.2.1.zip
unzip solr-7.2.1.zip
cd solr-7.2.1

2、加入smartcn分词器
  解压的contrib里面其实已经包含了smartcn分词器,默认没有启用,这里将其加入到默认的config中。

一、编辑server/solr/configsets/_default/conf/solrconfig.xml
节点最后增加:

<lib dir="${solr.install.dir:../../../..}/contrib/analysis-extras/lucene-libs/" regex="lucene-analyzers-smartcn-\d.*\.jar" />

二、编辑server/solr/configsets/_default/conf/managed-schema
节点里面增加

<fieldType name="text_cn_smart" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
    <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
  </analyzer>
  <analyzer type="query">
    <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
  </analyzer>
</fieldType>

3、启动、创建core:
  由于我这里是root用户安装,需要加-force,官方不建议root下安装。

./solr start -force
./solr create -c lyric -force

  通过命令创建的core,默认会读取_default下面的配置,所以在上一步需要加入所需要的组件。如无问题则可以通过浏览器打开管理界面进行下一步。

4、增加Field:
  在Core Admin可以看到刚才创建的lyric已经出现在了右边,在Core Selector中选择lyric,可以看到更详细的信息,下拉框中已经给我们建好了几个Field,其中有一个类型为string的id和_root_,这个建议保留使用,并两者配置保持一致,其余的Dynamic Field依据情况可以删除,具体使用方法可以参考_default中的配置文件,注释说的很详细。

  这里我们直接选择Scheme -> Add Field,将需要索引的中文字段field type设置为之前设置的text_cn_smart,若是没有这一选项,检查前面的步骤。Solr已经具备通过dataimport组件导入任意来源的数据,不过我建议还是在程序中来添加数据,这里就不细说dataimport了。

5、验证:
  通过程序导入测试数据后,可以通过Analysis界面检查分词器是否正常工作,Query界面可以模拟查询,检验结果。_default中的配置是一份比较齐全的参考,在生产环境建议移除不需要的选项,避免影响性能。顺便提一句:Solr热度已经明显低于Elasticsearch。

回顾2017

  过去的一年里,依然在做一些有趣好玩的事。这一年里写博客少了,拍照也少了,但想分享的东西还是很多。

  工作上作为项目负责人,顺利将Spring Cloud架构引入公司的项目中,并在稳定用于生产环境,说实话踩了不少坑,当然也收获了不少,这里感谢领导同事们的信任与支持。就喜欢这种优雅而又简单的解决方案,对新同事来说学习成本也不高。

  过去的一年里,通过各种共享汽车,车技提升不少,各种复杂路况也算是游刃有余了,安全驾驶上万公里,零事故。感谢TOGO,iGo这些“练车”平台。解锁了蛙泳技能,并在最近成功挑战了2公里,耗时1个半小时。宝体的3米恒温池确实舒服,下一步将解锁自由泳,由此跑步有所减少。

  和好友注册了一家公司,当是个人品牌建设,花图相册没有啥变化,毕竟PC端已不再是主流,“歌词Style”公众号却人气增加不少,现在4000多的粉丝,每天使用700~900不等,明显出现了周末高峰期,计划着升级到服务号以提供更好的服务。摄影器材上出掉了佳能全套,败入Sony A7rII,50F1.4,1635F4,轻装上阵。当然还有一台Fujifilm X70出售中,计划换“Mavic II”,一代的画质不太理想。为了能在离职后不中断社保和更加自由的职业规划,将户口迁入了深圳。加入房奴一族,购买了位于大亚湾碧桂园一处房产,环境优美,宜居大盘,期待明年交房后生活。

  暂且记得的就这么多了,所谓累并快乐着。不忘初心,牢记使命,未来我想更多的是幕后走向台前,多元结合,合作共赢,期待。

岭背汤,不被大众所知的银杏小村

  一说到观赏银杏,回答最多的一定是广东省南雄市,这里有密集的银杏种植,位于著名景点帽子峰,也有千年古银杏群位于坪田镇。恰好到了这个季节,于是计划着自驾南雄之旅。显然人满为患的景区是不是这次首要考虑,介于上次揭阳梅海之行得出的重要结论,美景一般都是在深山老林。

  一个偶然的机会得知坪田岭背汤这个小村庄也有不少的老银杏,并且居住在村里的人已经基本搬离了,甚至连进村路都没修好,仅有一条半山腰凿出来的泥路,却成了当地摄影发烧友的天堂。在搜索了各大导航App之后发现并没有这个叫【岭背汤】的地方,不过也没关系,到了之后当地人总该清楚。于是长途跋涉500公里入住了镇上一处民宿之后,和老板闲聊了一阵子,得知我们的目的后很大方的介绍了这个地方,还推荐了别的一些拍摄点,于是第二天的计划就顺利的加入岭背汤。

  由于路不好走,坐着他们家的摩托车就过去了。后来发现其实不下雨,车也能进去,就是比较考验技巧,一般问题也不大。大体位置是在迳洞村往冯屋方向,过了冯屋景点再往里开大概10分钟路程。其实过了景点就已经看不到人了,沿途也没有指示牌。这个小村看起来都是建筑在山腰上,错落有致,银杏数量也超过我们想象,落在地上还沾着露水,没有踩踏过的痕迹,非常之美。

  不过此次行程大部分时间都在跑长途上了,并且天气也不给力,并没有拍的尽兴。最大的收获还是在于找到这样一个地方,有机会明年再来。

  本次行程一些照片都在花图相册:https://hitu.me/albums/steven/AFp6PhEHro7hZ5gYko4ydK

初代树莓派上使用ZeroTier LAN

  话说这个初代的Pi闲置也有好些年头了,一直通着电放在网络箱,没怎么用起来。这不最近发现有一个基于P2P网络的Private LAN工具:ZeroTier。正如他所描述的:A virtual networking layer that works the same everywhere。免费版本支持100个设备,基本也够用了。

  按官方的说明配置好Windows,MacOS,iOS都没问题,但最重要的要在Pi上用却遇到了点麻烦,通过apt官方仓库的方式安装,运行时会报段错误(Segmentation fault),可能是不支持debian stretch。想着既然开源的,不如直接编译一个,在官方Github上找到了源代码,make && make install之后一段漫长的等待之后,果然可以了,先用zerotier-one -d启动主程序,再join到创建的私有网络中,zerotier-cli join your_network_id,顺利加入到Lan中。

  注册,创建网络什么的就简单了,官网的操作后台也是既简洁又专业,记得新join的设备勾上Auth,测试了几天,延时还是比较大的,但稳定性不错,强力推荐。

漫长的深户之旅

  入了深户,只是为了更好的离开深圳,一切只是一个开始。

  一晃眼,也来深工作了六年多了,计划离职休息一段时间,一个很偶然的因素决定以个人申报方式将户口迁入深圳,于是开始了长达3个月之久的等待。入户方式有三种:调干、招/调工,在满足积分的情况下依个人情况具体选择,要说现在干部身份和工人身份究竟有多大区别,可能就好听点罢了。

  网上有各种各样关于身份的识别方式,然而汇总到一点就是全日制普通大中专院校毕业生就够了。正常情况下毕业后会有个学籍档案,并附有报到证一式两份,蓝色联贴在档案袋外面,白色联放在档案内。由于毕业后一直没处理档案,联系了学校档案处老师,约了个时间过来顺利拿到尘封6年之久的学籍档案,档案袋都破了,给换了个新袋子,重新贴上封条,顺便看了一眼当年的成绩,哎~~

  大概2014年之前的学籍档案放入人才市场或事业单位一年后会有转正定级的操作,这就是那些年的干部身份获取方式。然而这么多年过去了,随着国家政策的变化,已经在全国范围逐步取消转正定级,还包括档案托管费,以及干部介绍信之类的,很巧我们那就已经没有了。作为政策的衔接,深圳这边在认定干部也不再检查转正定级,然而对外的资料都还是说要这个。

  在了解相关背景后,本着人在哪,档案就在哪,有则全力争取的原则,在去年的11月23日签下代理协议的时候选择了以调干这种困难模式开始了入户之旅,就连办事人员对我这种档案居然还拿在自己手中的,能不能通过都还不确定。第二天便回家,将档案放在我们当地的人才市场。

  后面的步骤和大家就没什么区别了,很快的公示完了之后拿到商调函寄回家办理调档。随后的人社局审核一切顺利,并未要求补充什么资料。拿到调令去公安局办理户口准迁证,寄回家办理户口迁移证,同时原户口我那一页就被收上去了,想想还真有点舍不得。准迁证加迁移证就可以办理入户了,于是新的户口页打印出来。再办理新身份证,为了原证不被剪,可以选择邮寄。到此全部搞定。

  正如开头所说,一切只是一个开始。