[原]使用结巴分词提供分词服务

    在之前的文章《关于“啊哦”这个图片分享的小站》有提到过,那里面实现了一个提取用户输入关键词的服务,用来作为分享的tag。

    之前没有这个功能的时候,tag必须要手动输入。我觉得这样没意思,不好玩。就在github上找到了结巴分词这样一个工具,原作者是用python实现的,现在也有许多其他版本的实现,比如java,C++。

    最开始我想选用C++版本的,因为这个版本提供了http服务,可以直接用PHP调用,但是后来读他的说明和联系作者,发现只提供了分词的服务,而没有提取关键词的服务。(虽然作者后来帮忙加上了提取关键词的http服务)。所以只能自己动手丰衣足食了。

    结巴分词的关键词提取功能相对简陋,不过感谢作者。提取关键词的时候会先分词,然后 使用 TF/IDF排序方式 来计算这些词的排名。最近有在考虑用完成以下结巴分词PHP版,先不论PHP性能对比其他的怎么样。至少自己能学到很多。

    最原始python实现的代码没有对外提供服务,所以对于这种我自己玩的小应用随便实现一个常驻进程提供服务就可以啦。应该是很容易的。于是我找到了能让python提供http服务的框架 tornado。只要几行代码,就可以成功启动服务,简直酷炫。    

Continue reading

Code | wwpeng | | (0) |

关于“啊哦”这个图片分享的小站

    想做一个个人的站点,来实现莫名其妙蹦出来的各种奇怪的想法,这是一年前想做的东西,啊哦 (我不怎么会起名字,就选了个象声词来代表了) 已经运行了将近一年了,虽然没什么用户,也没什么流量,这不重要,这里有点像是一个私人的试验田,时不时的改动和新想法在实现。

    网站的整体UI都是我一个搞后端的人自己搞的。尽情的吐槽吧,一年前设计成这样,就不想大改了,那时候还没有用过bootstrap等等类似的框架,完全手写的UI。打开PS的那个时候。。我觉得我跟这个软件格格不入。

  啊O – 简单图片分享

    这LOGO看着眼熟嘛?你猜对了。。当时刚刚热映完的泰囧的那个囧字。。被我弄来了~~~

    这个站的目前也实现了点有点意思的功能,比如现在已经实现了的自动提取关键词的服务等,用户分享图片后数据的一段话,如果用户没有输入关键词的话,可以程序调用服务自动获取服务来提炼这一段话的关键词。

    图片的来源我会写一些python的爬虫去别的网站抓取,然后在过滤。。

    还做过一些验证图片唯一性之类的时间。。有时间在博客里面一一聊聊。

    我还有好长的TODO list 没有完成。比如,badwords屏蔽,人脸识别,等等这样的有趣的功能我都想尝试下。come on~

    服务器是阿里云的乞丐版,满足个人的需求是问题不大的。    

    关于这个小东西,欢迎大家留言,意见也好,吐槽也好,觉得这玩意好像没啥用都好。。。欢迎留言,我会认真考虑大家的意见

Code | wwpeng | | (0) |