WANG LH , Research & Development

NLP-考研英语真题词汇统计

代码:https://github.com/Kingsea442/nlp_word/tree/master 生成词汇top1000:http://www.wanglh.top/post/blog/kao-yan-ying-yu-gao-pin-ci-hui 使用wordcloud分析前1000个重要词汇生成的词云图。 核心思想 想法:首先一般阅读中出现的不认识的词汇可能就那么几个不常见的,所以过滤掉常见的词,比如the,and,if,you......

Linux常用命令

解压缩文件 1.zip命令 例如:zip -r mysql.zip mysql 该句命令的含义是:将mysql文件夹压缩成mysql.zip zip -r abcdef.zip abc def.txt 这句命令的意思是将文件夹abc和文件def.txt压缩成一个压缩包abcdef.zip 2.unzip命令 与zip命令相反,这是解压命令,用起来很简......

常用正则表达式

匹配空白行 ^\n

Spark资料整理

官方文档 http://spark.apache.org/docs/latest/quick-start.html API Doc http://spark.apache.org/docs/latest/api/scala/index.html RDD Programming Guide http://spark.apache.org/docs/latest/rdd-programming-guide.html Spark SQL Guide http://spark.apache.org/docs/latest/sql-programming-guide.html 列分割成行 SELECT brand, sum(`_c4`) as total_count FROM tmp.search_filter_order LATERAL VIEW explode(split(filter_brands, ',')) num as brand WHERE filter_brands != '' GROUP BY brand

Elasticsearch原理分析

ES的分布式架构原理 Elasticsearch是分布式搜索引擎,它使用 Java 编写,内部采用 Lucene 做索引与搜索,但是它的目标是使全文检索变得更简单,简单来说,就是对Lucene 做了一层封装,提供了一套简单一致的 RESTful API 来帮助我们实现存储和检索......

异步导出框架

异步框架实现代码 实现的功能 前端提交导出任务 可以实时查看任务进度 任务完成后可以直接下载 解决的问题 后台功能经常会有这样的需求,导出数据。比如导出订单数据,可能会关联,订单信息,商品信息,退货信息......

统一依赖管理

共用依赖的管理 io.spring.dependency-management插件 Spring开发的一个依赖关系管理的gradle插件 github地址 spring官网介绍使用方式 gradle官网介绍使用方式 平时开发时会引用到很多spring依赖的包,有时这些包的版本号不一致,会出现一些莫名的问题,给开发......

日志的使用

日志的使用 记录log是有很多种方式,这里记下个人认为最方便的一种,使用注解@Slf4j https://logging.apache.org/log4j/2.x/index.html https://projectlombok.org/features/log @Slf4j 简化日志声明 idea需要安装lombok插件, lombok是个好东西,多研究研究多看看。lombok 项目依赖lombok包 annotationProcessor("org.projectlombok:lombok") 使用方式: @RestController @RequestMapping......

限流

单机限流 单机限流使用Guava的RateLimiter, 参考: // 创建每秒钟执行10次 RateLimiter rateLimiter = RateLimiter.create(10); // 尝试获取资源,如果已经超出10了,允许瞪大1s rateLimiter.tryAcquire(1, 1, TimeUnit.SECONDS); 分布式限流 可以结合Redisc开发一套限流方案,接口层可以使用ngix做限流。

系统环境搭建

java服务器环境搭建 其实使用docker就可以省去这些步骤,但还是要走一遍这个流程,才能更加熟悉。最后再用docker部署。 配置ssh key ssh-keygen -t rsa -C "可以填个邮箱地址,用户名都行" java wget https://download.oracle.com/otn/java/jdk/8u251-b08/3d5a2bb8f8d4428bbe94aed7ec7ae784/jdk-8u251-linux-x64.tar.gz?AuthParam=1592652817_a1b4691151b0ba1abd9089a730af1e1a 配置环境变量 vi /etc/profile 在......