-
MLOps各种架构图
MLOps架构图 MLOps组件 MLOps概念
-
cuda模块关系和版本兼容性
cuda兼容性 cuda版本 nvidia-smi nvcc cuda-driver cuda-runtime
-
spark硬核优化2 limit优化
深入分析和解决limit速度过慢的问题, spark limit执行原理
-
spark硬核优化1 布隆过滤器大join优化
借助布隆过滤器解决两个大表join的性能问题
-
分布式训练原理 - spark-mllib传统模型
分布式机器学习的基本流程, spark mllib的实现原理, 模型并行与数据并行
-
spark硬核优化3 多表join/多路全连接优化
在Spark中实现一种多个输入/多个表进行join的功能, 优化多个表连续full join的效果, 自定义SortMergeJoinExec
-
DDIA读书笔记-复制
重读«数据密集型应用系统设计»的第五章复制, 并给组内同学做了分享. 复制是分布式数据中必需的一个环节, 本文结合书中内容以及几个常见开源系统中复制的实例, 找了大量图片, 更好了解复制过程. 各架构图来源见文后参考.
-
[转]An In-Depth Look at the HBase Architecture
in depth look hbase architecture 一文讲懂HBase架构
-
spark-sql窗口函数原理/源码/bug分析
Spark SQL中使用自定义窗口函数的时候遇到了bug, 自定义Spark UDAF, 深入理解Spark窗口执行原理WindowExec, 扩张框
-
[译]spark-sql分桶最佳实践
spark sql中使用分桶能极大提高join/采样/聚合等操作的效率, 这里分析其原理并讲解使用方法.
-
Bitmap Index和在Druid中的应用
Bitmap Index(位图索引)广泛应用于很多大数据分析系统中, 如Druid, Kylin等, 是一种高效的索引技术. 尤其是Druid中将Bitmap替换为Roaring Bitmap, 到底是什么东西呢?
-
一条scp命令能有多曲折
今天执行了一条
scp -P 8014 xx.zip root@10.10.100.228:/data
的命令, 突发奇想: 这条命令的网络旅程也是真够曲折了.
-
[译]k8s网络指南
kubernetes中的网络相关的内容很复杂, 很乱: 各种pod/service/container/cni/nat/iptables/vps等等东西是咋回事, 集群内容器间怎么通信, 集群内外怎么通信. 找到一篇比官方文档更为靠谱的文章, 很赞.
-
Java日志框架太乱?日志打印不出来?
Java中有好多日志框架, 互相之前还有各种关系, 正确使用配置日志框架
-
HCatalog简介
理解hive元数据服务hcatalog, Hive MetaStore Server
-
Apache项目列表 一句话介绍
Apache项目多又多, 都是些什么呢?
-
[译]开源大数据OLAP系统对比: ClickHouse Druid Pinot
-
Kong+Consul微服务API网关实践-2
基于Kong+Consul的API网关项目, rsyslog写入Kafka, Druid实时日志聚合
-
Kong+Consul微服务API网关实践-1
基于Kong+Consul的API网关项目, Kong日志采集, rsyslog写入kafka
-
Druid源码结构和查询执行过程
遇到一个Druid查询的问题, 想着看源码找找原因, 所以有了本篇源码解读的记录 (虽然最后问题不是靠这个解决的)
-
理解https原理&TLS1.3
分析理解HTTPS的原理, 也就是TLS协议, 包括握手过程, 报文格式, 证书验证登
-
[译]PR曲线和ROC曲线的关系
在看西瓜书第二章讲模型评估的时候, 用到了PR曲线和ROC曲线, 但是书里讲的太扯了, 这里翻译了一篇论文.
-
一个多线程面试题
分享一道自己常用的多线程面试题.
-
HBase介绍
-
两个分位点和直方图算法
分享两个在大数据领域常用的估算算法, 用于分位点和直方图的GK算法和Doubles Sketch.
-
Linux网络命令
-
由pom文件结构拆解Maven功能
由pom结构拆解Maven功能, 理解dependencies关系, 项目继承, maven仓库配置, maven-lifecycle
-
Web项目迁移到SpringBoot
Spring Boot 是一个整合类的项目, 官方自称 “约定大于配置的快速启动框架”, 核心是快速, 开箱即用.
-
Java单元测试基础
最近正在搞gitlab+jenkins+nexus的工具链, 其实考虑持续集成的过程, 涉及到的方面很多:
-
关系型数据库中存储树形结构数据(hierarchical data)
现实环境中总会遇到这样的需求, 在关系型数据库中存储 分类/继承/多级/树状 的数据. 比如:
-
区块链原理简介
-
io multiplexing
网络io是编程开发中比较复杂的一个问题, 打算写一系列的博客记录学习过程. 这里作为一个汇总.
-
Ansible基本介绍
-
Java ORM框架对比试用
做WEB开发不可避免和数据库打交道, 初学java也必定会了解jdbc, 而ORM技术则是必不可少的. 这里通过一些基本的需要对几个orm框架进行了尝试. 只涉及使用方面的尝试, 没进行性能等高级功能的测试. 项目代码在 https://gitee.com/tianzhipeng/ormtest
-
Jenkins介绍
简单介绍了一下Jenkins自动集成/部署工具的安装和使用. ppt见
-
HTTP浏览器缓存机制介绍
深入理解http浏览器缓存机制, 理解Expires/Cache Control等header的作用, 理解缓存时效, 使用缓存爆裂解决缓存更新问题
-
⭐️第一篇博客⭐️
之前就曾经想过写博客, 作为自己的技术积累, 同时能分享给大家.
-
SpringMVC简单介绍
-
可视曝光技术方案
可视曝光 可见曝光 广告可见性 ad-viewability
-
ZooKeeper介绍