• pickaxe pickaxe blog
  • category
  • tags
  • archive
  • about
    • MLOps各种架构图

      MLOps架构图 MLOps组件 MLOps概念

    • cuda模块关系和版本兼容性

      cuda兼容性 cuda版本 nvidia-smi nvcc cuda-driver cuda-runtime

    • spark硬核优化2 limit优化

      深入分析和解决limit速度过慢的问题, spark limit执行原理

    • spark硬核优化1 布隆过滤器大join优化

      借助布隆过滤器解决两个大表join的性能问题

    • 分布式训练原理 - spark-mllib传统模型

      分布式机器学习的基本流程, spark mllib的实现原理, 模型并行与数据并行

    • spark硬核优化3 多表join/多路全连接优化

      在Spark中实现一种多个输入/多个表进行join的功能, 优化多个表连续full join的效果, 自定义SortMergeJoinExec

    • DDIA读书笔记-复制

      重读«数据密集型应用系统设计»的第五章复制, 并给组内同学做了分享. 复制是分布式数据中必需的一个环节, 本文结合书中内容以及几个常见开源系统中复制的实例, 找了大量图片, 更好了解复制过程. 各架构图来源见文后参考.


    • [转]An In-Depth Look at the HBase Architecture

      in depth look hbase architecture 一文讲懂HBase架构

    • spark-sql窗口函数原理/源码/bug分析

      Spark SQL中使用自定义窗口函数的时候遇到了bug, 自定义Spark UDAF, 深入理解Spark窗口执行原理WindowExec, 扩张框

    • [译]spark-sql分桶最佳实践

      spark sql中使用分桶能极大提高join/采样/聚合等操作的效率, 这里分析其原理并讲解使用方法.

    • Bitmap Index和在Druid中的应用

      Bitmap Index(位图索引)广泛应用于很多大数据分析系统中, 如Druid, Kylin等, 是一种高效的索引技术. 尤其是Druid中将Bitmap替换为Roaring Bitmap, 到底是什么东西呢?


    • 一条scp命令能有多曲折

      今天执行了一条scp -P 8014 xx.zip root@10.10.100.228:/data的命令, 突发奇想: 这条命令的网络旅程也是真够曲折了.


    • [译]k8s网络指南

      kubernetes中的网络相关的内容很复杂, 很乱: 各种pod/service/container/cni/nat/iptables/vps等等东西是咋回事, 集群内容器间怎么通信, 集群内外怎么通信. 找到一篇比官方文档更为靠谱的文章, 很赞.


    • Java日志框架太乱?日志打印不出来?

      Java中有好多日志框架, 互相之前还有各种关系, 正确使用配置日志框架

    • HCatalog简介

      理解hive元数据服务hcatalog, Hive MetaStore Server

    • Apache项目列表 一句话介绍

      Apache项目多又多, 都是些什么呢?


    • [译]开源大数据OLAP系统对比: ClickHouse Druid Pinot

      原文: Comparison of the Open Source OLAP Systems for Big Data: ClickHouse, Druid, and Pinot


    • Kong+Consul微服务API网关实践-2

      基于Kong+Consul的API网关项目, rsyslog写入Kafka, Druid实时日志聚合

    • Kong+Consul微服务API网关实践-1

      基于Kong+Consul的API网关项目, Kong日志采集, rsyslog写入kafka

    • Druid源码结构和查询执行过程

      遇到一个Druid查询的问题, 想着看源码找找原因, 所以有了本篇源码解读的记录 (虽然最后问题不是靠这个解决的)


    • 理解https原理&TLS1.3

      分析理解HTTPS的原理, 也就是TLS协议, 包括握手过程, 报文格式, 证书验证登

    • [译]PR曲线和ROC曲线的关系

      在看西瓜书第二章讲模型评估的时候, 用到了PR曲线和ROC曲线, 但是书里讲的太扯了, 这里翻译了一篇论文.


    • 一个多线程面试题

      分享一道自己常用的多线程面试题.


    • HBase介绍


    • 两个分位点和直方图算法

      分享两个在大数据领域常用的估算算法, 用于分位点和直方图的GK算法和Doubles Sketch.


    • Linux网络命令


    • 由pom文件结构拆解Maven功能

      由pom结构拆解Maven功能, 理解dependencies关系, 项目继承, maven仓库配置, maven-lifecycle

    • Web项目迁移到SpringBoot

      Spring Boot 是一个整合类的项目, 官方自称 “约定大于配置的快速启动框架”, 核心是快速, 开箱即用.


    • Java单元测试基础

      最近正在搞gitlab+jenkins+nexus的工具链, 其实考虑持续集成的过程, 涉及到的方面很多:


    • 关系型数据库中存储树形结构数据(hierarchical data)

      现实环境中总会遇到这样的需求, 在关系型数据库中存储 分类/继承/多级/树状 的数据. 比如:


    • 区块链原理简介


    • io multiplexing

      网络io是编程开发中比较复杂的一个问题, 打算写一系列的博客记录学习过程. 这里作为一个汇总.


    • Ansible基本介绍


    • Java ORM框架对比试用

      做WEB开发不可避免和数据库打交道, 初学java也必定会了解jdbc, 而ORM技术则是必不可少的. 这里通过一些基本的需要对几个orm框架进行了尝试. 只涉及使用方面的尝试, 没进行性能等高级功能的测试. 项目代码在 https://gitee.com/tianzhipeng/ormtest


    • Jenkins介绍

      简单介绍了一下Jenkins自动集成/部署工具的安装和使用. ppt见


    • HTTP浏览器缓存机制介绍

      深入理解http浏览器缓存机制, 理解Expires/Cache Control等header的作用, 理解缓存时效, 使用缓存爆裂解决缓存更新问题

    • ⭐️第一篇博客⭐️

      之前就曾经想过写博客, 作为自己的技术积累, 同时能分享给大家.


    • SpringMVC简单介绍


    • 可视曝光技术方案

      可视曝光 可见曝光 广告可见性 ad-viewability

    • ZooKeeper介绍