精选分类

文章列表

# Harris 兴趣点检测 # 什么是 “兴趣点” 在 Harris 兴趣点检测中,“兴趣点” 通常指图像中那些在水平和垂直两个方向上都具有显著灰度变化的像素点,也就是说在局部窗口在任意方向做小幅平移都会引起较大像素差异的点。这类点往往对应于图像中的角点或局部纹理显著的区域,因此被认为是具有判别性和稳定性的特征点。 一大片平坦区域,所有方向都变化小,不是兴趣点 高楼顶部的转角处、十字路口的交叉点,在所有方向都变化大这是兴趣点 角点会在两个方向同时产生剧烈变化,边界只会在一个方向上产生剧烈变化,平坦区则都不会。 # 数学原理 #...

# YOLO 系列 YOLO(You Only Look Once) # YOLOv1 输入是 448x448x3,最终输出是 7x7x30。对应原始图片对应区域的结果。就是所谓的将原始图片划分为 7x7 个小方格大小的图片。 其实这是一种一一映射 7x7 这样的小方格,7×7 个 cell,每个 cell 负责 “这个 cell 中心落在这里的目标” 的检测任务。 # x, y, w, h x,y 是中心点坐标,w,h 是预测框的宽和高。 每个 bounding box 的 5 个参数:x,y,w,h,confidence, x,y:框中心相对于当前 cell 的坐标(一般在...

# Transformer 实战 # 背景 为了解决在序列建模中提升并行与长距离依赖建模能力,摆脱对循环与卷积的依赖。其核心是编码器与解码器结构。 其中有三种注意力机制:编码器多头注意力、交叉注意力、解码器多头注意力(含因果编码) # 输入数据 Transformer 里计算的全是数值,在输出之后和输出之前,都要把词转换为词向量,或者将词词向量转化为词。 # 词嵌入(Word Embedding) 这个词嵌入矩阵的 d 相当于压缩后词向量的大小(维度)。 # 位置编码(Positional Encoding) #...

# SpringCloud # 从单体到集群再到分布式 早期阶段,单体架构是主流选择,所有功能模块打包在一个应用中,开发简单直接,但是随着业务增长,代码变得臃肿,难以扩展特定功能模块,技术栈单一,难以采用新技术。 为了应对单体架构的性能瓶颈和高可用需求,集群架构应运而生。 实现方式: 水平扩展:部署多个相同的单体应用实例 通过负载均衡器 (Nginx、F5 等) 分配请求 共享数据库或数据库主从复制 但是仍然有缺陷,比如应用本身仍然是单体,业务复杂时扩展不灵活。 此时分布式架构与微服务应运而生,分布式架构通过将系统拆分为多个服务来解决上述问题。 本次学习使用尚硅谷 b...

# Attention is all you need 【Original Link】 Attention Is All You Need Updated on Aug 2023 Authors Ashish Vaswani Google Brain avaswani@google.com Noam Shazeer Google Brain noam@google.com Niki Parmar Google Research nikip@google.com Jakob Uszkoreit Google Research usz@google.com Llion Jones Google...

# 3DCNN 视频行为检测平台笔记 学习内容基于:https://www.bilibili.com/video/BV1kc411Q7Tj # 图像的本质 图像是由 RGB 三通道组成的,一般数值范围是 0 到 255. 因此像素矩阵为:H * W * 3,其中 H 为高,W 是宽。 # 从图像到视频 视频本质上是由连续的图片(视频帧),快速播放构成的。 图片的像素矩阵是 H * W * 3 视频就是 D * H * W * 3,其中 D 是深度,是视频帧的叠加。 不同的库对与这 4 个维度顺序表述不同,但这四个维度诚然如此。 # 2D 检测方法对比 # C3D...

# 从公式角度看深度学习 学习基于尚硅谷:https://www.bilibili.com/video/BV1MRJmzSEaa # 损失函数 # 均方误差 MSE / L2 Loss(回归问题较适用) Mean Squared Error(MSE) L=1n∑i=1n(yi−ti)2\begin {array}{c} L=\frac{1}{n} \sum_{i=1}^{n}(y_{i}-t_{i})^{2} \end{array} L=n1​∑i=1n​(yi​−ti​)2​ 这个 ti 是目标标签 (向量),yi 是预测标签 (向量),n...

# NLP 自然语言处理 学习笔记 # 常见任务 文本分类:情感分析(积极 / 消极)、垃圾邮件识别、新闻主题分类【句子级别】 序列标注:命名实体识别(找人名、地名、手机号)、文本生成、信息抽取、文本转化【Token 级别】 # 文本表示 # 分词 词级分词:将文本按照词切分在英语中空格往往是天然的切词标志,但是容易出现 OOV 问题(未登录词问题) 字符级分词:一个字母、数字、标点甚至空格,都会被视作一个独立的 token,不会有 OOV 问题,但模型必须依赖更长的上下文来推断词义和结构,这显著增加了建模难度和训练成本。 子词级分词:将词语切分为更小的单元 ——...

# 卷积神经网络 学习内容基于:Pytorch 框架与经典卷积神经网络与实战 # CNN 卷积神经网络算法原理 # 全连接神经网络 输入层是我们输入的数据,这里看到的第一列节点并不是输入层,中间为隐藏层。 输入层就像 X(自变量),模型或者说这些网络就是 F(函数),我们得到的输出就是 Y(因变量)。 # 为什么要使用激活函数 在神经网络中使用激活函数的根本原因是引入非线性,从而使模型能够拟合和表达复杂的函数关系。如果没有激活函数,神经网络无论堆叠多少层,本质上都是一个线性模型,能力极其有限。多层线性变换的叠加依然是线性变换,最终的模型只能拟合直线 / 平面,完全无法处理复杂的数据模式 #...

# RPC 协议远程调用的几种实现 # Dubbo 简介 Dubbo 是阿里巴巴公司开源的一个高性能、轻量级的 Java RPC 框架。 致力于高性能透明化的透明化的 RPC 原创服务调用方案,以及 SOA...