Pand
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
Talk is cheap, show me ur code.
Code is also relatively cheap, show me ur thinking.
关于知识蒸馏温度T的一个简单解释(最优化函数拟合角度)

关于知识蒸馏温度T的一个简单解释(最优化函数拟合角度)

从最优化角度简单设计了一下softmax的优化目标, 然后通过函数拟合。这篇文章通过更换对softmax进行拟合时的近似函数来从数值上直接解释知识蒸馏温度T对原来数值的影响。
2022-04-17
Miscellaneous
#Knowledge Distillation
深度分离卷积方法简介

深度分离卷积方法简介

深度分离卷积是一种将通道分开做卷积, 从而减小神经网络计算量的方法。本文对其原理和计算量进行简要介绍。
2022-04-10
Miscellaneous
论文阅读:MixFormer: End-to-End Tracking with Iterative Mixed Attention

论文阅读:MixFormer: End-to-End Tracking with Iterative Mixed Attention

阅读了一篇使用注意力机制提取并整合target和候选区域特征从而做视觉目标跟踪任务的文章, MixFormer。
2022-03-29
Paper Reading
#Transformer #Tracking
1x1卷积方法及其作用

1x1卷积方法及其作用

1x1的卷积核被广泛应用于各种网络中, 但很少对其直接进行介绍。本文对1x1卷积核的使用及其作用进行简要介绍。
2022-03-20
Miscellaneous
论文阅读:MoCo系列论文解读

论文阅读:MoCo系列论文解读

最近读了何恺明的MoCo系列论文, 于是写这篇作为总结, 学习了动量方法和实验的一些设置。
2022-03-13
Paper Reading
#Contrastive Learning #Momentum #SimCLR
Contrastive Loss 中超参数τ的研究

Contrastive Loss 中超参数τ的研究

对比损失 (Contrastive Loss) 中的参数τ是一个神秘的参数, 大部分论文都默认采用较小的值来进行自监督对比学习 (例如 0.05), 但是很少有文章详细讲解参数τ的作用, 本文将详解对比损失中的超参数。
2022-03-05
Contrastive Learning
#Contrastive Loss #InfoNCE
论文阅读:Attention Is All You Need

论文阅读:Attention Is All You Need

阅读了这篇文章, 进一步学习了 attention 机制, 了解了 Transformer 的架构和 NLP 里的 Q,K,V 概念。
2022-02-24
Paper Reading
#Transformer
PyTorch 分布式训练

PyTorch 分布式训练

本文介绍 PyTorch 上进行多机多卡分布式训练的原理和操作方法,以便于训练神经网络时获得显著的性能提升。
2022-02-24
Coding > PyTorch
#Distribute #PyTorch
论文阅读:Deep Residual Learning for Image Recognition

论文阅读:Deep Residual Learning for Image Recognition

阅读了何恺明大佬的文章, 学习了残差的结构, 优化方式, 和原理。通过应用残差网络, 可以训练更深的网络, 同时避免模型退化问题。
2022-02-23
Paper Reading
#Residual Block
论文阅读:Non-local Neural Networks

论文阅读:Non-local Neural Networks

想学习一下NLP领域的Self-attention机制但是看了一些文章没看太懂, 于是看了这篇非局部神经网络。Self-attention可以被视为是一种non-local的特殊情况。
2022-02-22
Paper Reading
#Attention
123

搜索

Hexo Fluid