深度学习模型/教程/论文/文章

weifeng 2023/02/21

目录

深度学习资源站

工具 网址
chatGPT https://chat.openai.com/chat
DeepL翻译 https://www.deepl.com/translator
百度文心大模型 https://wenxin.baidu.com/ernie3
预训练模型下载 https://huggingface.co

开发环境

  # 检查cuda是否为GPU版本
  import torch
  print("Torch version:", torch.__version__)
  print("CUDA available:", torch.cuda.is_available())
  print("GPU device name:", torch.cuda.get_device_name(0))

大语言模型(LLM)

文生图模型

Stable Diffusion

论文

  1. Learning Word Representations Efficiently with Noise Contrastive Estimation 2013

  2. Distributed Representations of Words and Phrases and their Compositionality 2013

    • 链接: https://arxiv.org/abs/1310.4546

    • 简介:提出了Word2Vec模型,通过学习上下文中词语的共现关系来学习词向量,大幅度提高了自然语言处理任务的表现。

  3. Neural Machine Translation by Jointly Learning to Align and Translate 2014

    • 链接: https://arxiv.org/abs/1409.0473

    • 简介:提出了使用注意力机制(Attention Mechanism)来解决机器翻译中的对齐问题,可以学习到源语言和目标语言之间的对应关系,取得了在多项机器翻译任务上的优异表现。

  4. Convolutional Neural Networks for Sentence Classification 2014

    • 链接: https://arxiv.org/abs/1408.5882

    • 简介:提出了使用卷积神经网络对句子进行分类的方法,将卷积神经网络应用于文本领域,可以有效地提取句子的特征,取得了在多项句子分类任务上的优异表现。

  5. Sequence to Sequence Learning with Neural Networks 2014

    • 链接: https://arxiv.org/abs/1409.3215

    • 简介:提出了使用编码器-解码器(Encoder-Decoder)框架来解决序列到序列的学习问题,广泛应用于机器翻译、语音识别等任务。

  6. Attention Is All You Need 2017

    • 链接: https://arxiv.org/abs/1706.03762

    • 简介:提出了Transformer模型,通过注意力机制来实现编码和解码过程,不需要使用传统的循环神经网络或卷积神经网络,取得了在机器翻译等任务上的最优表现。

  7. Generative Pre-training Transformer 2018

  8. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2018

    • 链接: https://arxiv.org/abs/1810.04805

    • 简介:提出了BERT模型,通过使用双向Transformer模型进行预训练,在多项自然语言处理任务上取得了最优表现,成为自然语言处理领域里最受欢迎的预训练模型之一。

  9. RoBERTa: A Robustly Optimized BERT Pretraining Approach 2019

    • 链接: https://arxiv.org/abs/1907.11692

    • 简介:在BERT模型的基础上,通过修改预训练的任务和数据,以及优化模型的超参数和训练方法等方面的策略,取得了在多项自然语言处理任务上更好的表现。

  10. XLNet: Generalized Autoregressive Pretraining for Language Understanding 2019

    • 链接: https://arxiv.org/abs/1906.08237

    • 简介:提出了XLNet模型,通过使用Permutation Language Modeling来进行预训练,可以学习到序列中所有可能的排列,解决了BERT模型中存在的一些问题,取得了在多项自然语言处理任务上最优的表现。