《精通Transformer:从零开始构建最先进NLP模型》封面

内容简介

AI领域的基石王者,那些还沉迷于CNN,RNN的工程师被警告:放弃战斗吧,向Transformer投降!

在过去的二十年中,自然语言处理研究领域发生了翻天覆地的变化。在这段时间里,自然语言处理经历了不同的处理范式,并最终进入了一个由神奇的Transformer体系结构主导的新时代。Transformer深度学习架构是通过继承许多方法而产生的,其中包括上下文词嵌入、多头注意力机制、位置编码、并行体系结构、模型压缩、迁移学习、跨语言模型等。在各种基于神经的自然语言处理方法中,Transformer架构逐渐演变为基于注意力的“编码器-解码器”体系结构,并持续发展到今天。现在,我们在文献中看到了这种体系结构的新的成功变体。目前研究已经发现了只使用Transformer架构中编码器部分的出色模型,如BERT(BidirectionalEncoderRepresentationsfromTransformers,Transformers双向编码表示);或者只使用Transformer架构中解码器部分的出色模型,如GPT(GeneratedPre-trainedTransformer,生成式的预训练Transformer)。

本书涵盖了这些自然语言处理方法。基于HuggingFace社区的Transformer库,我们能够轻松地使用Transformer。本书将循序渐进地提供各种自然语言处理问题的解决方案:从文档摘要到问题回答系统。我们将看到,基于Transformer,可以取得最先进的成果。

读者对象

本书面向深度学习研究人员、自然语言处理从业人员、机器学习/自然语言处理教育者,以及希望开启Transformer体系结构学习之旅的学生群体。为了充分掌握本书的内容,要求读者具有初级水平的机器学习知识,以及良好的Python基础知识。

作者简介

本书由SavasYldmnm专业人士编写

萨瓦斯·伊尔蒂利姆(SavasYldmnm)毕业于伊斯坦布尔技术大学计算机工程系,拥有自然语言处理(NaturalLanguageProcessing,NLP)专业的博士学位。目前,他是土耳其伊斯坦布尔比尔基大学的副教授,也是加拿大瑞尔森大学的访问研究员。他是一位积极热情的讲师和研究员,具有20多年教授机器学习、深度学习和自然语言处理等课程的丰富经验。他开发了大量的开源软件和资源,为土耳其自然语言理解社区做出了重大贡献。他还为人工智能公司的研究开发项目提供全面的咨询服务。

目录

Transformer到底是什么,让ChatGPT如此迷恋?
这只变形金刚,到底是只什么怪兽?
——用于自然语言处理(NLP)的神经网络架构
第1章从词袋到Transformer。本章简要介绍了自然语言处理的历史,并将传统方法、深度学习模型(如CNIN、RNN和LSTM)与Transformer模型进行了比较分析。
第2章Transformer的实践操作入门。本章深入探讨了如何使用Transformer模型,并通过实际例子阐述了分词器和模型,如BERT。
第3章自编码语言模型。本章讨论了如何从零开始在任何给定语言上训练自编码语言模型。训练过程将包括模型的预训练和特定任务的训练。
第4章自回归和其他语言模型。本章讨论了自回归语言模型的理论细节,并引导读者如何在自己的语料库中对模型进行预训练。读者将学习如何在自己的文本上预训练任何语言模型(如GPT-2),并在各种任务(如语言生成)中使用该模型。
第5章微调文本分类语言模型。在本章中,读者将学习如何配置文本分类的预训练模型,以及如何微调文本分类下游任务的模型(如情感分析或多类别分类)。
第6章微调标记分类语言模型。本章讲述如何微调标记分类任务的语言模型[如命名实体识别(NER)、词性标注(POS)和问题回答(QA)系统]。
第7章文本表示。在本章中,读者将学习文本表示技术以及如何有效地利用Transformer体系结构,特别是对于无监督任务,如聚类、语义搜索和主题建模。
第8章使用高效的Transformer。本章展示了如何使用提炼、剪枝和量化方法,从预训练模型中生成高效的模型。然后,读者将获得有关高效稀疏Transformer的知识,如Linformer和BigBird,以及如何使用这些模型。
第9章跨语言和多语言建模。在本章中,读者将学习多语言和跨语种语言模型预训练以及单语言和多语言预训练之间的差异。本章涉及的其他主题包括因果语言建模和翻译语言建模。
第10章部署Transformer模型。本章将详细介绍如何在CPU/GPU环境中,为基于Transformer的自然语言处理解决方案提供服务。本章还将描述如何使用TensorFlow扩展(TFX)部署机器学习系统。
第11章注意力可视化与实验跟踪。本章涵盖两个不同的技术概念:注意力可视化与实验跟踪。我们将使用诸如exBERT和BertViz之类的复杂工具进行实验练习。
······

最后修改:2024 年 05 月 05 日