数据分析相关python库的介绍

  1. Numpy
    Numpy是python科学计算的基础包,多维数组对象ndarray计算,数据集处理,线性代数运算、傅里叶变换,以及随机数生成。
  2. pandas
    pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。pandas兼具Numpy高性能的数组计算功能以及电子表格和关系型数据(如SQL)灵活的数据处理能力。它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。
    DataFrame是pandas的一个对象,它是一个面向列的二维表结构,且含有行标和列标。可直接处理csv和mysql数据。
  3. matplotlib
    matplotlib是最流行的用于绘制数据图表的python库。
  4. Scipy

Scikit-learn: 定位通用机器学习,传统机器学习,利用特征工程(feature engineering),人为对数据进行提炼清洗。
TensorFlow:定位深度学习库,深度学习利用表示学习(reprentation learning),机器学习模型自身对数据进行提炼。因此TF并没有提供sklearn那种强大的特征工程,比如维度压缩,特征选择等。

sklearn更倾向于使用者可以自行对数据进行处理,比如选择特征,压缩维度,转换格式,是传统机器学习库。而以tf为代表的深度学习库会自动从数据中抽取有效特征,而不需要人为的做这件事情,所以并未提供类似的功能。

sklearn中的模块都是高度抽象化的,所有分类器基本可在3-5行内完成;tf有很高的自由度,可以做传统机器学习的事,但需要自己实现算法。封装在tf等工具库上的keras才更像深度学习届的sklearn。从自由角度看tf更高,从抽象化,封装程度来看,sklearn更高;从易用性角度看,sklearn更高。

sklearn主要适合中小型的,使用机器学习项目,尤其是数量不大且需要使用者手工对数据进行处理,并选择合适模型的项目。这类项目在CPU上就可以完成,对硬件要求低。
tf主要适合已经明确了解需要深度学习,且数据处理需求不高的项目。数据量较大并最终需要的精度更高,一般需要GPU加速运算。对于深度学习做“小样”可以在采样的小数据集上使用keras做快速的实验

keras堪称深度学习上的sklearn了。

可以结合起来用,sklearn负责基本的数据清理任务,keras对于问题进行小规模试验验证想法,tf用于在完整的数据上进行严肃的调参任务。

实践上来说,深度学习方法一般需要大量的GPU机器,一般只有深度学习方法效果远好于传统方法而且对业务提升很大的情况下,才会考虑使用深度学习方法,比如语音识别,图像识别任务。而NLP领域除了机器翻译意外,其他大部分任务仍然更常使用传统方法。传统方法一般有者更好的可解释性,这对检查调试模型也是非常有帮助的。

标签: none

已有 14 条评论

  1. 看的我热血沸腾啊https://www.ea55.com/

  2. 《神宠鲁弗斯大冒险》剧情片高清在线免费观看:https://www.jgz518.com/xingkong/84520.html

  3. 你的才华让人瞩目,期待你的更多文章。 http://www.55baobei.com/yc3ntfP2rm.html

  4. 《神宠鲁弗斯大冒险》剧情片高清在线免费观看:https://www.jgz518.com/xingkong/84520.html

  5. 存在主义视角的介入提升了思想维度。

  6. 字里行间流露出真挚的情感,让人感同身受,共鸣不已。

  7. 若能弱化说教语气,传播效果会更好。

  8. 文化符号解读精准,展现独特审美。

  9. 这是一篇佳作,无论是从内容、语言还是结构上,都堪称完美。

  10. 作者的观点新颖且实用,让人在阅读中获得了新的思考和灵感。

  11. 文章紧扣主题,观点鲜明,展现出深刻的思考维度。

  12. 这篇文章如同一幅色彩斑斓的画卷,每一笔都充满了独特的创意。

  13. 情感真挚自然,字里行间传递出强烈的感染力。

  14. 这篇文章不错!

添加新评论