分类 技术 中的文章

matplotlib画图时进行颜色填充

在python中matplotlib进行绘图时,有时为了图形的美观,需要在其上方或者下方进行颜色填充,这时需要采用的函数是fill_between,其中参数y2决定第二条线,如果是向上还是向下填充,下面具体展示:

数据生成

我们这里以正弦函数为例

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
n = 1024
x = np.linspace(-np.pi, np.pi, n, endpoint=True)
y = np.sin(2 * x)
plt.plot(x, y, color='blue', alpha=1.00)
plt.savefig("sin.png",dpi=200)
plt.close()

画出来的正弦函数图为:

……

阅读全文

使用bootstrapping计算置信区间

概念

置信区间(confidence interval,ci)是总体数值在特定可信度下的区间。 它是根据原始观测样本估计的,通常定义为 95%.即通常所说的95%置信区间.

为何使用置信区间

一般情况下,获得的样本都是抽样得到的,总体是未知的,这样从样本中获得的数据没法直接反映总体情况,为了表示样本表示总体的情况,置信区间也就有了用武之地.

……

阅读全文

预处理方法Scale,Standardize,Normalize的选择

很多机器学习的方法都要求数据近似正态分布并尽可能接近,而python中用于机器学习的包便是sklearn,其提供包括MinMaxScaler,RobustScaler,StandardScaler和Normalizer在内的多种函数用于机器学习的预处理,那么这些方法应该如何选择呢?首先我们介绍下区别然后采用实际数据进行处理查看数据处理前后的变化,最后再来做一个总结.

……

阅读全文

c-index及其在生存分析中的应用

一致性指数(concordance index)或者说c-index是用于评估算法预测效果的参数.定义上是指素有时间点上一致性对的比例.该参数在生物学上比如癌症预测上具有重要意义,可以用来评估癌症生存期预测的好坏.在python中可以使用lifelines包下的工具的concordance_index函数进行计算下面从具体的例子看看其具体的意义. 假设实际应用中有个癌症研究,其中6个患者的生存期情况分别为1个月,6个月,12个月,2年,3年,5年,如果预测结果为1个月,6个月,12个月,2年,3年,5年.那么该预测完全正确,c-index最高,为1,计算代码如下:

……

阅读全文

python原生list数组与numpy的array

在python中存储集合数据可以选择多种原生数据类型,包括list,array,tuple,dictionary四种类型.其中list可变性强,可存储任意内容并且可变,应用范围广泛.而在进行科学运算,存储纯数字时,numpy被广泛应用,可以说基本完全替代了list.那么它们之间有何不同,差距到底有多大,实际过程中应该如何应用呢?

……

阅读全文

K-Means聚类及sklearn实现

本文章将从数学及代码角度阐述K-Means聚类方法的原理及应用。

聚类分析允许我们找到相似样本或者feature的组,这些对象之间的相关性更强。 常见的用途有包括按照不同的基因表达情况对样本进行分组,或者根据不同样本的分类对基因进行分组等。 本文将会介绍聚类算法中的k-means:

  • k-means聚类的基本概念
  • k-means 算法背后的数学原理
  • k-means的优缺点
  • 使用scikit-learn 包实现
  • 可视化分类
  • 选择最优的k

k-means聚类的基本概念

k-means是一种高效的无监督的聚类方法,最初用于信号处理,旨在将n个观测值划分为k个簇,其中每个观测值都属于具有最近均值的簇(簇中心或簇质心),作为群。很容易混淆的另一种聚类方法是监督学习算法k-nearest neighbors (KNN),需要注意。

……

阅读全文

python绘图中的四个绘图技巧

在可视化数据时,通常需要在单个图形中绘制多个图形。 例如,如果您想从不同的角度可视化相同的变量(例如,数字变量的并排直方图和箱线图),则多个图形很有用。 在这篇文章中,我分享了绘制多个图形的 4 个简单但实用的技巧。

数据集📦

让我们导入包并更新图表的默认设置,为图表添加一点个人风格。 我们将在提示上使用 Seaborn 的内置数据集:

……

阅读全文

利用docker实现命令行下使用浏览器渲染js网页

在使用scrapy爬取网页时,由于很多网站采用js渲染的方式,直接诶获取源代码是获取不到需要的网页内容的,此时往往采用selenium驱动浏览器来获取网页内容非常合适。但是有一个问题就是这种情况下需要本地安装浏览器,还非的用非root运行,于是采用docker的方式提供服务chrome服务,并采用selenium驱动获取渲染后的网页内容。

……

阅读全文

pip及anaconda国内加速

由于pip及anaconda的默认地址在国内访问速度感人,添加国内源进行加速十分必要

国内主要开源加速地址

清华大学 https://tuna.tsinghua.edu.cn

阿里云 http://mirrors.aliyun.com

腾讯云 https://mirrors.tencent.com

中国科技大学 https://mirrors.ustc.edu.cn

中国科学技术大学 http://mirrors.ustc.edu.cn

同济大学 http://mirrors.tongji.edu.cn

添加及修改conda源

根据在上海的实际速度看,清华大学的速度最快(同济大学本应该速度最快,然而实际速度感人,0-0),因此将其作为默认源。

第一种方法,通过命令添加

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --set channel_priority strict
conda config --set show_channel_urls yes

第二种方法,修改配置文件

echo 'channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
channel_priority: strict
show_channel_urls: true
' > ~/.condarc

添加及修改pip源

跟conda一样,直接选用清华大学源

……

阅读全文

手把手用python在实现随机森林算法

是时候写写各机器学习的内容了。在google等搜索引擎越来越强大和越来越廉价的阿里云等云服务之后,越来越多的人能够有机会实现机器学习和人工智能相关的应用了。任何能够使用笔记本电脑并且乐于学习新知识的人都可以在几分钟内尝试最新的算法。再稍微多花一点时间,您就可以开发实用的模型来帮助您的日常生活或工作(甚至切换到机器学习领域并获得经济利益))。这篇文章将引导您完成功能强大的随机森林机器学习模型的手把手实现。它旨在补充我对随机森林的概念性解释,但只要您对决策树和随机森林有基本了解,就可以完全阅读。后续我们将讲述如何改善在这里构建的模型。 当然,这里我们自然使用Python的sklearn库来进行整个项目的实现,但是,它并不意味只能使用python,其他语言请自行修改。。。您所需要的只是一台笔记本电脑,能够使用docker创建一个python机器学习的环境包就好。这里将涉及一些必要的机器学习主题,但是我将尽力使它们变得清晰,并为感兴趣的人提供更多的学习资源。

……

阅读全文

最近文章

分类

标签

友情链接

其它