python绘制雨云图(Raincloud) 2022年1月11日 | 技术 在做探索性分析时,条形图、箱线图是很好的方法,他可以很好地展示大概的数据结构与分布,由于最近看到有人使用使用雨云图展示数据,图形看起来很美观,有趣,因此这里也就进行了梳理并使用python实现雨云图的绘制。…… 阅读全文
典型相关分析介绍及python实现 2021年12月29日 | 技术 在处理单个高维数据时,通过可以通过LDA,PCA,等等方法进行降维处理,但是如果某两个数据来自同一个样本,但是数据类型不同,差距巨大时,怎么办呢…… 阅读全文
使用bootstrapping计算置信区间 2021年12月28日 | 技术 置信区间(confidence interval,ci)是总体数值在特定可信度下的区间。 它是根据原始观测样本估计的,通常定义为 95%.即通常所说的95%置信区间.…… 阅读全文
预处理方法Scale,Standardize,Normalize的选择 2021年12月26日 | 技术 很多机器学习的方法都要求数据近似正态分布并尽可能接近,而python中用于机器学习的包便是sklearn,其提供包括MinMaxScaler,RobustScaler,StandardScaler和Normalizer在内的多种函数用于机器学习的预处理…… 阅读全文
c-index及其在生存分析中的应用 2021年12月23日 | 技术 一致性指数(concordance index)或者说c-index是用于评估算法预测效果的参数.定义上是指素有时间点上一致性对的比例…… 阅读全文
python原生list数组与numpy的array 2021年12月22日 | 技术 在python中存储集合数据可以选择多种原生数据类型,包括list,array,tuple,dictionary四种类型.其中list可变性强,可存储任意内容并且可变,应用范围广泛.而在进行科学运算,存储纯数字时,numpy被广泛应用…… 阅读全文
K-Means聚类及sklearn实现 2021年12月20日 | 技术 聚类分析允许我们找到相似样本或者feature的组,这些对象之间的相关性更强。 常见的用途有包括按照不同的基因表达情况对样本进行分组,或者根据不同样本的分类对基因进行分组等…… 阅读全文
python绘图中的四个绘图技巧 2021年12月13日 | 技术 在可视化数据时,通常需要在单个图形中绘制多个图形。 例如,如果您想从不同的角度可视化相同的变量(例如>,数字变量的并排直方图和箱线图),则多个图形很有用…… 阅读全文
利用docker实现命令行下使用浏览器渲染js网页 2021年12月8日 | 技术 在使用scrapy爬取网页时,由于很多网站采用js渲染的方式,直接诶获取源代码是获取不到需要的网页内容的,此时往往采用selenium驱动浏览器来获取网页内容非常合适…… 阅读全文
手把手用python在实现随机森林算法 2020年12月28日 | 技术 这篇文章将引导您完成强大的随机森林机器学习模型的手把手实现。它旨在补充我对随机森林的概念性解释,但只要您对决策树和随机森林有基本了解,就可以完全阅读。后续我们将讲述如何改善在这里构建的模型…… 阅读全文