预处理方法Scale,Standardize,Normalize的选择

很多机器学习的方法都要求数据近似正态分布并尽可能接近,而python中用于机器学习的包便是sklearn,其提供包括MinMaxScaler,RobustScaler,StandardScaler和Normalizer在内的多种函数用于机器学习的预处理,那么这些方法应该如何选择呢……

阅读全文

c-index及其在生存分析中的应用

一致性指数(concordance index)或者说c-index是用于评估算法预测效果的参数.定义上是指素有时间点上一致性对的比例.该参数在生物学上比如癌症预测上具有重要意义,可以用来评估癌症生存期预测的好坏.在python中可以使用lifelines包下的工具的concord……

阅读全文

python原生list数组与numpy的array

在python中存储集合数据可以选择多种原生数据类型,包括list,array,tuple,dictionary四种类型.其中list可变性强,可存储任意内容并且可变,应用范围广泛.而在进行科学运算,存储纯数字时,numpy被广泛应用,可以说基本完全替代了list.那么它们之间有……

阅读全文

K-Means聚类及sklearn实现

本文章将从数学及代码角度阐述K-Means聚类方法的原理及应用。 聚类分析允许我们找到相似样本或者feature的组,这些对象之间的相关性更强。 常见的用途有包括按照不同的基因表达情况对样本进行分组,或者根据不同样本的分类对基因进行分组等。 本文将会介绍聚类算法中的k-means: k-……

阅读全文

迅雷链接解析

此工具是用于解析迅雷链接真实地址及编码。 已更新为javascript版本 使用方法 1.解码迅雷:填写迅雷链接地址。完整的包含thunder://的地址 解码后的地址为: https://www.bobobk.com/favicon.ico function decodethun(){ var rawcode = document.querySelector("#de_thunder").value.substring(10); var decodedadd = window.atob(rawcode); var decodedadd = decodedadd.substring(2,decodedadd.length-2); document.querySelector('#decoded').innerHTML = decodedadd; } 2.编码迅雷:填写链接地址。编码后获得thunder://的地址 编码后的地址为……

阅读全文

python绘图中的四个绘图技巧

在可视化数据时,通常需要在单个图形中绘制多个图形。 例如,如果您想从不同的角度可视化相同的变量(例如,数字变量的并排直方图和箱线图),则多个图形很有用。 在这篇文章中,我分享了绘制多个图形的 4 个简单但实用的技巧。 数据集📦 让我们导入包并更新图表的默认设置,为图表添加一点个人风格。 我们将……

阅读全文

利用docker实现命令行下使用浏览器渲染js网页

在使用scrapy爬取网页时,由于很多网站采用js渲染的方式,直接诶获取源代码是获取不到需要的网页内容的,此时往往采用selenium驱动浏览器来获取网页内容非常合适。但是有一个问题就是这种情况下需要本地安装浏览器,还非的用非root运行,于是采用docker的方式提供服务chr……

阅读全文

pip及anaconda国内加速

由于pip及anaconda的默认地址在国内访问速度感人,添加国内源进行加速十分必要 国内主要开源加速地址 清华大学 https://tuna.tsinghua.edu.cn 阿里云 http://mirrors.aliyun.com 腾讯云 https://mirrors.tencent.com 中国科技大学 https://mirrors.ustc.edu.cn 中国科学技术大学 http://mirrors.ustc.edu.cn 同济大学 http://mirrors.tongji.edu.cn 添加及修改conda源 根据在上海的实际速度看,清华大学的速度最快(同济大学本应该速度最快,然而实际速度感人,……

阅读全文

手把手用python在实现随机森林算法

是时候写写各机器学习的内容了。在google等搜索引擎越来越强大和越来越廉价的阿里云等云服务之后,越来越多的人能够有机会实现机器学习和人工智能相关的应用了。任何能够使用笔记本电脑并且乐于学习新知识的人都可以在几分钟内尝试最新的算法。再稍微多花一点时间,您就可以开发实用的模型来帮助……

阅读全文

python中的各种字符串分割方法汇总

今天来给大家介绍一下python当中能用到的各种字符串的分割方法。他们分别是: slpit rsplit splitlines partition rpartition re.split 下面各部分是各方法的详细介绍 split(sep=None, maxsplit=-1) 最常见的方法,该方法使用sep设置的符号将一个字符串分割并返回分割后的对象,结果为list列表。同时可以通过设置maxsplit参数指定最大分割成的结果列表的……

阅读全文