Feature Engineering 特征工程 3. Feature GenerationpythonMichael是个半路程序员-

21 五月

星期四, 21 五月 2020 13:09 Last Updated on 星期四, 21 五月 2020 13:09 0 Comments

文章目录

learn from https://www.kaggle.com/learn/feature-engineering

上一篇：Feature Engineering 特征工程 2. Categorical Encodings
下一篇：Feature Engineering 特征工程 4. Feature Selection

从原始数据创建新特征是改进模型的最佳方法之一
例如，数据有很长连续时间的，我们可以把最近一周的提取出来作为一个新的特征

1. 组合特征

最简单方法之一是组合特征
例如，如果一条记录的国家/地区为"CA"，类别为"Music"，则可以创建一个新值" CA_Music"
可以从所有分类特征中构建组合特征，也可以使用三个或更多特征进行交互，但是效果往往会变坏

interactions = ks['category']+'_'+ks['country']，像python一样直接相加
interactions.head(10)

0            Poetry_GB 1    Narrative Film_US 2    Narrative Film_US 3             Music_US 4      Film & Video_US 5       Restaurants_US 6              Food_US 7            Drinks_US 8    Product Design_US 9       Documentary_US dtype: object

将新特征assign进数据

label_enc = LabelEncoder() data_interaction = X.assign(category_country=                             label_enc.fit_transform(interactions)) data_interaction.head()

Feature Engineering 特征工程 3. Feature GenerationpythonMichael是个半路程序员-

2. 过去7天的数据

launched = pd.Series(ks.index, index=ks.launched, name="count_7_days").sort_index() #                   数据值为索引， 新的索引为建立的时间，新特征名称，      按索引(时间)排序 launched.head(20)

launched 1970-01-01 01:00:00 94579 1970-01-01 01:00:00 319002 1970-01-01 01:00:00 247913 1970-01-01 01:00:00 48147 1970-01-01 01:00:00 75397 1970-01-01 01:00:00 2842 1970-01-01 01:00:00 273779 2009-04-21 21:02:48 169268 2009-04-23 00:07:53 322000 2009-04-24 21:52:03 138572 2009-04-25 17:36:21 325391 2009-04-27 14:10:39 122662 2009-04-28 13:55:41 213711 2009-04-29 02:04:21 345606 2009-04-29 02:58:50 235255 2009-04-29 04:37:37 98954 2009-04-29 05:26:32 342226 2009-04-29 06:43:44 275091 2009-04-29 13:52:03 284115 2009-04-29 22:08:13 32898 Name: count_7_days, dtype: int64

发现最顶上的7个数据是错误的（时间一样），本节里暂时不去考虑

.rolling('7d')，设置一个窗口

count_7_days = launched.rolling('7d').count()-1 # -1表示不包含当前日期 print(count_7_days.head(20))

launched 1970-01-01 01:00:00 0.0 1970-01-01 01:00:00 1.0 1970-01-01 01:00:00 2.0 1970-01-01 01:00:00 3.0 1970-01-01 01:00:00 4.0 1970-01-01 01:00:00 5.0 1970-01-01 01:00:00 6.0 2009-04-21 21:02:48 0.0 2009-04-23 00:07:53 1.0 2009-04-24 21:52:03 2.0 2009-04-25 17:36:21 3.0 2009-04-27 14:10:39 4.0 2009-04-28 13:55:41 5.0 2009-04-29 02:04:21 5.0 2009-04-29 02:58:50 6.0 2009-04-29 04:37:37 7.0 2009-04-29 05:26:32 8.0 2009-04-29 06:43:44 9.0 2009-04-29 13:52:03 10.0 2009-04-29 22:08:13 11.0 Name: count_7_days, dtype: float64

%matplotlib inline import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = 'SimHei' plt.plot(count_7_days[7:]); plt.title("最近7天的数据") plt.show()

Feature Engineering 特征工程 3. Feature GenerationpythonMichael是个半路程序员-

把新特征数据，reindex后，跟原数据合并

count_7_days.index = launched.values count_7_days = count_7_days.reindex(ks.index) count_7_days.head(10)

0 1487.0 1 2020.0 2 279.0 3 984.0 4 752.0 5 522.0 6 708.0 7 1566.0 8 1048.0 9 975.0 Name: count_7_days, dtype: float64

X.join(count_7_days).head(10)，join合并

Feature Engineering 特征工程 3. Feature GenerationpythonMichael是个半路程序员-

3. 上一个相同类型的项目的时间

比如，电影之类的上映，如果同类型的扎堆了，可能被对手抢占了份额

def time_since_last_project(series): return series.diff().dt.total_seconds()/3600 df = ks[['category','launched']].sort_values('launched') # 按时间排序 timedeltas = df.groupby('category').transform(time_since_last_project) # 按分类分组，然后调用函数进行转换，算得上一个同类的时间跟自己的间隔是多少小时 timedeltas.head(20)

Feature Engineering 特征工程 3. Feature GenerationpythonMichael是个半路程序员-

NaN 表示该类型是第一次出现，填上均值或者中位数
然后跟其他数据合并之前需要把index调整成一致

timedeltas = timedeltas.fillna(timedeltas.median()).reindex(X.index) timedeltas.head(20)

Feature Engineering 特征工程 3. Feature GenerationpythonMichael是个半路程序员-

4. 转换数值特征

Transforming numerical features，一些模型在数据分布是正态分布的时候，工作的很好，所以可以对数据进行开方、取对数转换

plt.hist(ks.goal, range=(0, 100000), bins=50); plt.title('Goal');

Feature Engineering 特征工程 3. Feature GenerationpythonMichael是个半路程序员-

plt.hist(np.sqrt(ks.goal), range=(0, 400), bins=50); plt.title('Sqrt(Goal)');

Feature Engineering 特征工程 3. Feature GenerationpythonMichael是个半路程序员-

plt.hist(np.log(ks.goal), range=(0, 25), bins=50); plt.title('Log(Goal)');

Feature Engineering 特征工程 3. Feature GenerationpythonMichael是个半路程序员-

log 转换对基于树的模型没有什么用，但是对线性模型或者神经网络有用
我们需要转成新的特征，然后做一些测试，选择效果最好的转换方法。

上一篇：Feature Engineering 特征工程 2. Categorical Encodings
下一篇：Feature Engineering 特征工程 4. Feature Selection

展开阅读全文

5
评论 8
x
海报

扫一扫，海报
手机看

到微信朋友圈

x

扫一扫，手机阅读
打赏

打赏

Michael阿明

“如果可以，请留言支持我哦！”

5C币 10C币 20C币 50C币 100C币 200C币

确定

D.W 的专栏

10-25 Feature Engineering 特征工程 3. Feature GenerationpythonMichael是个半路程序员- 2万+

机器学习之特征工程

本文是一篇关于特征工程的总结类文章，如有不足之处或理解有偏差的地方，还望大家多多指点。首先，给一张特征工程的思维导图：【如果要浏览图片，建议将其下载到本地，使用图片浏览软件查看】关于特征工程（F…

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

Feature Engineering 特征工程 3. Feature GenerationpythonMichael是个半路程序员-

文章目录

1. 组合特征

2. 过去7天的数据

3. 上一个相同类型的项目的时间

4. 转换数值特征

机器学习之特征工程

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

Feature Engineering 特征工程 3. Feature GenerationpythonMichael是个半路程序员-

文章目录

1. 组合特征

2. 过去7天的数据

3. 上一个相同类型的项目的时间

4. 转换数值特征

机器学习之特征工程

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录