合并或加入两个数据集

5次(最近30天)
弗兰克·奥尔森
弗兰克·奥尔森 在2020年4月17日
我工作的一个项目,我要进行事件的研究。这项研究是基于两个时间序列数据集:
1)从新闻发布的情绪(消极,中立和积极的),和
2)特定资产和相关指数期货收益。
在里面 新闻资料 我已经分离出在一个表中的日期和感悟,与行数量巨大,因为每一天(也双休日)有几个是新闻发布。该数据进一步分裂高达消极,中立和积极开展事件研究和seperately检查它们。下面的PIC是否定的。
在里面 返回数据 设置我在对资产及其时间表指数收益价格的变化。一口价每个交易日(没有周末和节假日)。
要执行的事件研究,我需要找到一种方法来删除不匹配交易日和重复日期的所有行,所以我留下了一行每个交易日。那可能吗?
它可以通过合并/连接两个数据集,因为做 返回 数据 仅由上个交易日的观察
注意 :该 返回数据 追溯到进一步在时间,因为我需要计算基于从-205天-5之前的新闻情绪天返回“正常回归”。
非常感谢您的帮助!我真的很感激任何建议!
坦率

2条评论

穆罕默德·萨米
穆罕默德·萨米 在2020年4月17日
您可以使用groupsummary白天先总结你的情绪数据。例如,它会算多少负面新闻项目出现的那一天。然后,你可以用你的回报表合并。
星行客
星行客 在2020年4月17日
探索 加入 功能和它的朋友。

登录发表评论。

答案(1)

彼得·帕金斯
彼得·帕金斯 27 2020年4月
你有一个不规则的盘中表(情绪)和每日时间表(返回)。这听起来像你想打开情感数据变成了一种日常系列?我认为也许你想会猜测,在每个交易日,消极,中立和积极的帖子的计数。在周末的帖子我想你想忽略。
比方说,你有这样的:
帖子=
10×1个时间表
时间情绪
_____________________________
27-APR-2020二点28分13秒的负
27-APR-2020 6时01分41秒中性
27-APR-2020 9点56分51秒中性
27-APR-2020 13时57分48秒的负
27-APR-2020 21时09分31秒正
28-APR-2020○点31分11秒中性
28-APR-2020二时26分17秒的负
28-APR-2020九点59分27秒中性
28-APR-2020 18时51分41秒的负
28-APR-2020 19时01分19秒中性
有一堆的方法来获得情绪算作独立的日常计数变量;在这里,我会告诉groupcountsto第一个GET计数。在最近少MATLAB的版本中,你可以使用groupsummary,或varfun。groupcounts有一个很好的方式来计算,每天计数,但在这里,你要每天按人气数,称groupcounts之前使离散的次日期。
>> posts.time = dateshift(posts.time,'开始''天');
>> posts2 = groupcounts(文章,[“时间”,“情”])
posts2 =
×3表
时间情绪GroupCount
______________________________
27-APR-2020的负2
27-APR-2020中性2
27-APR-2020正面1
28-APR-2020的负2
28-APR-2020中性3
现在,你需要为每个单独的情绪的变量;这是拆散。
>> posts3 =拆散(posts2,'GroupCount''情绪'
posts3 =
2×4表
时间中性
__________________________________
27-APR-2020 2 2 1
28-APR-2020 2 3的NaN
楠是一个有点讨厌;这是因为拆散默认情况下使用的聚集总结。在R2020a版MATLAB的,这只是出来,你可以解决通过指定@numel,但它也很容易使用replacemissing。
>> posts4 = fillmissing(posts3,'不变',0,'DataVariables'[“负”,“中性”,“正”])
posts4 =
2×4表
时间中性
__________________________________
27-APR-2020 2 2 1
28-APR-2020 2 3 0
现在,你是在经营。图出在你关心的期间平日,每天创建日期时间向量,您的文章和你的回报时间表同步到时间向量。

0评论

登录发表评论。