快速研究主题神器
最后更新于:2022-04-01 21:57:05
# 快速研究主题神器
> 来源:https://uqer.io/community/share/551e5160f9f06c8f33904513
## 用于快速研究某个主题,可以获得以下信息
+ 主题相关的成分股
+ 主题在最近1年、3个月、5个交易日内的涨幅
+ 依据涨幅和成交量来获取在最近1年、3个月、5个交易日内的主题龙头股,并列出龙头股在这段时间区间内的涨幅
+ 依据通联算法,获得与主题相关度最高的个股以及个股在最近1年、3个月、5个交易日内的涨幅
## 该代码用法
+ step1:先在输入1处输入待研究的主题名称,如“新能源汽车”,运行“输入1”所在的cell,可以看到该主题所对应的主题id。有可能有多个主题包含了输入的主题名称,需要从中挑选自己想要研究的主题
+ step2:确定了主题id,在“输入2”所在cell修改`theme_id`,注意格式是字符串
+ step3:运行所有cell,便可获取与主题相关的信息了
```py
#先通过主题名称获得主题id
themeName = u'生物医药' ###################输入1,在此处输入要研究的主题名称###################
field1 = ['themeID','themeName']
thms_id = DataAPI.ThemesContentGet(themeName=themeName,field=field1)
thmid2nm_dic = dict(zip(thms_id['themeID'],thms_id['themeName'])) #获得主题id与主题名称的对应
thms_id
```
| | themeID | themeName |
| --- | --- |
| 0 | 4462 | 生物医药股 |
| 1 | 120419 | 生物医药 |
| 2 | 120420 | 生物医药产业 |
```py
##这里是输入
theme_id = '120419' ###################输入2,由上面可获得主题id,在此处输入主题id,注意格式是字符串###################
field2 = ['themeID','themeName','ticker','secShortName','returnScore','textContributionScore','industryScore']
thm_tks = DataAPI.TickersByThemesGet(themeID=theme_id,field=field2) #获得该主题相关的证券,以及证券与主题的相关度
tk2nm_dic = dict(zip(thm_tks['ticker'],thm_tks['secShortName']))
```
```py
import pandas as pd
from CAL.PyCAL import *
cal = Calendar('China.SSE')
def CountTime(): #返回的是datetime格式
today = datetime.today()
today_str = today.strftime("%Y%m%d")
cal_date = Date.fromDateTime(today)
time1=" 15:05:00"
ben_time = datetime.strptime(today_str+time1,"%Y%m%d %H:%M:%S")
if cal.isBizDay(cal_date) & (today>ben_time): #如果是交易日,则判断当天是不是在15点前
date = today
else: #如果当天不是交易日,则获得前一个交易日
cal_wd = cal.adjustDate(cal_date,BizDayConvention.Preceding) #Date格式
date = cal_wd.toDateTime() #datetime格式
return date
def GetMktEqud(tk_list,**kargs): #该函数是用来调取市场行情数据,由于调取时有长度限制,如果查询的个股数太多,需要分批调取
num = 100
cnt_num = len(tk_list)/num
if cnt_num > 0:
df = pd.DataFrame({})
for i in range(cnt_num):
sub_df = DataAPI.MktEqudGet(ticker=tk_list[i*num:(i+1)*num],**kargs)
df = pd.concat([df,sub_df])
if (i+1)*num != len(tk_list):
sub_df = DataAPI.MktEqudGet(ticker=tk_list[(i+1)*num:],**kargs)
df = pd.concat([df,sub_df])
else:
df = DataAPI.MktEqudGet(ticker=tk_list,**kargs)
return df
def GetReturn(Mkt_Info_df): #该函数是用来获得主题在一段时间内的收益,以及个股在这段时间内的收益(先计算成分股在一段时间内的涨幅,再加权成交金额得到主题的涨幅)
Mkt_Info_df_gp = Mkt_Info_df.groupby('ticker')
tk_inc_dic = {'ticker':[],'return':[],'turnoverValue':[]}
for tk,sub_info in Mkt_Info_df_gp:
rtn = sub_info['increase'].prod()-1
tnv = sub_info['turnoverValue'].sum()/len(sub_info) #获得平均成交金额
tk_inc_dic['ticker'].append(tk)
tk_inc_dic['return'].append(rtn)
tk_inc_dic['turnoverValue'].append(tnv)
tk_inc_df = pd.DataFrame(tk_inc_dic)
tk_inc_df['secShortName'] = tk_inc_df['ticker'].apply(lambda x:tk2nm_dic[x])
rtn_together = (tk_inc_df['return']*tk_inc_df['turnoverValue']).sum()/tk_inc_df['turnoverValue'].sum() #获得该主题一段时间的涨幅,成交金额加权收益
return rtn_together,tk_inc_df
```
```py
print '主题关联的个股'
thm_tks
主题关联的个股
```
| | themeID | themeName | ticker | secShortName | returnScore | textContributionScore | industryScore |
| --- | --- |
| 0 | 120419 | 生物医药 | 000004 | 国农科技 | 0.935363 | 0.000000 | 0.785714 |
| 1 | 120419 | 生物医药 | 000403 | ST生化 | 0.927900 | 0.000000 | 0.714286 |
| 2 | 120419 | 生物医药 | 000513 | 丽珠集团 | 0.963505 | 0.030303 | 0.714286 |
| 3 | 120419 | 生物医药 | 000538 | 云南白药 | 0.985011 | 0.260606 | 0.714286 |
| 4 | 120419 | 生物医药 | 000597 | 东北制药 | 0.988989 | 0.103030 | 0.714286 |
| 5 | 120419 | 生物医药 | 000661 | 长春高新 | 0.938084 | 0.193939 | 0.714286 |
| 6 | 120419 | 生物医药 | 000739 | 普洛药业 | 0.954498 | 0.042424 | 0.714286 |
| 7 | 120419 | 生物医药 | 000790 | 华神集团 | 0.816360 | 0.006061 | 0.714286 |
| 8 | 120419 | 生物医药 | 000820 | 金城股份 | 0.630109 | 0.000000 | 0.017857 |
| 9 | 120419 | 生物医药 | 000931 | 中关村 | 0.927900 | 1.000000 | 0.062500 |
| 10 | 120419 | 生物医药 | 000963 | 华东医药 | 0.693950 | 0.193939 | 0.714286 |
| 11 | 120419 | 生物医药 | 002004 | 华邦颖泰 | 0.791938 | 0.078788 | 0.750000 |
| 12 | 120419 | 生物医药 | 002007 | 华兰生物 | 0.942944 | 0.406061 | 0.714286 |
| 13 | 120419 | 生物医药 | 002019 | 亿帆鑫富 | 0.982201 | 0.121212 | 0.750000 |
| 14 | 120419 | 生物医药 | 002020 | 京新药业 | 0.915740 | 0.018182 | 0.714286 |
| 15 | 120419 | 生物医药 | 002030 | 达安基因 | 0.142927 | 0.545455 | 0.714286 |
| 16 | 120419 | 生物医药 | 002038 | 双鹭药业 | 0.680201 | 0.012121 | 0.714286 |
| 17 | 120419 | 生物医药 | 002102 | 冠福股份 | 0.847786 | 0.000000 | 0.053571 |
| 18 | 120419 | 生物医药 | 002107 | 沃华医药 | 0.000000 | 0.248485 | 0.714286 |
| 19 | 120419 | 生物医药 | 002219 | 恒康医疗 | 0.930044 | 0.169697 | 0.714286 |
| 20 | 120419 | 生物医药 | 002286 | 保龄宝 | 0.904069 | 0.000000 | 0.017857 |
| 21 | 120419 | 生物医药 | 002287 | 奇正藏药 | 0.897739 | 0.012121 | 0.714286 |
| 22 | 120419 | 生物医药 | 002294 | 信立泰 | 0.785857 | 0.169697 | 0.714286 |
| 23 | 120419 | 生物医药 | 002317 | 众生药业 | 0.927900 | 0.115152 | 0.714286 |
| 24 | 120419 | 生物医药 | 002349 | 精华制药 | 0.927900 | 0.012121 | 0.714286 |
| 25 | 120419 | 生物医药 | 002432 | 九安医疗 | 0.804717 | 0.333333 | 0.714286 |
| 26 | 120419 | 生物医药 | 002462 | 嘉事堂 | 0.835883 | 0.036364 | 0.714286 |
| 27 | 120419 | 生物医药 | 002550 | 千红制药 | 0.961297 | 0.012121 | 0.714286 |
| 28 | 120419 | 生物医药 | 002581 | 万昌科技 | 0.772591 | 0.078788 | 0.035714 |
| 29 | 120419 | 生物医药 | 002653 | 海思科 | 0.900234 | 0.054545 | 0.714286 |
| ... | ... | ... | ... | ... | ... | ... | ... |
| 52 | 120419 | 生物医药 | 600220 | 江苏阳光 | 0.754740 | 0.000000 | 0.035714 |
| 53 | 120419 | 生物医药 | 600222 | 太龙药业 | 0.866747 | 0.018182 | 0.714286 |
| 54 | 120419 | 生物医药 | 600249 | 两面针 | 0.944427 | 0.006061 | 0.035714 |
| 55 | 120419 | 生物医药 | 600252 | 中恒集团 | 0.907264 | 0.072727 | 0.776786 |
| 56 | 120419 | 生物医药 | 600267 | 海正药业 | 0.967912 | 0.048485 | 0.714286 |
| 57 | 120419 | 生物医药 | 600272 | 开开实业 | 0.995495 | 0.000000 | 0.035714 |
| 58 | 120419 | 生物医药 | 600276 | 恒瑞医药 | 0.935974 | 0.751515 | 0.714286 |
| 59 | 120419 | 生物医药 | 600297 | 美罗药业 | 0.833323 | 0.078788 | 0.714286 |
| 60 | 120419 | 生物医药 | 600332 | 白云山 | 0.956238 | 0.309091 | 0.714286 |
| 61 | 120419 | 生物医药 | 600340 | 华夏幸福 | 0.881892 | 0.381818 | 0.062500 |
| 62 | 120419 | 生物医药 | 600381 | 贤成矿业 | 0.921978 | 0.012121 | 0.107143 |
| 63 | 120419 | 生物医药 | 600385 | ST金泰 | 0.765946 | 0.000000 | 0.714286 |
| 64 | 120419 | 生物医药 | 600422 | 昆药集团 | 0.956965 | 0.060606 | 0.714286 |
| 65 | 120419 | 生物医药 | 600503 | 华丽家族 | 0.927900 | 0.096970 | 0.062500 |
| 66 | 120419 | 生物医药 | 600521 | 华海药业 | 0.982925 | 0.012121 | 0.714286 |
| 67 | 120419 | 生物医药 | 600535 | 天士力 | 0.983813 | 0.521212 | 0.714286 |
| 68 | 120419 | 生物医药 | 600557 | 康缘药业 | 0.988432 | 0.236364 | 0.714286 |
| 69 | 120419 | 生物医药 | 600587 | 新华医疗 | 0.967148 | 0.030303 | 0.714286 |
| 70 | 120419 | 生物医药 | 600594 | 益佰制药 | 0.836619 | 0.230303 | 0.714286 |
| 71 | 120419 | 生物医药 | 600624 | 复旦复华 | 0.977262 | 0.115152 | 0.017857 |
| 72 | 120419 | 生物医药 | 600645 | 中源协和 | 0.599070 | 0.521212 | 0.750000 |
| 73 | 120419 | 生物医药 | 600666 | 西南药业 | 0.831056 | 0.090909 | 0.714286 |
| 74 | 120419 | 生物医药 | 600783 | 鲁信创投 | 0.878917 | 0.236364 | 0.026786 |
| 75 | 120419 | 生物医药 | 600789 | 鲁抗医药 | 0.993466 | 0.115152 | 0.714286 |
| 76 | 120419 | 生物医药 | 600826 | 兰生股份 | 0.913197 | 0.121212 | 0.035714 |
| 77 | 120419 | 生物医药 | 600867 | 通化东宝 | 0.822112 | 0.078788 | 0.714286 |
| 78 | 120419 | 生物医药 | 600873 | 梅花生物 | 0.958417 | 0.103030 | 0.026786 |
| 79 | 120419 | 生物医药 | 600895 | 张江高科 | 0.627730 | 0.296970 | 0.062500 |
| 80 | 120419 | 生物医药 | 601607 | 上海医药 | 0.519610 | 0.442424 | 0.714286 |
| 81 | 120419 | 生物医药 | 603168 | 莎普爱思 | 0.994970 | 0.012121 | 0.714286 |
```
82 rows × 7 columns
```
```py
#获得该主题的上涨幅度
#获得研究的结束时间,如果在当天收盘前,则为前一个交易日
endDate_dt = CountTime()
endDate_CAL = Date.fromDateTime(endDate_dt)
#前一季度的时间
beginDate_3M_CAL = cal.advanceDate(endDate_CAL,Period('-3M'),BizDayConvention.Following)
beginDate_3M_dt = beginDate_3M_CAL.toDateTime()
#前5个交易日的时间
period_day = 5 ###################输入###################
period_CAL = '-'+str(period_day)+'B'
beginDate_5B_CAL = cal.advanceDate(endDate_CAL, period_CAL, BizDayConvention.Following)
beginDate_5B_dt = beginDate_5B_CAL.toDateTime()
```
```py
#获得主题在这一年、一季度、5个交易日内的涨幅
tk_list = thm_tks['ticker'].tolist() #获得主题关联的证券代码列表
field = ['ticker','secShortName','tradeDate','preClosePrice','closePrice','turnoverValue','marketValue']
#计算主题在最近1年的涨幅
Mkt_Info_df_1Y = GetMktEqud(tk_list=tk_list,field =field) #获取市场行情,省略了beginDate和endDate,则获取最近1年的行情
Mkt_Info_df_1Y['tradeDate'] = pd.to_datetime(Mkt_Info_df_1Y['tradeDate']) #将tradeDate这一列的格式由string改为datetime
Mkt_Info_df_1Y['increase'] = Mkt_Info_df_1Y['closePrice']/Mkt_Info_df_1Y['preClosePrice']
(rtn_1Y,tk_rt_df_1Y) = GetReturn(Mkt_Info_df_1Y)
#计算主题在最近3个月的涨幅
Mkt_Info_df_3M = Mkt_Info_df_1Y[Mkt_Info_df_1Y['tradeDate']>beginDate_3M_dt]
(rtn_3M,tk_rt_df_3M) = GetReturn(Mkt_Info_df_3M)
#计算主题在最近5个交易日的涨幅
Mkt_Info_df_5B = Mkt_Info_df_1Y[Mkt_Info_df_1Y['tradeDate']>beginDate_5B_dt]
(rtn_5B,tk_rt_df_5B) = GetReturn(Mkt_Info_df_5B)
```
```py
def add_nm_rtn(mkt_df): #将个股名称与收益拼接,方便做展示
add_info_list = []
for i in range(len(mkt_df)):
add_info = mkt_df['secShortName'].iloc[i] + str(round(mkt_df['return'].iloc[i],3))
add_info_list.append(add_info)
return add_info_list
```
```py
#获取主题在最近1年、3个月、5个交易日内的龙头股及其涨幅
df_list = [tk_rt_df_1Y,tk_rt_df_3M,tk_rt_df_5B]
bigstk_dic = {'bigstk_by_rtn':[],'bigstk_by_rnv':[]}
for df_i in df_list:
df_sort_rtn = df_i.sort(columns='return',ascending=False)[0:3] #按照收益率对其排序,取前3
df_sort_tnv = df_i.sort(columns='turnoverValue',ascending=False)[0:3] #按照成交量对其排序,取前3
bigstk_rtn_list = add_nm_rtn(df_sort_rtn)
bigstk_tnv_list = add_nm_rtn(df_sort_tnv)
bigstk_dic['bigstk_by_rtn'].append(bigstk_rtn_list)
bigstk_dic['bigstk_by_rnv'].append(bigstk_tnv_list)
bigstk_dic['thm_rtn'] = [round(rtn_1Y,3),round(rtn_3M,3),round(rtn_5B,3)]
bigstk_df = pd.DataFrame(bigstk_dic)
bigstk_df = bigstk_df.loc[:,['thm_rtn','bigstk_by_rtn','bigstk_by_rnv']]
bigstk_df.index = [u'最近一年',u'最近3个月',u'最近5个交易日']
bigstk_df.columns = [u'主题涨幅',u'龙头股_按涨幅',u'龙头股_按成交量']
print '主题:',thmid2nm_dic[int(theme_id)]
bigstk_df
主题: 生物医药
```
| | 主题涨幅 | 龙头股_按涨幅 | 龙头股_按成交量 |
| --- | --- |
| 最近一年 | 0.983 | [沃华医药5.498, 莎普爱思4.354, 达安基因3.13] | [云南白药0.268, 达安基因3.13, 白云山0.344] |
| 最近3个月 | 0.518 | [沃华医药1.938, 达安基因1.348, 博腾股份1.149] | [达安基因1.348, 张江高科0.548, 上海医药0.418] |
| 最近5个交易日 | 0.091 | [江苏阳光0.266, 恒康医疗0.221, 兰生股份0.22] | [达安基因0.198, 华夏幸福0.122, 上海医药0.088] |
```py
#按照相关度做研究,不同维度得到的最相关的个股,查看其收益率
tks_rtnscore = thm_tks.sort(columns='returnScore',ascending=False)[0:3]['ticker'].tolist() #根据returnScore排序
tks_textscore = thm_tks.sort(columns='textContributionScore',ascending=False)[0:3]['ticker'].tolist() #根据textContributionScore排序
tks_indscore = thm_tks.sort(columns='industryScore',ascending=False)[0:3]['ticker'].tolist() #根据industryScore排序
tks_score_list = [tks_rtnscore,tks_textscore,tks_indscore]
bigstk_score_dic = {}
def noname(df,lt): #将结果按照传入的list中的ticker顺序排列,而不是默认由市场行情获得的的那个dataframe的顺序,我说清楚了吗
new_df = pd.DataFrame({})
for i in lt:
a = df[df['ticker']==i]
new_df = pd.concat([new_df,a])
return new_df
for i in range(3):
tk_score_list = tks_score_list[i]
#先获得1年、3个月、5个交易日的dataframe
sub_mkt_1Y = noname(tk_rt_df_1Y,tk_score_list)
add_info_1Y = add_nm_rtn(sub_mkt_1Y)
sub_mkt_3M = noname(tk_rt_df_3M,tk_score_list)
add_info_3M = add_nm_rtn(sub_mkt_3M)
sub_mkt_5B = noname(tk_rt_df_5B,tk_score_list)
add_info_5B = add_nm_rtn(sub_mkt_5B)
if i == 0:
bigstk_score_dic['rtn_score'] = [add_info_1Y,add_info_3M,add_info_5B]
if i == 1:
bigstk_score_dic['text_score'] = [add_info_1Y,add_info_3M,add_info_5B]
if i == 2:
bigstk_score_dic['ind_score'] = [add_info_1Y,add_info_3M,add_info_5B]
bigstk_score_dic['thm_rtn'] = [round(rtn_1Y,3),round(rtn_3M,3),round(rtn_5B,3)]
bigstk_score_df = pd.DataFrame(bigstk_score_dic)
bigstk_score_df = bigstk_score_df.loc[:,['thm_rtn','text_score','ind_score','rtn_score']]
bigstk_score_df.index = [u'最近一年',u'最近3个月',u'最近5个交易日']
bigstk_score_df.columns = [u'主题涨幅',u'最相关_文本',u'最相关_行业',u'最相关_收益']
bigstk_score_df
```
| | 主题涨幅 | 最相关_文本 | 最相关_行业 | 最相关_收益 |
| --- | --- |
| 最近一年 | 0.983 | [中关村0.986, 恒瑞医药0.642, 达安基因3.13] | [国农科技1.028, 中恒集团0.599, 华邦颖泰1.034] | [开开实业0.697, 莎普爱思4.354, 鲁抗医药1.183] |
| 最近3个月 | 0.518 | [中关村0.35, 恒瑞医药0.258, 达安基因1.348] | [国农科技0.648, 中恒集团0.224, 华邦颖泰0.902] | [开开实业0.241, 莎普爱思0.487, 鲁抗医药0.612] |
| 最近5个交易日 | 0.091 | [中关村0.097, 恒瑞医药0.096, 达安基因0.198] | [国农科技0.073, 中恒集团0.028, 华邦颖泰0.148] | [开开实业0.086, 莎普爱思0.037, 鲁抗医药0.197] |
```py
thm_tks_text = thm_tks.sort(columns='textContributionScore',ascending=False)[0:5]
print '排名按照textContributionScore(文本贡献关联度,主题和证券在新闻文本中的相似度,取值范围[0,1],值越大表示关联度越高)'
thm_tks_text
排名按照textContributionScore(文本贡献关联度,主题和证券在新闻文本中的相似度,取值范围[0,1],值越大表示关联度越高)
```
| | themeID | themeName | ticker | secShortName | returnScore | textContributionScore | industryScore |
| --- | --- |
| 9 | 120419 | 生物医药 | 000931 | 中关村 | 0.927900 | 1.000000 | 0.062500 |
| 58 | 120419 | 生物医药 | 600276 | 恒瑞医药 | 0.935974 | 0.751515 | 0.714286 |
| 15 | 120419 | 生物医药 | 002030 | 达安基因 | 0.142927 | 0.545455 | 0.714286 |
| 72 | 120419 | 生物医药 | 600645 | 中源协和 | 0.599070 | 0.521212 | 0.750000 |
| 67 | 120419 | 生物医药 | 600535 | 天士力 | 0.983813 | 0.521212 | 0.714286 |
```py
thm_tks_ind = thm_tks.sort(columns='industryScore',ascending=False)[0:5]
print '排名按照industryScore(行业关联度,主题和证券在行业分布上的相似度,取值范围[0,1],值越大表示关联度越高)'
thm_tks_ind
排名按照industryScore(行业关联度,主题和证券在行业分布上的相似度,取值范围[0,1],值越大表示关联度越高)
```
| | themeID | themeName | ticker | secShortName | returnScore | textContributionScore | industryScore |
| --- | --- |
| 0 | 120419 | 生物医药 | 000004 | 国农科技 | 0.935363 | 0.000000 | 0.785714 |
| 55 | 120419 | 生物医药 | 600252 | 中恒集团 | 0.907264 | 0.072727 | 0.776786 |
| 11 | 120419 | 生物医药 | 002004 | 华邦颖泰 | 0.791938 | 0.078788 | 0.750000 |
| 72 | 120419 | 生物医药 | 600645 | 中源协和 | 0.599070 | 0.521212 | 0.750000 |
| 13 | 120419 | 生物医药 | 002019 | 亿帆鑫富 | 0.982201 | 0.121212 | 0.750000 |
```py
thm_tks_rtn = thm_tks.sort(columns='returnScore',ascending=False)[0:5]
print '排名按照returnScore(收益关联程度,主题和证券在短期收益上的相似度,取值范围[0,1],值越大表示关联度越高)'
thm_tks_rtn
排名按照returnScore(收益关联程度,主题和证券在短期收益上的相似度,取值范围[0,1],值越大表示关联度越高)
```
| | themeID | themeName | ticker | secShortName | returnScore | textContributionScore | industryScore |
| --- | --- |
| 57 | 120419 | 生物医药 | 600272 | 开开实业 | 0.995495 | 0.000000 | 0.035714 |
| 81 | 120419 | 生物医药 | 603168 | 莎普爱思 | 0.994970 | 0.012121 | 0.714286 |
| 75 | 120419 | 生物医药 | 600789 | 鲁抗医药 | 0.993466 | 0.115152 | 0.714286 |
| 4 | 120419 | 生物医药 | 000597 | 东北制药 | 0.988989 | 0.103030 | 0.714286 |
| 68 | 120419 | 生物医药 | 600557 | 康缘药业 | 0.988432 | 0.236364 | 0.714286 |
';