快速研究主题神器

最后更新于:2022-04-01 21:57:05

# 快速研究主题神器 > 来源:https://uqer.io/community/share/551e5160f9f06c8f33904513 ## 用于快速研究某个主题,可以获得以下信息 + 主题相关的成分股 + 主题在最近1年、3个月、5个交易日内的涨幅 + 依据涨幅和成交量来获取在最近1年、3个月、5个交易日内的主题龙头股,并列出龙头股在这段时间区间内的涨幅 + 依据通联算法,获得与主题相关度最高的个股以及个股在最近1年、3个月、5个交易日内的涨幅 ## 该代码用法 + step1:先在输入1处输入待研究的主题名称,如“新能源汽车”,运行“输入1”所在的cell,可以看到该主题所对应的主题id。有可能有多个主题包含了输入的主题名称,需要从中挑选自己想要研究的主题 + step2:确定了主题id,在“输入2”所在cell修改`theme_id`,注意格式是字符串 + step3:运行所有cell,便可获取与主题相关的信息了 ```py #先通过主题名称获得主题id themeName = u'生物医药' ###################输入1,在此处输入要研究的主题名称################### field1 = ['themeID','themeName'] thms_id = DataAPI.ThemesContentGet(themeName=themeName,field=field1) thmid2nm_dic = dict(zip(thms_id['themeID'],thms_id['themeName'])) #获得主题id与主题名称的对应 thms_id ``` | | themeID | themeName | | --- | --- | | 0 | 4462 | 生物医药股 | | 1 | 120419 | 生物医药 | | 2 | 120420 | 生物医药产业 | ```py ##这里是输入 theme_id = '120419' ###################输入2,由上面可获得主题id,在此处输入主题id,注意格式是字符串################### field2 = ['themeID','themeName','ticker','secShortName','returnScore','textContributionScore','industryScore'] thm_tks = DataAPI.TickersByThemesGet(themeID=theme_id,field=field2) #获得该主题相关的证券,以及证券与主题的相关度 tk2nm_dic = dict(zip(thm_tks['ticker'],thm_tks['secShortName'])) ``` ```py import pandas as pd from CAL.PyCAL import * cal = Calendar('China.SSE') def CountTime(): #返回的是datetime格式 today = datetime.today() today_str = today.strftime("%Y%m%d") cal_date = Date.fromDateTime(today) time1=" 15:05:00" ben_time = datetime.strptime(today_str+time1,"%Y%m%d %H:%M:%S") if cal.isBizDay(cal_date) & (today>ben_time): #如果是交易日,则判断当天是不是在15点前 date = today else: #如果当天不是交易日,则获得前一个交易日 cal_wd = cal.adjustDate(cal_date,BizDayConvention.Preceding) #Date格式 date = cal_wd.toDateTime() #datetime格式 return date def GetMktEqud(tk_list,**kargs): #该函数是用来调取市场行情数据,由于调取时有长度限制,如果查询的个股数太多,需要分批调取 num = 100 cnt_num = len(tk_list)/num if cnt_num > 0: df = pd.DataFrame({}) for i in range(cnt_num): sub_df = DataAPI.MktEqudGet(ticker=tk_list[i*num:(i+1)*num],**kargs) df = pd.concat([df,sub_df]) if (i+1)*num != len(tk_list): sub_df = DataAPI.MktEqudGet(ticker=tk_list[(i+1)*num:],**kargs) df = pd.concat([df,sub_df]) else: df = DataAPI.MktEqudGet(ticker=tk_list,**kargs) return df def GetReturn(Mkt_Info_df): #该函数是用来获得主题在一段时间内的收益,以及个股在这段时间内的收益(先计算成分股在一段时间内的涨幅,再加权成交金额得到主题的涨幅) Mkt_Info_df_gp = Mkt_Info_df.groupby('ticker') tk_inc_dic = {'ticker':[],'return':[],'turnoverValue':[]} for tk,sub_info in Mkt_Info_df_gp: rtn = sub_info['increase'].prod()-1 tnv = sub_info['turnoverValue'].sum()/len(sub_info) #获得平均成交金额 tk_inc_dic['ticker'].append(tk) tk_inc_dic['return'].append(rtn) tk_inc_dic['turnoverValue'].append(tnv) tk_inc_df = pd.DataFrame(tk_inc_dic) tk_inc_df['secShortName'] = tk_inc_df['ticker'].apply(lambda x:tk2nm_dic[x]) rtn_together = (tk_inc_df['return']*tk_inc_df['turnoverValue']).sum()/tk_inc_df['turnoverValue'].sum() #获得该主题一段时间的涨幅,成交金额加权收益 return rtn_together,tk_inc_df ``` ```py print '主题关联的个股' thm_tks 主题关联的个股 ``` | | themeID | themeName | ticker | secShortName | returnScore | textContributionScore | industryScore | | --- | --- | | 0 | 120419 | 生物医药 | 000004 | 国农科技 | 0.935363 | 0.000000 | 0.785714 | | 1 | 120419 | 生物医药 | 000403 | ST生化 | 0.927900 | 0.000000 | 0.714286 | | 2 | 120419 | 生物医药 | 000513 | 丽珠集团 | 0.963505 | 0.030303 | 0.714286 | | 3 | 120419 | 生物医药 | 000538 | 云南白药 | 0.985011 | 0.260606 | 0.714286 | | 4 | 120419 | 生物医药 | 000597 | 东北制药 | 0.988989 | 0.103030 | 0.714286 | | 5 | 120419 | 生物医药 | 000661 | 长春高新 | 0.938084 | 0.193939 | 0.714286 | | 6 | 120419 | 生物医药 | 000739 | 普洛药业 | 0.954498 | 0.042424 | 0.714286 | | 7 | 120419 | 生物医药 | 000790 | 华神集团 | 0.816360 | 0.006061 | 0.714286 | | 8 | 120419 | 生物医药 | 000820 | 金城股份 | 0.630109 | 0.000000 | 0.017857 | | 9 | 120419 | 生物医药 | 000931 | 中关村 | 0.927900 | 1.000000 | 0.062500 | | 10 | 120419 | 生物医药 | 000963 | 华东医药 | 0.693950 | 0.193939 | 0.714286 | | 11 | 120419 | 生物医药 | 002004 | 华邦颖泰 | 0.791938 | 0.078788 | 0.750000 | | 12 | 120419 | 生物医药 | 002007 | 华兰生物 | 0.942944 | 0.406061 | 0.714286 | | 13 | 120419 | 生物医药 | 002019 | 亿帆鑫富 | 0.982201 | 0.121212 | 0.750000 | | 14 | 120419 | 生物医药 | 002020 | 京新药业 | 0.915740 | 0.018182 | 0.714286 | | 15 | 120419 | 生物医药 | 002030 | 达安基因 | 0.142927 | 0.545455 | 0.714286 | | 16 | 120419 | 生物医药 | 002038 | 双鹭药业 | 0.680201 | 0.012121 | 0.714286 | | 17 | 120419 | 生物医药 | 002102 | 冠福股份 | 0.847786 | 0.000000 | 0.053571 | | 18 | 120419 | 生物医药 | 002107 | 沃华医药 | 0.000000 | 0.248485 | 0.714286 | | 19 | 120419 | 生物医药 | 002219 | 恒康医疗 | 0.930044 | 0.169697 | 0.714286 | | 20 | 120419 | 生物医药 | 002286 | 保龄宝 | 0.904069 | 0.000000 | 0.017857 | | 21 | 120419 | 生物医药 | 002287 | 奇正藏药 | 0.897739 | 0.012121 | 0.714286 | | 22 | 120419 | 生物医药 | 002294 | 信立泰 | 0.785857 | 0.169697 | 0.714286 | | 23 | 120419 | 生物医药 | 002317 | 众生药业 | 0.927900 | 0.115152 | 0.714286 | | 24 | 120419 | 生物医药 | 002349 | 精华制药 | 0.927900 | 0.012121 | 0.714286 | | 25 | 120419 | 生物医药 | 002432 | 九安医疗 | 0.804717 | 0.333333 | 0.714286 | | 26 | 120419 | 生物医药 | 002462 | 嘉事堂 | 0.835883 | 0.036364 | 0.714286 | | 27 | 120419 | 生物医药 | 002550 | 千红制药 | 0.961297 | 0.012121 | 0.714286 | | 28 | 120419 | 生物医药 | 002581 | 万昌科技 | 0.772591 | 0.078788 | 0.035714 | | 29 | 120419 | 生物医药 | 002653 | 海思科 | 0.900234 | 0.054545 | 0.714286 | | ... | ... | ... | ... | ... | ... | ... | ... | | 52 | 120419 | 生物医药 | 600220 | 江苏阳光 | 0.754740 | 0.000000 | 0.035714 | | 53 | 120419 | 生物医药 | 600222 | 太龙药业 | 0.866747 | 0.018182 | 0.714286 | | 54 | 120419 | 生物医药 | 600249 | 两面针 | 0.944427 | 0.006061 | 0.035714 | | 55 | 120419 | 生物医药 | 600252 | 中恒集团 | 0.907264 | 0.072727 | 0.776786 | | 56 | 120419 | 生物医药 | 600267 | 海正药业 | 0.967912 | 0.048485 | 0.714286 | | 57 | 120419 | 生物医药 | 600272 | 开开实业 | 0.995495 | 0.000000 | 0.035714 | | 58 | 120419 | 生物医药 | 600276 | 恒瑞医药 | 0.935974 | 0.751515 | 0.714286 | | 59 | 120419 | 生物医药 | 600297 | 美罗药业 | 0.833323 | 0.078788 | 0.714286 | | 60 | 120419 | 生物医药 | 600332 | 白云山 | 0.956238 | 0.309091 | 0.714286 | | 61 | 120419 | 生物医药 | 600340 | 华夏幸福 | 0.881892 | 0.381818 | 0.062500 | | 62 | 120419 | 生物医药 | 600381 | 贤成矿业 | 0.921978 | 0.012121 | 0.107143 | | 63 | 120419 | 生物医药 | 600385 | ST金泰 | 0.765946 | 0.000000 | 0.714286 | | 64 | 120419 | 生物医药 | 600422 | 昆药集团 | 0.956965 | 0.060606 | 0.714286 | | 65 | 120419 | 生物医药 | 600503 | 华丽家族 | 0.927900 | 0.096970 | 0.062500 | | 66 | 120419 | 生物医药 | 600521 | 华海药业 | 0.982925 | 0.012121 | 0.714286 | | 67 | 120419 | 生物医药 | 600535 | 天士力 | 0.983813 | 0.521212 | 0.714286 | | 68 | 120419 | 生物医药 | 600557 | 康缘药业 | 0.988432 | 0.236364 | 0.714286 | | 69 | 120419 | 生物医药 | 600587 | 新华医疗 | 0.967148 | 0.030303 | 0.714286 | | 70 | 120419 | 生物医药 | 600594 | 益佰制药 | 0.836619 | 0.230303 | 0.714286 | | 71 | 120419 | 生物医药 | 600624 | 复旦复华 | 0.977262 | 0.115152 | 0.017857 | | 72 | 120419 | 生物医药 | 600645 | 中源协和 | 0.599070 | 0.521212 | 0.750000 | | 73 | 120419 | 生物医药 | 600666 | 西南药业 | 0.831056 | 0.090909 | 0.714286 | | 74 | 120419 | 生物医药 | 600783 | 鲁信创投 | 0.878917 | 0.236364 | 0.026786 | | 75 | 120419 | 生物医药 | 600789 | 鲁抗医药 | 0.993466 | 0.115152 | 0.714286 | | 76 | 120419 | 生物医药 | 600826 | 兰生股份 | 0.913197 | 0.121212 | 0.035714 | | 77 | 120419 | 生物医药 | 600867 | 通化东宝 | 0.822112 | 0.078788 | 0.714286 | | 78 | 120419 | 生物医药 | 600873 | 梅花生物 | 0.958417 | 0.103030 | 0.026786 | | 79 | 120419 | 生物医药 | 600895 | 张江高科 | 0.627730 | 0.296970 | 0.062500 | | 80 | 120419 | 生物医药 | 601607 | 上海医药 | 0.519610 | 0.442424 | 0.714286 | | 81 | 120419 | 生物医药 | 603168 | 莎普爱思 | 0.994970 | 0.012121 | 0.714286 | ``` 82 rows × 7 columns ``` ```py #获得该主题的上涨幅度 #获得研究的结束时间,如果在当天收盘前,则为前一个交易日 endDate_dt = CountTime() endDate_CAL = Date.fromDateTime(endDate_dt) #前一季度的时间 beginDate_3M_CAL = cal.advanceDate(endDate_CAL,Period('-3M'),BizDayConvention.Following) beginDate_3M_dt = beginDate_3M_CAL.toDateTime() #前5个交易日的时间 period_day = 5 ###################输入################### period_CAL = '-'+str(period_day)+'B' beginDate_5B_CAL = cal.advanceDate(endDate_CAL, period_CAL, BizDayConvention.Following) beginDate_5B_dt = beginDate_5B_CAL.toDateTime() ``` ```py #获得主题在这一年、一季度、5个交易日内的涨幅 tk_list = thm_tks['ticker'].tolist() #获得主题关联的证券代码列表 field = ['ticker','secShortName','tradeDate','preClosePrice','closePrice','turnoverValue','marketValue'] #计算主题在最近1年的涨幅 Mkt_Info_df_1Y = GetMktEqud(tk_list=tk_list,field =field) #获取市场行情,省略了beginDate和endDate,则获取最近1年的行情 Mkt_Info_df_1Y['tradeDate'] = pd.to_datetime(Mkt_Info_df_1Y['tradeDate']) #将tradeDate这一列的格式由string改为datetime Mkt_Info_df_1Y['increase'] = Mkt_Info_df_1Y['closePrice']/Mkt_Info_df_1Y['preClosePrice'] (rtn_1Y,tk_rt_df_1Y) = GetReturn(Mkt_Info_df_1Y) #计算主题在最近3个月的涨幅 Mkt_Info_df_3M = Mkt_Info_df_1Y[Mkt_Info_df_1Y['tradeDate']>beginDate_3M_dt] (rtn_3M,tk_rt_df_3M) = GetReturn(Mkt_Info_df_3M) #计算主题在最近5个交易日的涨幅 Mkt_Info_df_5B = Mkt_Info_df_1Y[Mkt_Info_df_1Y['tradeDate']>beginDate_5B_dt] (rtn_5B,tk_rt_df_5B) = GetReturn(Mkt_Info_df_5B) ``` ```py def add_nm_rtn(mkt_df): #将个股名称与收益拼接,方便做展示 add_info_list = [] for i in range(len(mkt_df)): add_info = mkt_df['secShortName'].iloc[i] + str(round(mkt_df['return'].iloc[i],3)) add_info_list.append(add_info) return add_info_list ``` ```py #获取主题在最近1年、3个月、5个交易日内的龙头股及其涨幅 df_list = [tk_rt_df_1Y,tk_rt_df_3M,tk_rt_df_5B] bigstk_dic = {'bigstk_by_rtn':[],'bigstk_by_rnv':[]} for df_i in df_list: df_sort_rtn = df_i.sort(columns='return',ascending=False)[0:3] #按照收益率对其排序,取前3 df_sort_tnv = df_i.sort(columns='turnoverValue',ascending=False)[0:3] #按照成交量对其排序,取前3 bigstk_rtn_list = add_nm_rtn(df_sort_rtn) bigstk_tnv_list = add_nm_rtn(df_sort_tnv) bigstk_dic['bigstk_by_rtn'].append(bigstk_rtn_list) bigstk_dic['bigstk_by_rnv'].append(bigstk_tnv_list) bigstk_dic['thm_rtn'] = [round(rtn_1Y,3),round(rtn_3M,3),round(rtn_5B,3)] bigstk_df = pd.DataFrame(bigstk_dic) bigstk_df = bigstk_df.loc[:,['thm_rtn','bigstk_by_rtn','bigstk_by_rnv']] bigstk_df.index = [u'最近一年',u'最近3个月',u'最近5个交易日'] bigstk_df.columns = [u'主题涨幅',u'龙头股_按涨幅',u'龙头股_按成交量'] print '主题:',thmid2nm_dic[int(theme_id)] bigstk_df 主题: 生物医药 ``` | | 主题涨幅 | 龙头股_按涨幅 | 龙头股_按成交量 | | --- | --- | | 最近一年 | 0.983 | [沃华医药5.498, 莎普爱思4.354, 达安基因3.13] | [云南白药0.268, 达安基因3.13, 白云山0.344] | | 最近3个月 | 0.518 | [沃华医药1.938, 达安基因1.348, 博腾股份1.149] | [达安基因1.348, 张江高科0.548, 上海医药0.418] | | 最近5个交易日 | 0.091 | [江苏阳光0.266, 恒康医疗0.221, 兰生股份0.22] | [达安基因0.198, 华夏幸福0.122, 上海医药0.088] | ```py #按照相关度做研究,不同维度得到的最相关的个股,查看其收益率 tks_rtnscore = thm_tks.sort(columns='returnScore',ascending=False)[0:3]['ticker'].tolist() #根据returnScore排序 tks_textscore = thm_tks.sort(columns='textContributionScore',ascending=False)[0:3]['ticker'].tolist() #根据textContributionScore排序 tks_indscore = thm_tks.sort(columns='industryScore',ascending=False)[0:3]['ticker'].tolist() #根据industryScore排序 tks_score_list = [tks_rtnscore,tks_textscore,tks_indscore] bigstk_score_dic = {} def noname(df,lt): #将结果按照传入的list中的ticker顺序排列,而不是默认由市场行情获得的的那个dataframe的顺序,我说清楚了吗 new_df = pd.DataFrame({}) for i in lt: a = df[df['ticker']==i] new_df = pd.concat([new_df,a]) return new_df for i in range(3): tk_score_list = tks_score_list[i] #先获得1年、3个月、5个交易日的dataframe sub_mkt_1Y = noname(tk_rt_df_1Y,tk_score_list) add_info_1Y = add_nm_rtn(sub_mkt_1Y) sub_mkt_3M = noname(tk_rt_df_3M,tk_score_list) add_info_3M = add_nm_rtn(sub_mkt_3M) sub_mkt_5B = noname(tk_rt_df_5B,tk_score_list) add_info_5B = add_nm_rtn(sub_mkt_5B) if i == 0: bigstk_score_dic['rtn_score'] = [add_info_1Y,add_info_3M,add_info_5B] if i == 1: bigstk_score_dic['text_score'] = [add_info_1Y,add_info_3M,add_info_5B] if i == 2: bigstk_score_dic['ind_score'] = [add_info_1Y,add_info_3M,add_info_5B] bigstk_score_dic['thm_rtn'] = [round(rtn_1Y,3),round(rtn_3M,3),round(rtn_5B,3)] bigstk_score_df = pd.DataFrame(bigstk_score_dic) bigstk_score_df = bigstk_score_df.loc[:,['thm_rtn','text_score','ind_score','rtn_score']] bigstk_score_df.index = [u'最近一年',u'最近3个月',u'最近5个交易日'] bigstk_score_df.columns = [u'主题涨幅',u'最相关_文本',u'最相关_行业',u'最相关_收益'] bigstk_score_df ``` | | 主题涨幅 | 最相关_文本 | 最相关_行业 | 最相关_收益 | | --- | --- | | 最近一年 | 0.983 | [中关村0.986, 恒瑞医药0.642, 达安基因3.13] | [国农科技1.028, 中恒集团0.599, 华邦颖泰1.034] | [开开实业0.697, 莎普爱思4.354, 鲁抗医药1.183] | | 最近3个月 | 0.518 | [中关村0.35, 恒瑞医药0.258, 达安基因1.348] | [国农科技0.648, 中恒集团0.224, 华邦颖泰0.902] | [开开实业0.241, 莎普爱思0.487, 鲁抗医药0.612] | | 最近5个交易日 | 0.091 | [中关村0.097, 恒瑞医药0.096, 达安基因0.198] | [国农科技0.073, 中恒集团0.028, 华邦颖泰0.148] | [开开实业0.086, 莎普爱思0.037, 鲁抗医药0.197] | ```py thm_tks_text = thm_tks.sort(columns='textContributionScore',ascending=False)[0:5] print '排名按照textContributionScore(文本贡献关联度,主题和证券在新闻文本中的相似度,取值范围[0,1],值越大表示关联度越高)' thm_tks_text 排名按照textContributionScore(文本贡献关联度,主题和证券在新闻文本中的相似度,取值范围[0,1],值越大表示关联度越高) ``` | | themeID | themeName | ticker | secShortName | returnScore | textContributionScore | industryScore | | --- | --- | | 9 | 120419 | 生物医药 | 000931 | 中关村 | 0.927900 | 1.000000 | 0.062500 | | 58 | 120419 | 生物医药 | 600276 | 恒瑞医药 | 0.935974 | 0.751515 | 0.714286 | | 15 | 120419 | 生物医药 | 002030 | 达安基因 | 0.142927 | 0.545455 | 0.714286 | | 72 | 120419 | 生物医药 | 600645 | 中源协和 | 0.599070 | 0.521212 | 0.750000 | | 67 | 120419 | 生物医药 | 600535 | 天士力 | 0.983813 | 0.521212 | 0.714286 | ```py thm_tks_ind = thm_tks.sort(columns='industryScore',ascending=False)[0:5] print '排名按照industryScore(行业关联度,主题和证券在行业分布上的相似度,取值范围[0,1],值越大表示关联度越高)' thm_tks_ind 排名按照industryScore(行业关联度,主题和证券在行业分布上的相似度,取值范围[0,1],值越大表示关联度越高) ``` | | themeID | themeName | ticker | secShortName | returnScore | textContributionScore | industryScore | | --- | --- | | 0 | 120419 | 生物医药 | 000004 | 国农科技 | 0.935363 | 0.000000 | 0.785714 | | 55 | 120419 | 生物医药 | 600252 | 中恒集团 | 0.907264 | 0.072727 | 0.776786 | | 11 | 120419 | 生物医药 | 002004 | 华邦颖泰 | 0.791938 | 0.078788 | 0.750000 | | 72 | 120419 | 生物医药 | 600645 | 中源协和 | 0.599070 | 0.521212 | 0.750000 | | 13 | 120419 | 生物医药 | 002019 | 亿帆鑫富 | 0.982201 | 0.121212 | 0.750000 | ```py thm_tks_rtn = thm_tks.sort(columns='returnScore',ascending=False)[0:5] print '排名按照returnScore(收益关联程度,主题和证券在短期收益上的相似度,取值范围[0,1],值越大表示关联度越高)' thm_tks_rtn 排名按照returnScore(收益关联程度,主题和证券在短期收益上的相似度,取值范围[0,1],值越大表示关联度越高) ``` | | themeID | themeName | ticker | secShortName | returnScore | textContributionScore | industryScore | | --- | --- | | 57 | 120419 | 生物医药 | 600272 | 开开实业 | 0.995495 | 0.000000 | 0.035714 | | 81 | 120419 | 生物医药 | 603168 | 莎普爱思 | 0.994970 | 0.012121 | 0.714286 | | 75 | 120419 | 生物医药 | 600789 | 鲁抗医药 | 0.993466 | 0.115152 | 0.714286 | | 4 | 120419 | 生物医药 | 000597 | 东北制药 | 0.988989 | 0.103030 | 0.714286 | | 68 | 120419 | 生物医药 | 600557 | 康缘药业 | 0.988432 | 0.236364 | 0.714286 |
';