商业智能与web智能中国大学mooc完整答案-买球的app软件下载
中国大学慕课mooc结构分析基础期末答案
硕士英语综合教程1的答案解析
中国大学mooc(慕课)_身体运动功能训练_章节满分答案
2021知到智慧树基础工业工程最新考试答案
2021年超星学习通所发生的章节答案2021年超星学习通轨道交通信号与通信系统章节答案
当前位置:
正规买球app首页
» » 正文
1325
人参与 2023-01-04 04:05:09
点这评论
第1章 数据整理
正则表达式练习
1、能够在字符串“aabaaabaaaab”中匹配“aab”,而不能匹配“aaab”和“aaaab”的正则表达式包括
a、“a*?b”
b、“a{,2}b”
c、“aa??b”
d、“aaa??b”
2、能够完全匹配字符串“(010)-62661617”和字符串“01062661617”的正则表达式包括
a、“\(?\d{3}\)?-?\d{8}”
b、“[0-9()-] ”
c、“[(]?\d*[)-]*\d*”
d、“[0-9(-)]*\d*”
3、能够完全匹配字符串“c:\rapidminer\lib\plugs”的正则表达式包括
a、“c:\rapidminer\lib\plugs”
b、“c:\\rapidminer\\lib\\plugs”
c、“(?i)c:\\rapidminer\\lib\\plugs”
d、“(?s)c:\\rapidminer\\lib\\plugs”
4、能够完全匹配字符串“back”和“back-end”的正则表达式包括
a、“\w{4}-\w{3}|\w{4}”
b、“\w{4}|\w{4}-\w{3}”
c、“\s -\s |\s ”
d、“\w*\b-\b\w*|\w*”
5、能够完全匹配字符串“go go”和“kitty kitty”,但不能完全匹配“go kitty”的正则表达式包括
a、“\b(\w )\b\s \1\b”
b、“\w{2,5}\s*\1”
c、“(\s ) \s \1”
d、“(\s{2,5})\s{1,}\1”
6、观察下面双引号内的两段文本(1)“中文名 贝拉克·侯赛因·奥巴马 外文名 barack hussein obama ii 别 名 欧巴马 国 籍 美国 民 族 德裔族 出生地 美国夏威夷州檀香山 出生日期 1961年8月4日 职 业 政治家、律师、总统 毕业院校 哥伦比亚大学,哈佛大学 信 仰 新教 主要成就 1996年伊利诺伊州参议员 主要成就 美国第56届、57届总统 2009年诺贝尔和平奖获得者 时代周刊年度风云人物 2008、2011 任期内清除本·拉登 代表作品 《我相信变革》《我父亲的梦想》《无畏的希望》 所属政党 美国民主党 血 型 ab型 学 院 西方学院 妻 子 米歇尔·拉沃恩·奥巴马 性 别 男”;(2)“中文名 唐纳德·特朗普 外文名 donald trump 别 名 donald john trump、川普 国 籍 美国 民 族 德意志人 出生日期 1946年6月14日 职 业 政治家、企业家、房地产商人、电视人 毕业院校 宾夕法尼亚大学沃顿商学院、纽约军事学院 代表作品 做生意的艺术、学徒 出生地 美国纽约 主要成就 第45任美国总统(2017年1月20日-2021年1月20日) 《时代周刊》2016年度人物 所属政党 美国共和党 净资产 21亿美元(2020年4月) 身 高 190 cm“。请严格按照答案填写要求回答下面5道填空题,包括本题。注意汉字占一个字符。 当使用正则表达式“中文名[填空]”([填空]处填写11个字符,表达式尽可能通用,只能使用圆括号、\s\s这两个元字符和 ?这两个重复元字符)分别抽取奥巴马和特朗普的中文名时,替换字符串“$1”的赋值为需要抽取的中文名。
7、当使用正则表达式“外文名[填空]”([填空]处填写12个字符,表达式尽可能通用,只能使用圆括号、汉字、.\s这两个元字符和 ?这两个重复元字符)分别抽取奥巴马和特朗普的外文名时,替换字符串“$1”的赋值为需要抽取的外文名。
8、使用正则表达式“职[填空]”([填空]处填写19个字符,表达式尽可能通用,只能使用圆括号、汉字、.\s这两个元字符和 ?这两个重复元字符)分别抽取奥巴马和特朗普的职业时,替换字符串“$1”的赋值为需要抽取的职业。
9、当使用正则表达式“出生日期[填空]”([填空]处填写11个字符,表达式尽可能通用,只能使用圆括号、\s\s这两个元字符和 ?这两个重复元字符)分别抽取奥巴马和特朗普的出生日期时,替换字符串“$1”的赋值为需要抽取的出生日期。
10、使用正则表达式“民[填空]”([填空]处填写17个字符,表达式尽可能通用,只能使用圆括号、汉字、.\s这两个元字符和 ?这两个重复元字符)分别抽取奥巴马和特朗普的民族时,替换字符串“$1”的赋值为需要抽取的民族。
第2章 新闻摘要系统
美食杰采集课堂小测
1、采集https://www.meishij.net/shicai/页面中,从白菜到胡麻油的各种食材的超链接(link)和食材名(name),并通过超链接下载所有食材关联的菜式列表正规买球app首页,保存到rapidminer数据库meishijie中。注意保存的表单必须以上述括号内的英文单词作为字段名。
2、采集https://www.meishij.net/shicaizuofa/baicai/页面中,所有菜式的超链接(link)、菜式名(title)、评论数(comments)和人气数(views)。注意保存的表单必须以上述括号内的英文单词作为字段名。
第4章 信用风险评分方法
代价敏感贝叶斯分类器练习
1、读入单元测试数据中的all_cust.xls文件,其中churn设定为分类任务的label角色,customer_id设定为id角色,一共有____个常规数值属性。
2、将所有数值属性进行基于熵的离散化预处理,仅剩下____个常规角色的标称属性。
3、根据流失类(其值为1)的分类代价在10折交叉验证中最小化的原则,其中将流失类(1)预测为非流失类(0)的代价为30,将非流失类(0)预测为流失类(1)的代价为1,其余代价为0,交叉验证的随机种子设置为1,则设定confidence(1)的阈值为____(保留三位小数,注意粒度为千分之一)。当confidence(1)的数值≥该阈值时将未知记录归类为流失类。保存朴素贝叶斯模型(文件名自己定义),供下面的填充题使用。
4、读入单元测试数据中的target_cust.csv文件,其中churn设定为label角色,customer_id设定为id角色,应用上题中保存的朴素贝叶斯模型。根据“confidence(1)的数值≥上题中确定的阈值”生成预测结果,则预测结果为1的记录一共有____条。
第5章 网站数据分析
网站日志数据整理练习
1、读入网络日志miis.log文件(在zip压缩包中),该网络日志文件一共有 条记录。
2、每条记录有 个不同的属性。
3、每条记录各对应一个页面请求,这些记录涵盖了 天(填写天数)的网站访问数据。
4、假设系统自动发起的页面请求的网址后缀是jpg、gif、cdf和sme,其他页面请求都是用户主动发起的,那么在所有记录中,用户主动发起的页面请求记录一共有 个。
5、假设客户端ip地址相同、用户代理相同,并且访问时间不超过1800秒的两次用户主动发起的页面请求属于同一访问,那么网络日志文件中一共包含 个不同的访问。
6、其中含有3个或以上用户主动发起页面请求的访问有 个。
7、含有2个用户主动发起页面请求的访问有 个。
8、所有访问中,每个访问平均有 个(四舍五入保留两位小数)用户主动发起页面请求。
9、所有访问中,最多有 个用户主动发起页面请求。
10、假设cookie相同且cookie不是字符“-”的两次用户主动发起的页面请求属于同一访问者的请求,那么网络日志文件中一共包含 个不同的访问者(注意cookie为字符“-”的页面请求不属于任意访问者)。
11、该网络日志中涉及的不同用户名(username)有 个。
12、该网络日志中涉及的不同订单号(order_no)有 个。
13、假设我们将含有2个或以上用户主动发起页面请求的访问称作有效访问。该网络日志中有效访问共有 个。
14、有效访问的平均逗留时间是 秒(四舍五入保留两位小数)。
15、所有有效访问中最长逗留时间是 秒。
16、所有有效访问中最短逗留时间是 秒。
17、所有有效访问中相邻两次用户主动发起页面请求的平均时间是 秒(四舍五入保留两位小数)。
18、若从用户主动发起的页面请求网页文件名中抽取顶层目录名称(即网页文件名中前置的/.*/部分),则不同的顶层目录名称一共有 个。
19、涉及访问个数最多的顶层目录名称是 (名称中不要出现前后的/符号)。
20、涉及访问个数最少的顶层目录名称是 (名称中不要出现前后的/符号)。
课程知识点综合训练
1、下面哪种技术不是web智能的核心技术?
a、web平台维护
b、web知识表示与推理
c、web知识发现
d、web数据挖掘
2、下面关于数据挖掘和web数据挖掘的观点中哪个是错误的?
a、web数据挖掘主要针对结构化数据
b、web数据挖掘可以采用数据挖掘的技术和算法
c、数据挖掘与web数据挖掘都处理海量数据
d、web数据挖掘比数据挖掘需要更多的预处理
3、下面关于crisp-dm方法论的描述哪个是错误的?
a、回顾数据挖掘过程找出遗漏属于crisp-dm方法论的结果部署阶段
b、crisp-dm方法论是偏智能化分析的数据挖掘应用方法论
c、crisp-dm方法论不太重视分析方法的理论正确性
d、先有数据再有研究目标,是crisp-dm方法论有别于传统的统计方法论的重要特征
4、以下哪项内容不属于web数据挖掘的三大任务?
a、web内容挖掘
b、web结构挖掘
c、web行为挖掘
d、web使用挖掘
5、评论挖掘属于哪项web数据挖掘任务?
a、web行为挖掘
b、web结构挖掘
c、web使用挖掘
d、web内容挖掘
6、下面关于摘要系统的描述哪个是错误的?
a、抽取式摘要系统利用原来的句子或单词来合成摘要
b、摘要系统不能用于电信业
c、摘要系统可以用于评论挖掘
d、概述式摘要(又称生成式摘要)系统需要使用自然语言生成技术
7、下面关于中心性和权威性的描述哪个是错误的?
a、权威性包括度权威、邻近权威和等级权威
b、度中心性和度权威性的区别在于前者考虑链入链接而后者考虑链出链接
c、中心性包括度中心性、接近中心性和中介中心性
d、pagerank算法利用等级权威对网页排序
8、下面关于pagerank算法的描述哪个是错误的?
a、pagerank算法利用等级权威对网页排序
b、pagerank算法是查询相关的
c、pagerank算法是可收敛的
d、pagerank算法能够处理悬垂结点
9、将pagerank算法应用到抽取式摘要系统的最重要思想是什么?
a、将句子间的共同出现单词看作句子间的关系
b、利用共同出现单词的出现次数比例来定义句子间的转移概率
c、将句子看作网络结点
d、句子间转移概率的定义使用双曲正切函数
10、下面哪个符号在充当正则表达式字符类的首个字符时,若要表示该符号自身,需要添加转义符?
a、
b、-
c、*
d、^
11、下面哪种技术不属于web数据挖掘的范畴?
a、信息检索
b、olap
c、文本聚类
d、文本分类
12、信息抽取属于哪项web数据挖掘任务?
a、web结构挖掘
b、web行为挖掘
c、web内容挖掘
d、web使用挖掘
13、使用pagerank算法对搜索结果排序属于哪项web数据挖掘任务?
a、web使用挖掘
b、web结构挖掘
c、web内容挖掘
d、web行为挖掘
14、下面一组rapidminer部件中,哪个不能用于筛选记录?
a、remove duplicates
b、filter tokens (by length)
c、sample
d、filter examples
15、下面一组rapidminer部件中,哪个不能用于筛选属性?
a、sample
b、select attributes
c、optimize selection
d、remove useless attributes
16、下面离散化部件中不需要设定区间个数的是?
a、discretize by entropy
b、discretize by binning
c、discretize by frequency
d、discretize by size
17、下面分类器中,可解释性最弱的是哪一个?
a、多层前馈神经网络分类器
b、决策树分类器
c、规则集分类器
d、朴素贝叶斯分类器
18、在rapidminer中,支持多线程下载页面内容的部件是什么?
a、get pages (multi-thread)
b、get pages
c、get page (revised)
d、get pages (revised)
19、在rapidminer中,若需要在当前记录添加属性来保存下一条记录的某个属性值,则需要使用哪个添加属性部件?
a、generate aggregation attribute
b、generate offset attribute
c、generate extract
d、generate attributes
20、能匹配31/12/1999 18:12:00这种日期时间的格式模板是?
a、dd/mm/yyyy hh:mm:ss
b、dd/mm/yyyy hh:mm:ss
c、mm/dd/yyyy hh:mm:ss
d、mm/dd/yyyy hh:mm:ss
21、使用join部件合并两个数据集时,若需要保证其中一个数据集不会修改或删除原有数据,且不改变该数据集的属性名,则可以使用哪些合并模式?
a、inner
b、right
c、left
d、outer
22、判定关联规则前件和后件是否正相关的条件是?
a、conviction(信任度)>1
b、lift(提升度)>0
c、lift(提升度)>1
d、confidence(置信度)大于>0.5
23、在get page (revised)部件中勾选random user agent有什么作用?
a、随机打开一个浏览器软件
b、从100个不同的user agent中随机选择一个
c、自动填写user agent内容
d、从11个不同的user agent中随机选择一个
24、能够完全匹配字符串“ecommerce.net”的正则表达式包括:
a、ecom\w .net
b、ecom\w .net
c、ecom.
d、ecom\w
25、能够完全匹配字符串“123-4567”的正则表达式包括:
a、\d{3}|\d{3}-\d{4}
b、\d{3}-\d{4}|\d{3}
c、\d{1,4}-\d{1,4}
d、\d
26、能够完全匹配字符串“go?go”的正则表达式包括:
a、\w
b、(\w )\? \1
c、\s
d、..\?..
27、能够完全匹配字符串“back”和“back-up”的正则表达式包括:
a、\w*\b-\b\w*|\w*
b、\w{4}|\w{4}-\w{2}
c、\s -\s |\s
d、\w{3}-\w{2}|\w{3}
28、能够完全匹配字符串“c:\rapidminer\scripts”的正则表达式包括:
a、(?s)c:\\rapidminer\\scripts
b、(?i)c:\\rapidminer\\scripts
c、(?s)c:\\rapidminer\\scripts
d、(?i)c:\rapidminer\scripts
商业智能课程考核
商业智能课程考核试题
1、数据分析中的crisp-dm方法论包括多少个环节?
a、5
b、6
c、7
d、8
2、下面关于crisp-dm方法论的观点哪个是正确的?
a、crisp-dm方法论比统计分析方法论更重视实验设计
b、crisp-dm方法论常用于探索式数据分析,统计分析方法论常用于验证式数据分析
c、crisp-dm方法论比统计分析方法论的实施周期长
d、crisp-dm方法论比统计分析方法论更难应用,因为需要采集大量数据
3、下面哪个技术是传统统计分析方法论中常用的技术?
a、分类
b、聚类分析
c、关联分析
d、假设检验
4、下面哪项内容不属于crisp-dm方法论的数据理解环节?
a、初步采集数据
b、描述采集的数据
c、验证数据质量
d、运用数据挖掘方法分析数据
5、下面哪项内容不属于crisp-dm方法论的建模环节?
a、选择建模技术
b、确定模型参数
c、从数据角度评估模型
d、从商业成功标准角度评估模型
6、信息检索属于哪项web数据挖掘任务?
a、web内容挖掘
b、web使用挖掘
c、web行为挖掘
d、web结构挖掘
7、根据访问者浏览网页情况预测购买行为属于哪项web数据挖掘任务?
a、web内容挖掘
b、web行为挖掘
c、web使用挖掘
d、web结构挖掘
8、下面关于中心性和权威性的描述哪个是错误的?
a、权威性包括度权威、邻近权威和等级权威
b、pagerank算法利用中介中心性对网页排序
c、中心性包括度中心性、接近中心性和中介中心性
d、度中心性考虑链出链接,度权威性考虑链入链接
9、下面关于pagerank算法的描述哪个是错误的?
a、pagerank算法是web结构挖掘的经典算法
b、pagerank算法可以使用随机浏览模型来解释
c、pagerank算法适用于搜索结果排序
d、pagerank算法适用于搜索竞价排名
10、在信用风险评分建模方法中,贷款风险问题转化为哪一类数据挖掘问题?
a、分类
b、回归
c、聚类
d、关联分析
11、下面分类器中,可解释性最弱的是?
a、规则集分类器
b、朴素贝叶斯分类器
c、决策树分类器
d、最近邻分类器
12、下面离散化部件中不需要设定区间个数的是?
a、discretize by frequency
b、discretize by entropy
c、discretize by size
d、discretize by binning
13、在rapidminer中,支持从数据集字段中抽取信息的部件是?
a、generate extract
b、extract information
c、extract data from document
d、generate attributes
14、在get page (revised)部件中勾选random user agent有什么作用?
a、从100个不同的user agent中随机选择一个
b、从11个不同的user agent中随机选择一个
c、随机打开一个浏览器软件
d、随机构造一个字符串作为user agent
15、下面一组rapidminer部件中,哪个不能减少记录?
a、filter examples by function
b、optimize selection
c、sample
d、aggregate
16、能够完全匹配字符串“bigdata.org”的正则表达式包括:
a、bi.
b、bi\w .org
c、bi\w
d、bi\w .org
17、能够完全匹配字符串“c:\windows7\”的正则表达式包括:
a、c:\windows7\
b、c:\\windows7\\
c、c.windows7.
d、[^\\]*\\[^\\]*\\
18、能够完全匹配字符串“,.?!”的正则表达式包括:
a、[,.?!]{4}
b、\s*
c、(,|.|?|!){2,4}
d、.{2,4}?
19、能够完全匹配字符串“123-4567”的正则表达式包括:
a、\d{3}|\d{3}-\d{4}
b、\d{3}-\d{4}|\d{3}
c、[1-7]
d、[\d-]
20、能够完全匹配字符串“go-go新天地”的正则表达式包括:
a、\s
b、\w
c、(\w )-\1.*
d、[.-]*
21、能够完全匹配字符串“(020)-39325354”和字符串“02039325354”的正则表达式包括:
a、[0-9(-)]*\d*
b、[(]?\d*[)-]*\d*
c、[0-9(-)]
d、[0-9()-]
22、能够完全匹配字符串“kick”和“kick-off”的正则表达式包括:
a、\w{4}-\w{3}|\w{4}
b、\w{4}|\w{4}-\w{3}
c、\s -\s |\s
d、\w*\b-\b\w*|\w*
23、能够完全匹配字符串“hello*hello”和“kitty*kitty”,但不能完全匹配“hello*kitty”的正则表达式包括:
a、\w{5}\*\1
b、(\s )\s\1
c、(\s{5})\*\1
d、\b(\w )\b\*\b\1\b
24、能够完全匹配字符串“c:\rapidminer\src”的正则表达式包括:
a、(?i)c:\rapidminer\src
b、(?i)c:\\rapidminer\\src
c、(?s)c:\\rapidminer\\src
d、(?s)c:\\rapidminer\\src
25、能够在字符串“aabaaabaaaab”中匹配“aab”,而不能匹配“aaab”和“aaaab”的正则表达式包括:
a、aab
b、a ?b
c、aa??b
d、aaa??b
26、读入网络日志miis4book.log文件(在课程qq群文件中),该网络日志文件一共有 条记录。下面所有填空题都根据该网络日志文件进行作答。
27、每条记录各对应一个页面请求,这些记录涵盖了 天(填写整数天数)的网站访问数据。
28、假设系统自动发起的页面请求的网址后缀是jpg、gif、cdf和sme,其他页面请求都是用户主动发起的,那么在所有记录中,用户主动发起的页面请求记录一共有 个。
29、假设客户端ip地址相同、用户代理相同,并且访问时间不超过1800秒的两次用户主动发起的页面请求属于同一访问,那么网络日志文件中一共包含 个不同的访问。
30、含有3个或以上用户主动发起页面请求的访问有 个。
31、恰好含有2个用户主动发起页面请求的访问有 个。
32、所有访问中,每个访问平均有 个(四舍五入保留三位小数)用户主动发起页面请求。
33、所有访问中,最多有 个用户主动发起页面请求。
34、假设cookie相同且cookie不是字符“-”的两次用户主动发起的页面请求属于同一访问者的请求,那么网络日志文件中一共包含 个不同的访问者(注意cookie为字符“-”的页面请求不属于任意访问者)。
35、该网络日志中涉及的不同用户名(username)有 个。
36、该网络日志中涉及的不同订单号(order_no)有 个。
37、假设我们将含有2个或以上用户主动发起页面请求的访问称作有效访问。该网络日志中有效访问共有 个。
38、有效访问的平均逗留时间是 秒(四舍五入保留三位小数)。
39、所有有效访问中最长逗留时间是 秒(四舍五入保留整数)。
40、所有有效访问中相邻两次用户主动发起页面请求的平均时间是 秒(四舍五入保留三位小数)。
41、若从用户主动发起的页面请求网页文件名中抽取顶层目录名称(即网页文件名中前置的/.*/部分),则涉及访问个数最多的顶层目录名称是 (注意名称需要区分大小写,名称中不要出现前后的/符号)。
42、若从用户主动发起的页面请求网页文件名中抽取顶层目录名称(即网页文件名中前置的/.*/部分),则涉及访问个数最少的顶层目录名称是 (注意名称需要区分大小写,名称中不要出现前后的/符号)。
43、针对用户主动发起的页面请求记录构成的数据子集,基于访问id分组,仅对页面(page)属性做二元化处理,产生形式为“page_xxx”的二元项属性,得到的数据集仅由访问id属性和“page_xxx”形式的二元项属性构成,并称为访问点击页面数据集。则这种“page_xxx”形式的二元项属性一共有 个。
44、针对上题中得到的访问点击页面数据集,将访问id字段设置成id角色,将代表支付确定页面的page_confirm.asp字段设置成label角色。我们将page_confirm.asp字段值为true的访问记录所在的类别称为购物访问类,将page_confirm.asp字段值为false的访问记录所在的类别称为非购物访问类。 根据分类代价在10折交叉验证中最小化的原则来构建朴素贝叶斯模型并搜索最优的confidence(true)阈值,其中将购物访问类预测为非购物访问类的代价为30,将非购物访问类预测为购物访问类的代价为1,其余代价为0,交叉验证采用随机种子为1的分层抽样(stratified sampling),最优阈值的搜索步长设定为0.01。则设定confidence(true)的阈值为 (保留两位小数)时获得最低的10折交叉验证平均分类代价。
45、在上题中,对应最优confidence(true)阈值的最低10折交叉验证平均分类代价是 (四舍五入保留三位小数)。
下一篇 >>
相关文章
2023-01-04 06:02
2023-01-04 05:23
2023-01-04 05:01
2023-01-04 04:42
数据结构中国大学mooc完整答案
2023-01-04 03:58
最新文章
人文基础中国大学mooc完整答案
案例教学法中国大学mooc完整答案
创新的力量中国大学mooc完整答案
互联网思维与创业中国大学mooc完整答案
“互联网 ”创新应用中国大学mooc完整答案
标签列表
大学英语综合4原文翻译答案
(218)
精密测量技术基础课后答案2021智慧树知道
(436)
中国大学 mooc_工程力学ii_试题及答案
(995)
中国大学慕课mooc中国现代文学章节测验答案
(978)
超星尔雅_大学生安全教育(新版)_题库公众号
(272)
2021知到智慧树医学统计学期末答案
(498)
备案号: 买球平台网址的版权所有 买球平台网址 copyright © 2012-2023
青果答案
all rights reserved.
sitemap