avatar
文章
107
标签
18
分类
34

首页
时间轴
标签
目录
友情链接
推荐工具
站长工具
Zhangzqs
搜索
首页
时间轴
标签
目录
友情链接
推荐工具
站长工具
大数据技术及应用-题库
发表于2022-04-27|大数据
Hadoop有多种浏览HDFS文件目录的方式,下列方式错误的是: A、通过HDFS命令 B、通过Web浏览器 C、通过Eclipse中的Project Explorer D、通过SSH客户端工具 正确答案: D 2. Hadoop配置文件中,yarn-site.xml文件的作用是: A、保存从节点信息 B、配置YARN框架 C、配置MapReduce框架 D、配置Hadoop的HDFS系统的命名 正确答案: B 3. 下列说法错误的是: A、Map函数将输入的元素转换成<key,value>形式的键值对 B、MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave C、Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写 D、不同的Map任务之间不能互相通信 正确答案: C 4. 下列文件不属于Hadoop3.x集群部署时必需配置的是: A、worker B、hadoop-env.sh C、profile D、yarn-site.xml 正确答案: C 5. 关于NameNode和DataNode描 ...
大数据技术及应用-期末复习
发表于2022-04-26|大数据
大数据概述 概念 BigData, 指无法在一定时间范围内用常规工具软件进行捕捉、管理和处理的数据的集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 特性 6V特征 价值密度低(Value) 高速性(Velocity) 可变性(Variability) 海量性(Volume) 多样性(Variety) 真实性(Veracity) 关键技术 大数据的采集、导入/预处理、统计/分析、大数据挖掘 与云计算,物联网的关系 物联网、大数据和云计算三者互为基础,物联网产生大数据,大数据需要云计算。物联网将物品和互联网连接起来,进行信息交换与通信,以实现智能化识别、定位、跟踪、监控和管理的过程中,产生的大量数据,云计算解决万物互联带来的巨大的数据量,所以三者互为基础,又互相促进。 Hadoop 简介 Hadoop框架的核心设计是HDFS和MapReduce。 HDFS为海量数据提供了存储能力。MapReduce为海量数据提供了计算能力。 Hadoop是一个专为离线的大规模数据分析而设计的,而不适合 ...
Spark Shell简单应用
发表于2022-04-26|大数据
需求分析 实现给定一个文件,统计其中单词出现的数目。 准备工作 新建文件test.txt如下 123I am a studentI learn hadoopI learn MapReduce 上传到hdfs上 hadoop fs -put test.txt /user/wordcount.txt Spark shell 输入如下命令,即可实现词频统计 12345sc.textFile("/user/wordcount.txt").flatMap(x=>x.split(" ")).map(x=>(x, 1)).reduceByKey(_+_).collect() 踩坑 我这里出现了如下提示,并且计算停滞不前 12022-04-26 00:36:13,830 WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registe ...
Spark环境搭建
发表于2022-04-26|大数据
环境准备 我这里环境基于 Hadoop环境搭建 MapReduce环境搭建 Hive环境搭建 虚拟机配置也均基于上述环境 Spark集群搭建完毕之后,集群拓扑如下 Spark下载 进入官网下载页面,选择一个版本下载 Downloads | Apache Spark 我这里下载的版本是 spark-3.2.1-bin-without-hadoop.tgz 解压安装包 12tar -zxvf spark-3.2.1-bin-without-hadoop.tgzmv spark-3.2.1-bin-without-hadoop /opt 配置Spark 进入spark安装目录的conf文件夹下 配置workers 注意在spark 3.x以前版本是slaves文件,现在最新的3.x版本为workers文件 复制workers cp workers.template workers 修改workersvim workers 删除localhost添加如下内容 123node1node2node3 配置spark-defaults.conf 复制配置文件cp spark-defa ...
Hive环境搭建
发表于2022-04-25|大数据
环境准备 Hive需要依赖如下环境 集群的拓扑如下 安装MySQL 安装MySQL 123456789101112# 安装mysql的yum源yum install wgetwget https://repo.mysql.com/mysql80-community-release-el7-1.noarch.rpmyum install mysql80-community-release-el7-1.noarch.rpmyum update -y# 安装mysqlyum install mysql-community-server# 配置mysql的开机自启systemctl start mysqldsystemctl enable mysqld 安装踩坑 我这里安装报错提示如下 12345678910warning: /var/cache/yum/x86_64/7/mysql80-community/packages/mysql-community-common-8.0.28-1.el7.x86_64.rpm: Header V4 RSA/SHA256 Signature, ...
Leetcode-398-随机数索引
发表于2022-04-25|数据结构与算法Leetcode
题目 398. 随机数索引 给定一个可能含有重复元素的整数数组,要求随机输出给定的数字的索引。 您可以假设给定的数字一定存在于数组中。 注意: 数组大小可能非常大。 使用太多额外空间的解决方案将不会通过测试。 示例: int[] nums = new int[] {1,2,3,3,3}; Solution solution = new Solution(nums); // pick(3) 应该返回索引 2,3 或者 4。每个索引的返回概率应该相等。 solution.pick(3); // pick(1) 应该返回 0。因为只有nums[0]等于1。 solution.pick(1); 解题 方法一(暴力) 遍历一遍数组nums,每个nums的元素都作为一个key,将下标记录到一个哈希表中的对应key所属的集合中,pick时候查找哈希表,在查询出的集合中随机挑选一个返回。 123456789101112131415class Solution {public: unordered_map<int, vector<int>> mv; ...
Hive简单应用
发表于2022-04-24|大数据
第一步:创建数据库 首先通过show databases命令查看已存在的数据库。然后使用create命令创建一个新的数据库,在本实验中命名为“demo+学号后4位”。 show databases; 1CREATE DATABASE IF NOT EXISTS demo0740; 12345678910hive> CREATE DATABASE IF NOT EXISTS demo0740;OKTime taken: 0.074 secondshive> show databases;OKdefaultdemo0740testTime taken: 0.038 seconds, Fetched: 3 row(s) 第二步:使用创建的数据库 使用USE命令,将你创建的demo数据库设置为当前使用的数据库。 use demo0740; 第三步:创建表 通过create table命令创建一个表,表名users,创建完成后,用describe 表名 命令查看建表结果,确保建表成功。表属性包含: id:int,记录编号,具有唯一性 uid:string,用户id item_i ...
HBase基本操作
发表于2022-04-23|大数据
常用HBase Shell命令 创建表 12/* 创建表,cf1,cf2为列族名 */create 'table_name','cf1','cf2',... 写入数据 12/* 插入或更新数据,cf为列族名,cq为列名,value为要写入的数据 */put 'table_name', 'row_key', 'cf:cq', 'value'[, timestamp] 读取数据 12345678/* 读取单行数据 */get 'table_name', 'row_key'/* 读取列族数据 */get 'table_name', 'row_key', 'cf'/* 读取单元格数据 */get 'table_name', 'row_key', 'cf:cq' 删除数据 12345/* 删除列 * ...
二维凸包
发表于2022-04-23|数据结构与算法其他
概念 具体概念参考 凸包 - 维基百科,自由的百科全书 (wikipedia.org) 如图,在二维欧几里得空间中,凸包可想象为刚好包裹所有点的橡皮圈。 算法 Graham扫描算法 Graham扫描法(葛立恒扫描法)的原理:沿逆时针方向通过凸包时,在每个点处应该向左拐,而删除出现左拐的点。 <未完待续>
Leetcode-587-安装栅栏
发表于2022-04-23|数据结构与算法Leetcode
题目 587. 安装栅栏 在一个二维的花园中,有一些用 (x, y) 坐标表示的树。由于安装费用十分昂贵,你的任务是先用最短的绳子围起所有的树。只有当所有的树都被绳子包围时,花园才能围好栅栏。你需要找到正好位于栅栏边界上的树的坐标。 示例 1: 输入: [[1,1],[2,2],[2,0],[2,4],[3,3],[4,2]] 输出: [[1,1],[2,0],[4,2],[3,3],[2,4]] 解释: 示例 2: 输入: [[1,2],[2,2],[4,2]] 输出: [[1,2],[2,2],[4,2]] 解释: 即使树都在一条直线上,你也需要先用绳子包围它们。 注意: 所有的树应当被围在一起。你不能剪断绳子来包围树或者把树分成一组以上。 输入的整数在 0 到 100 之间。 花园至少有一棵树。 所有树的坐标都是不同的。 输入的点没有顺序。输出顺序也没有要求。 分析
1…567…11
avatar
Zhangzqs
一个分享与记录的个人空间
文章
107
标签
18
分类
34
Follow Me
最新文章
图形学-Geometry几何2025-08-10
图形学-Sharding着色2025-08-09
图形学光栅化2025-08-09
椭圆周长公式推导2025-04-22
Hyper-V嵌套虚拟化运行PVE折腾2025-04-19
分类
  • Android7
  • Golang6
  • Java框架2
  • Python1
  • ROS机器人1
  • Rust1
  • 信息安全9
  • 各种日常踩坑小技巧4
标签
Scrum pandoc Typora Hibernate 敏捷开发 数学建模 MyBatis 读后感 数据库 踩坑 Java 编译原理 C/C++ 算法 设计模式 语法分析 hexo Linux
归档
  • 八月 20253
  • 四月 20254
  • 六月 20241
  • 五月 20241
  • 四月 20244
  • 三月 20241
  • 二月 20242
  • 十一月 20231
网站资讯
文章数目 :
107
已运行时间 :
本站总字数 :
186.8k
本站访客数 :
本站总访问量 :
最后更新时间 :
©2020 - 2025 By Zhangzqs
框架 Hexo|主题 Butterfly
搜索
数据库加载中