https://q2.qlogo.cn/headimg_dl?dst_uin=1057372918&spec=100

kamisamak'BLOG

0.0
给kamisamak'BLOG打分

感谢您打了2分

详情

全站展示位

Apache ZooKeeper 集群搭建kamik的博客

Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。 ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达到基于数据的集群管理。 zookeeper安装安装zookeeper的注意事项：安装前需要安装好jdk 检测集群时间是否。。。

查看原文

心灵鸡汤

小故事、机会

　　A在合资公司做白领，觉得自己满腔抱负没有得到上级的赏识，经常想：如果有一天能见到老总，有机会展示一下自己的才干就好了!!

　　A的同事B，也有同样的想法，他更进一步，去打听老总上下班的时间，算好他大概会在何时进电梯，他也在这个时候去坐电梯，希望能遇到老总，有机会可以打个招呼。

　　他们的同事C更进一步。他详细了解老总的奋斗历程，弄清老总毕业的学校，人际风格，关心的问题，精心设计了几句简单却有份量的开场白，在算好的时间去乘坐电梯，跟老总打过几次招呼后，终于有一天跟老总长谈了一次，不久就争取到了更好的职位。

　　心得：愚者错失机会，智者善抓机会，成功者创造机会。机会只给准备好的人，这准备二字，并非说说而已。

列表展示

主站展示位

Spark 各项代码示例kamik的博客

SparkSql向mysql建表写数据查询操作 val sparkConf: SparkConf = new SparkConf().setMaster('local[*]').setAppName('wula') val sparkContext = new SparkContext(sparkConf) //设置日志等级 sparkContext.setLogLevel('warn') MySql建表

1 2024-12-14 02:59 查看原文

CDH安装Hadoop权限问题kamik的博客

如遇到put: Permission denied: user=root, access=WRITE, inode='/':hdfs:supergroup:drwxr-xr-x 执行 sudo -u hdfs hadoop fs -mkdir /user/root groupadd supergroup usermod -a -G supergroup root su - hdfs -s /bin/bash -c 'hdfs dfsad

查看原文

Spark性能优化指南——高级篇kamik的博客

调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spa

查看原文

Samba配置文件常用参数详解kamik的博客

Samba配置文件常用参数详解 Samba的主配置文件叫smb.conf，默认在/etc/samba/目录下。 smb.conf含有多个段，每个段由段名开始，直到下个段名。每个段名放在方括号中间。每段的参数的格式是：名称=指。配置文件中一行一个段名和参数，段名和参数名不分大小写。除了[global]段外，所有的段都可以看作是一个共享资源。段名是该共享资源的名字，段里的参数是该共享资源的属性。 Samba安装好后，使用testparm命

查看原文

通过Python urllib爬取中图网kamik的博客

抱歉，只有登录并在本文发表评论才能阅读隐藏内容

查看原文

Apache Sqoop搭建kamik的博客

一、简介 Apache Sqoop是在Hadoop生基金会提供核心的功能有两个：导入、迁入导出、迁出导入数据：MySQL，Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据：从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具，和 HDFS，Hive 相比，并没有什么高深的理论 Sqoop工作机制：是将导入或导出命令翻译成ma

查看原文

Elasticsearch7.7数据库集群部署&入门kamik的博客

安装部署前置需求 JDK6+(被监控的应用程序运行在jdk6及以上版本) JDK8+(SkyWalking collector和WebUI部署在jdk8及以上版本) Elasticsearch 5.x(集群模式或不使用) Zookeeper 3.4.10 被监控应用的宿主服务器系统时间(包含时区)与collectors,UIs部署的宿主服务器时间设置正确且相同

查看原文

Hadoop Hive 字段类型kamik的博客

Hive 字段类型分类类型描述字面量示例原始类型 BOOLEAN true/false TRUE - TINYINT 1字节的有符号整数 -128~127 1Y - SMALLINT 2个字节的有符号整数，-32768~32767 1S - INT 4个字节的带符号整数 1 - BIGINT 8字节带符号整数 1L - FLOAT 4字节单精度浮点数1.0 - DOUBLE 8字节双精度

1 2024-12-15 14:37 查看原文

Linux sed命令kamik的博客

语法 sed [-hnV][-e<script>][-f<script文件>][文本文件] 参数说明： -e<script>或--expression=<script> 以选项中指定的script来处理输入的文本文件。 -f<script文件>或--file=<script文件> 以选项中指定的script文件来处理输入的文本文件。 -h或--help

查看原文

MapReduce高级案例⑦kamik的博客

小文件处理（自定义InputFormat）需求分析无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。将多个小文件合并成一个文件SequenceFile，SequenceFile里面存储着多个文件，存储的形式为文件路径+名称为key，文件内容为value。小文件的优化无非以下几种方式：（1）在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS （

查看原文

Spark 入门详解 αkamik的博客

什么是Spark spark是基于内存的用于大规模数据处理(离线计算、实时计算、快速查询)的统一分析引擎。也是一个生态系统。 Spark的特点 1、速度快比MapReduce块10-100倍 2、易用（算法多） MR只支持一种计算算法，Spark支持多种算法。 3、通用 Spark可以支持离线计算、实时计算、快速查询（交互式）、机器学习、图计算 4、兼容性强支持大数据中现有的Yarn. Mesos等多种调度平台，可以处

查看原文

IntelliJ IDEA 快捷键合集kamik的博客

1. 编辑类快捷键编辑类快捷键介绍 psvm + Tab 生成main方法 sout + tab 生成输出语句 Ctrl+X / Ctrl + Y 删除一行 Ctrl+D 复制一行 Ctrl+/ 或 Ctrl+Shift+/ 注释代码 Ctrl + Z 撤销 Ctrl + Shift + Z 取消撤销 Ctrl + C 复制 Ctrl + V 粘贴 Ctrl + O 重写方法

查看原文

Cloudera CDH 6.3.2 Centos7离线安装kamik的博客

CDH，全称Cloudera's Distribution, including Apache Hadoop。是Hadoop众多分支中对应中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，提供了Hadoop的核心（可扩展存储、分布式计算），最为重要的是提供基于web的用户界面。 CDH的优点：版本划分清晰，更新速度快，支持Kerberos安全认证，支持多种安装方式（如Yum、rpm等）。 CDH分为Clo

查看原文

Springkamik的博客

各位客官点击就知道了！

查看原文

Linux更换为本地yum源kamik的博客

①挂载镜像到 /mnt/cdrom mkdir /mnt/cdrom ISO镜像临时挂载 : mount -o loop ISO镜像 /mnt/cdrom 光驱临时挂载 : mount /dev/sr0 /mnt/cdrom ISO镜像开机自动挂载:更改etc下fstab文件 /root/CentOS-6.9-x86_64-bin-DVD1.iso /mnt/cdrom iso9660 loop,defau

查看原文

Kerberos入坑指南kamik的博客

抱歉，只有登录并在本文发表评论才能阅读隐藏内容

查看原文

Hadoop High Availability 高可用kamik的博客

一、 Hadoop High Availability HA(High Available), 高可用，是保证业务连续性的有效解决方案，一般有两个或两个以上的节点，分为活动节点（Active）及备用节点（Standby）。通常把正在执行业务的称为活动节点，而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题，导致正在运行的业务（任务）不能正常运行时，备用节点此时就会侦测到，并立即接续活动节点来执行业务。从而实现业务的不中断或短暂

1 2024-11-30 04:28 查看原文

Sparkkamik的博客

各位客官点击就知道了！

1 2024-03-09 19:44 查看原文

Impalakamik的博客

各位客官点击就知道了！

查看原文

Spark-On-Hivekamik的博客

官网：执行引擎去

1 2024-12-11 14:59 查看原文

博客寄语：

很高兴遇到你，这里是kamisamak，22岁，刚毕业，正在不断学习。

实时播报：

详情

Apache ZooKeeper 集群搭建kamik的博客

推荐

心灵鸡汤

列表展示