最新入驻的公司:睢宁保洁,睢宁保洁公司,睢宁家政,睢宁家政公司,睢宁保姆月嫂,睢宁家电空调清洗等。睢宁家政保洁电话 , 固保丽装饰材料(广州)有限公司 , 云南华晟网套(发泡网)厂 , 内蒙古旱可丰农化有限公司 , 浙江至卓环境科技有限公司 , 四川小灰兔科技有限公司 , zhongxin aluminum co.,ltd , 泉州市博芮贸易有限公司 , 北京四合茗苑建筑设计有限公司 , 惠州市佳美餐饮管理服务有限公司 , 最新加入的产品:Black annealed iron wire , Hot dipped Galvanized steel wire , 福至香高蛋白肉脯100g原味香辣味芝麻味 , 福至香80g猪肉脯原味芝麻味香辣味 , 猪肉脯自然片400g原味香辣味 , 学院成功举办第二届公共课中青年教师教学能力竞赛 , 举办2023年暑期外派教师培训心得分享会 , 不锈钢台面 , 热烈祝贺翁联盟常务副会长旗下企业--浙商大厦落成庆典仪式隆重举行 , 热烈祝贺江北雷诺眼科盛大开业 , 最新的新闻:宁波中学零星维修工程入围项目中标结果公告 , 宁波市社会福利院男学生宿舍整修工程中标公示 , 宁波财经学院部分二级学院电梯采购及相关安装服务采购项目招标公告 , 宁波大学附属康宁医院防火门更换项目采购公告 , 宁波财经学院北宿1#、2#楼安全性及抗震性检测鉴定技术服务项目招标公告 , 宁波市社会福利院康教1号楼外墙粉刷项目采购公告 , 宁波中学零星维修工程入围项目招标公告 , 【世界孤独症关注日】“全生涯服务 全方位关爱”公益宣传活动 , 搪瓷的瓷釉原料 , 宁波大学附属康宁医院宿舍楼改造项目中标公告 , 最新加入的产品:共享壁挂炉 , designer fabrics -- LV fabric, Gucci fabric, Coach fabric, Michael Kors fabric, MCM fabric, , 招聘造价员 , , 工控机软硬件方案 , 春之雨新一代220vCA系列水泥地面混凝土切割机 , 徐州王集香肠有限公司 , 碳纤维系列制品 , 旧机械设备 , 物资回收 ,
网站导航
软件开发除Hadoop外你还需要知道的9个大数据技术
发布时间:2019-05-24 11:45:35 | 人感兴趣 | 评分:3 | 收藏:

  软件开发除Hadoop外你还需要知道的9个大数据技术 GTLC全球技术领导力峰会 Hadoop是大数据领域较流行的技术,但并非。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外,另外9个大数据技术也是必须要了解的。

  Apache Samza

  Google Cloud Data Flow

  StreamSets

  Tensor Flow

  Apache NiFi

  Druid

  LinkedIn WhereHows

  Microsoft Cognitive Services

  Apache Flink:是一个高效、分布式、基于Java实现的通用大数据分析引擎,它具有分布式MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API。这是一种由社区驱动的分布式大数据分析开源框架,类似于Apache Hadoop和Apache Spark。它的引擎可借助数据流和内存中(in-memory)处理与迭代操作改善性能。目前Apache Flink已成为一个项目(Top Level Project,TLP),于2014年4月被纳入Apache孵化器,目前在全球范围内有很多贡献者。

  

 

  Flink受到了MPP数据库技术(Declaratives、Query Optimizer、Parallel in-memory、out-of-core 算法)和Hadoop MapReduce技术(Massive scale out, User Defined functions, Schema on Read)的启发,有很多独特功能(Streaming, Iterations, Dataflow, General API)。详细了解Apache Samza:是一个开源、分布式的流处理框架,它使用开源分布式消息处理系统Apache Kafka来实现消息服务,并使用资源管理器Apache Hadoop Yarn实现容错处理、处理器隔离、安全性和资源管理。该技术由LinkedIn开发,较初目的是为了解决Apache Kafka在扩展能力方面存在的问题,包含诸如Simple API、Managed state、Fault Tolerant、Durable messaging、Scalable、Extensible,以及Processor Isolation等功能。

  

 

  相关厂商内容滴滴出行iOS客户端架构演进之路!微信客户端如何应对弱网络!函数式编程中的Swift与Swift中的函数式编程!你离成为一位合格的技术领导者还有多远?国际范 较前沿 不容错过的容器技术盛会相关赞助商

  

 

  GMTC全球移动技术大会2016年6月24日-25日,,点击了解详情!Samza的代码可作为Yarn作业运行,还可以实施StreamTask接口,借此定义process()调用。StreamTask可以在任务实例内部运行,其本身也位于一个Yarn容器内。详细了解Cloud Dataflow:Dataflow是一种原生的Google Cloud数据处理服务,是一种构建、管理和优化复杂数据流水线的方法,用于构建移动应用,调试、追踪和监控产品级云应用。它采用了Google内部的技术Flume和MillWhell,其中Flume用于数据的高效并行化处理,而MillWhell则用于互联网级别的带有很好容错机制的流处理。该技术提供了简单的编程模型,可用于批处理和流式数据的处理任务。该技术提供的数据流管理服务可控制数据处理作业的执行,数据处理作业可使用Data Flow SDK(Apache Beam)创建。

  

 

  Google Data Flow为数据相关的任务提供了管理、监视和安全能力。Sources和Sink可在管线中抽象地执行读写操作,管线封装而成的整个计算序列可以接受外部来源的某些输入数据,通过对数据进行转换生成一定的输出数据。了解详情StreamSets:StreamSets是一种专门针对传输中数据进行过优化的数据处理平台,提供了可视化数据流创建模型,通过开源的方式发行。该技术可部署在内部环境或云中,提供了丰富的监视和管理界面。

  

 

  数据收集器可使用数据管线实时地流式传输并处理数据,管线描述了数据从源头到较终目标的流动方式,可包含来源、目标,以及处理程序。数据收集器的生命周期可通过管理控制台进行控制。了解详情TensorFlow:是继DistBelief之后的第二代机器学习系统。TensorFlow源自Google旗下的Google Brain项目,主要目标在于为Google全公司的不同产品和服务应用各种类型的神经网络机器学习能力。支持分布式计算的TensorFlow能够使用户在自己的机器学习基础结构中训练分布式模型。该系统以高性能的gRPC数据库为支撑,与较近发布的Google云机器学习系统互补,使用户能够利用Google云平台,对TensorFlow模型进行训练并提供服务。这是一种开源软件库,可使用数据流图谱(data flow graph)进行数值运算,这种技术已被包括DeepDream、RankBrain、Smart Replyused在内的各种Google项目所使用。

  

 

  数据流图谱使用由节点(Node)和边缘(Edge)组成的有向图(Directed graph)描述数值运算。图谱中的节点代表数值运算,边缘代表负责在节点之间进行通信的多维数据阵列(张量,Tensor)。边缘还描述了节点之间的输入/输出关系。“TensorFlow”这个名称蕴含了张量在图谱上流动的含义。了解详情Druid:Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析,诞生于2011年,包含诸如驱动交互式数据应用程序,多租户:大量并发用户,扩展能力:每天上万亿事件,次秒级查询,实时分析等功能。Druid还包含一些特殊的重要功能,例如低延迟数据摄入、快速聚合、任意切割能力、高可用性、近似计算与计算等。创建Druid的较初意图主要是为了解决查询延迟问题,当时试图使用Hadoop来实现交互式查询分析,但是很难满足实时分析的需要。而Druid提供了以交互方式访问数据的能力,并权衡了查询的灵活性和性能而采取了特殊的存储格式。(点击放大图像)

  

 

  该技术还提供了其他实用功能,例如实时节点、历史节点、Broker节点、Coordinator节点、使用基于JSON查询语言的索引服务。了解详情Apache NiFi:Apache NiFi是一套强大可靠的数据处理和分发系统,可用于对数据的流转和转换创建有向图。借助该系统可以用图形界面创建、监视、控制数据流,有丰富的配置选项可供使用,可在运行时修改数据流,动态创建数据分区。此外还可以对数据在整个系统内的流动进行数据起源跟踪。通过开发自定义组件,还可轻松对其进行扩展。(点击放大图像)

  

 

  Apache NiFi的运转离不开诸如FlowFile、Processor,以及Connection等概念。了解详情LinkedIn WhereHows:WhereHows提供带元数据搜索的企业编录(Enterprise catalog),可以让您了解数据存储在哪里,是如何保存到那里的。该工具可提供协作、数据血统分析等功能,并可连接至多种数据源和提取、加载和转换(ETL)工具。(点击放大图像)

  

 

  该工具为数据发现提供了Web界面,支持API的后端服务器负责控制元数据的爬网(Crawling)以及与其他系统的集成。了解详情Microsoft Cognitive Services:该技术源自Project Oxford和Bing,提供了22种认知计算API,主要分类包括:视觉、语音、语言、知识,以及搜索。该技术已集成于Cortana Intelligence Suite。(点击放大图像)

  

 

  这是一种开源技术,提供了22种不同的认知计算REST API,并为开发者提供了适用于Windows、IOS、Android以及Python的SDK。

您看到此篇文章时的感受是:
作者: 来源: 编辑:baggio打印此文】【加入收藏】【字体:
更多评论
发表评论()
评论内容:
验 证 码: 验证码看不清楚?请点击刷新验证码
匿名发表 
最新评论
热门软件开发