-
Apache Flink 漫谈系列 - SQL概览
所属栏目:[教程] 日期:2018-11-16 热度:193
一、SQL简述 SQL是Structured Query Language的缩写,最初是由美国计算机科学家Donald D. Chamberlin和Raymond F. Boyce在20世纪70年代早期从 Early History of SQL 中了解关系模型后在IBM开发的。该版本最初称为[SEQUEL: A Structured English Query Lang[详细]
-
MapReduce运行原理
所属栏目:[教程] 日期:2018-11-16 热度:138
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce采用分而治之的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是任务的分[详细]
-
没有数学和编程基础,这几个数据科学项目了解一下
所属栏目:[教程] 日期:2018-11-16 热度:112
大数据文摘出品 编译:蒋宝尚 今天,文摘菌给大家介绍几个比较有特色的数据科学模块,这些模块原本是一些教师用来进行教学使用,帮助学生有机会使用与其课程相关的数据集,并指导学生进行数据分析以及帮助理解统计和计算机原理。 一起来看~ 模块合集链接:[详细]
-
Apache Flink在唯品会的实践
所属栏目:[教程] 日期:2018-11-16 热度:73
唯品会实时平台现状 目前在唯品会实时平台并不是一个统一的计算框架,而是包括Storm,Spark,Flink在内的三个主要计算框架。由于历史原因,当前在Storm平台上的job数量是最多的,但是从去年开始,业务重心逐渐切换到Flink上面,所以今年在Flink上面的应用[详细]
-
如何选择大数据的编程语言
所属栏目:[教程] 日期:2018-11-12 热度:122
前言 有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非[详细]
-
十分钟了解大数据处理的五大关键技术及其应用
所属栏目:[教程] 日期:2018-11-12 热度:100
数据处理是对纷繁复杂的海量数据价值的提炼,而其中最有价值的地方在于预测性分析,即可以通过数据可视化、统计模式识别、数据描述等数据挖掘形式帮助数据科学家更好的理解数据,根据数据挖掘的结果得出预测性决策。其中主要工作环节包括: 大数据采集、[详细]
-
Commvault助力山东省立医院搭建一体化数据管理平台
所属栏目:[教程] 日期:2018-11-08 热度:139
2018年是医疗支付转型和医疗IT转型的拐点之年,新兴医疗健康服务体系、新的医疗IT系统得到了空前充足的发展动力和全新的发展空间。 IDC在近期一份针对中国医疗行业未来5年的IT市场预测提到,伴随医联体、分级诊疗的体系建设持续深入,社保医疗保险进行整合[详细]
-
回顾那些年2G给我们带来的阴影
所属栏目:[教程] 日期:2018-11-08 热度:132
图片来源:视觉中国 毫无疑问,5G在今天是越来越热了。各种关于它的话题不断飞舞,炒作与实锤接连爆出。 如果此时我们想要感受一下什么叫只见新人笑,不见旧人哭,那最好的办法就是去看看5G的老前辈,差不多我们所有人都朝夕相伴过的2G 是不是觉得这个词已[详细]
-
物联网对大数据的影响
所属栏目:[教程] 日期:2018-11-08 热度:113
大数据和物联网交织在一起,我们周围的每台设备都连接到云端,实时共享数据。智慧农业、电子医疗、智能零售、智能家居、智慧城市、智能环境是当今世界中的一些物联网应用,这些行业应用生成大量数据,旨在改善其业务流程,增强客户体验,并在日益激烈的竞[详细]
-
数据科学项目管理中的“黄金标准”
所属栏目:[教程] 日期:2018-11-08 热度:154
大数据文摘出品 编译:茶西、陈同学、Aileen 如何建立一个数据科学项目管理?建立的标准又是什么? 我想大多数人至少承认这一点:你的研究需要让其他人能够轻松地理解你在项目中做了什么,并能复制这些结果。 此外,你还得对文件的命名方式多加注意,具体做[详细]
-
一文读懂5G基站和4G基站如何协同工作?
所属栏目:[教程] 日期:2018-11-08 热度:193
前两天,有网友留言问5G基站和4G基站如何协同工作,今天我们就来探讨探讨这个问题 5G和4G基站如何搞基? 众所周知,3GPP最新发布的5G NSA标准采用LTE与5G NR新空口双连接(LTE-NR DC)的方式,以4G作为控制面的锚点,4G基站(eNB)为主站,5G基站(gNB)为从站,[详细]
-
华为启动呼叫模式:有趣的灵魂应该去未来应用创意大赛晒一晒!
所属栏目:[教程] 日期:2018-11-01 热度:91
【51CTO.com原创稿件】科技一直在改变人们的生活,而科技创新则驱动着未来变得更好。当今随着人工智能、云计算、物联网等科技领域的发展,一个智能的未来世界正在逐渐成为现实。在这个未来世界里,我们每一个人都可以贡献自己的创意让它变得更美好。日前,[详细]
-
光纤技术取得突破 互联网速度可提高100倍
所属栏目:[教程] 日期:2018-11-01 热度:63
据外媒报道,近日发表在《自然通讯》上的一篇文章称,通过检测扭曲成螺旋状的光线,互联网速度可以提高 100 倍。这项研究可用于轻松升级现有的网络,大幅提高传输效率。 光纤线缆使用光脉冲来传输信息,但目前信息只能通过光的颜色,以及波是水平的还是垂[详细]
-
VXLAN技术介绍:三层的网络来搭建虚拟的二层网络
所属栏目:[教程] 日期:2018-11-01 热度:167
一、VXLAN概述 1. 什么是 VXLAN VXLAN(Virtual Extensible LAN)虚拟可扩展局域网,是一种 overlay 网络技术,将原始2层以太网帧进行UDP封装 (MAC-in-UDP),增加8字节 VXLAN头部,8字节 UDP头部, 20字节 IP 头部和14字节以太网头部,共50字节。 2. VXLAN优[详细]
-
SD-WAN来了,分支路由器就不要了? - 网络·安全技术周刊第362期
所属栏目:[教程] 日期:2018-11-01 热度:117
【责任编辑:蓝雨泪 TEL:(010)68476606】 点赞 0[详细]
-
4000+系统,10w+服务的立体式监控是如何炼成的? - 网络·安全技术周刊第361期
所属栏目:[教程] 日期:2018-11-01 热度:172
【责任编辑:蓝雨泪 TEL:(010)68476606】 点赞 0[详细]
-
SD-WAN简化网络管理的六种方式
所属栏目:[教程] 日期:2018-11-01 热度:110
对于软件定义广域网(SD-WAN)来说,用与用好还是有很大差别的。作为一种新兴的企业组网解决方案SD-WAN,不仅能够实现广域网加速、节省带宽投入成本、应用灵活外,实际上还有6种简化网络管理的功能,包括集中管理、Web界面化管控、智能自动化选路、基于性能[详细]
-
数据挖掘领域十大经典算法之—CART算法(附代码)
所属栏目:[教程] 日期:2018-11-01 热度:180
简介 CART与C4.5类似,是决策树算法的一种。此外,常见的决策树算法还有ID3,这三者的不同之处在于特征的划分: ID3:特征划分基于信息增益 C4.5:特征划分基于信息增益比 CART:特征划分基于基尼指数 基本思想 CART假设决策树是二叉树,内部结点特征的取[详细]
-
九个经典有趣的数据挖掘案例
所属栏目:[教程] 日期:2018-10-29 热度:192
1、啤酒和尿布 全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。 没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,啤酒+尿布[详细]
-
用Python分析北京二手房房价
所属栏目:[教程] 日期:2018-10-29 热度:77
数据初探 首先导入要使用的科学计算包numpy,pandas,可视化matplotlib,seaborn,以及机器学习包sklearn。 importpandasaspd importnumpyasnp importseabornassns importmatplotlibasmpl importmatplotlib.pyplotasplt fromIPython.displayimportdisplay plt.[详细]
-
”微服务一条龙“最佳指南-工具篇:初步使用Pipenv
所属栏目:[教程] 日期:2018-10-26 热度:83
首先贴上Pipenv的主页 GitHub地址:https://github.com/pypa/pipenv 文档地址:https://docs.pipenv.org 背景介绍 1.什么是Pipenv? 回答:包和版本管理的最好工具,pipenv 是 Pipfile 主要倡导者、requests 作者 Kenneth Reitz 写的一个命令行工具,主要包[详细]
-
Adaptive Execution 让 Spark SQL 更智能更高效
所属栏目:[教程] 日期:2018-10-26 热度:181
本文转发自技术世界,原文链接 http://www.jasongj.com/spark/adaptive_execution/ 1 背景 前面《Spark SQL / Catalyst 内部原理 与 RBO》与《Spark SQL 性能优化再进一步 CBO 基于代价的优化》介绍的优化,从查询本身与目标数据的特点的角度尽可能保证了[详细]
-
没有完美的数据插补法,只有最适合的
所属栏目:[教程] 日期:2018-10-26 热度:159
大数据文摘出品 编译:张秋玥、胡笳、夏雅薇 数据缺失是数据科学家在处理数据时经常遇到的问题,本文作者基于不同的情境提供了相应的数据插补解决办法。没有完美的数据插补法,但总有一款更适合当下情况。 我在数据清理与探索性分析中遇到的最常见问题之一[详细]
-
浅谈SDN架构下的运维
所属栏目:[教程] 日期:2018-10-26 热度:62
目前国内的网络运维还处于初级阶段,工作人员每天就像救火一样,天天疲于奔命。什么破网络怎么又断了,我去,服务器宕机啊,这个网速慢的跟乌龟爬的一样,这些埋怨声每天都在运维人员耳边回荡。运维人员只能埋头查找系统运行的日志,耗时耗力,老眼昏花不[详细]
-
根据网络覆盖范围区分交换机的不同
所属栏目:[教程] 日期:2018-10-26 热度:199
随着交换机数量越来越多,对于其分类的根据也有很多不同的方法,之前我们说过交换机根据不同工作协议层可分为二层交换机、三层交换机和四层交换机。这次我们就看看根据网络覆盖范围分出的广域网交换机和局域网交换机各具有什么特性。 交换机机房(图片来源z[详细]
