文本分类用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。它根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。文本分类从基于知识的方法逐渐转变为基于统计和机器学习的方法。来源网址:https://b...
Bloomberg创建于1981年,是全球商业、金融信息和新闻资讯提供商,通过其强大的集信息、人物及观点为一体的动态网络为全球决策者带来关键优势。 彭博精于以创新的技术来快速、精准地传递数据、新闻和分析。Bloomberg-stock提供全球的股票指数参考,需要科学上网。来源网址:https://w...
文本聚类(Text clustering)文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航...
Commodity解释什么是商品,它们是如何交易的,以及什么驱动价格。来源网址:https://commodity.com/
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语...
Internet World Stats提供全球的互联网使用情况及人口统计。来源网址:https://www.internetworldstats.com/stats.htm
话题检测与跟踪(Topic Detection and Tracking)是一项信息处理技术,这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。TDT(Topic Detection and Tracking,话题检测与跟踪)起源于早期面...
Statcounter GlobalStats提供浏览器使用率参考,统计数据是基于Statcounter收集的汇总数据,这些数据来自Statcounter网络中150多万个网站,样本每月超过50亿次页面浏览量。统计数据每天都在更新,但在发布后的45天内都要进行质量保证测试和修订。来源网址:https...
小世界网络模型是一类具有较短的平均路径长度又具有较高的聚类系数的网络的总称。通过调节一个参数可以从规则网络向随机网络过渡,该模型成为WS小世界模型。由于WS小世界模型构造算法中的随机化过程有可能破坏网络的连通性,Newman和Watts提出了NW小世界网络模型,该模型是通过用“随机化加边”取代WS小...
DATAJOBS网站的Big Data Knowledge Repo栏目提供数据科学家/分析专家的核心知识资源。来源网址:https://datajobs.com/data-science-repo
实体联系模型(Entity Relationship Model),是一种以直观的图示化方式描述实体(集)及其之间联系的语义模型,所以也称为实体—联系图(Entity Relationship Diagram,E-R图),它是一种十分有效的数据库概念模型描述工具,由P.P.Chen于1976年首先提...
Data Is Plural — Structured Archive电子表格跟踪了每周通讯《Data Is Plural》上发布的项目。这个电子表格跟踪数据是复数发布的项目,每周简报突出有用和有趣的数据集。你可以在data-is-plural.com上订阅时事通讯。查看该电子表格需要科学上网。来源...
网络是由若干节点和连接这些节点的链路构成,表示诸多对象及其相互联系。在1999年之前,人们一般认为网络的结构都是随机的。但随着Barabasi和Watts在1999年分别发现了网络的无标度和小世界特性并分别在世界著名的《科学》和《自然》杂志上发表了他们的发现之后,人们才认识到网络的复杂性。网络会借助...
OPEN DATA NETWORK发布并共享数据,查找并构建数据以及回答问题。来源网址:https://www.opendatanetwork.com/
在电信网络中,一个节点(英语:node,拉丁语:nodus)是一个连接点,表示一个再分发点(redistribution point)或一个通信端点(一些终端设备)。节点的定义依赖于所提及的网络和协议层。一个物理网络节点是一个连接到网络的有源电子设备,能够通过通信通道发送、接收或转发信息。因此,无源...
Bigml提供适合机器学习的公共数据集。这些数据集可用于构建预测模型。Bigml希望读者能通过深入了解世界和政府是如何为更大的利益而工作的,来充分利用这些信息。如果您有学术或研究项目,请记住BigML为这些项目提供特别折扣和免费访问。只要你注册了教育邮箱即“.Edu”,就可获取免费的专业订阅。来源网...
HITS算法是由康奈尔大学( Cornell University )的Jon Kleinberg博士于1997年首先提出的,为IBM公司阿尔马登研究中心( IBM Almaden Research Center)的名为“CLEVER”的研究项目中的一部分。按照HITS算法,用户输入关键词后,算法对...
WOLFRAM DATA REPOSITORY是一个公共资源,它承载着一个不断扩展的可计算数据集集合,经过策划和结构化,适合立即用于计算、可视化、分析等。来源网址:https://datarepository.wolframcloud.com/
在图论中,可达性是指从一个顶点到另一个顶点的容易程度。 如果存在一系列相邻顶点,则顶点s可以到达顶点t(并且t可也可以到达s),以s为开头,以t结尾。在无向图中,可以通过识别图的连接分量来确定所有顶点对之间的可达性。当且仅当它们属于同一连通分量时,这种图的任何一对顶点可以彼此到达。可以在线性时间中识...