===搜索引擎的原理===
#爬取网页#建立索引#排序#搜索词处理
===搜索引擎的系统===
#爬虫系统-Crawler#索引系统-Indexer#排序系统-Sorting#用户接口-UI
===索引系统===
索引(Index)是加快查找的数据结构(data structure)
#倒排索引(Inverted Index)是搜索引擎使用的数据结构#倒排索引将关键字(keyword)映射到文档(document)#倒排索引多采用倒排列表(posting list)的数据结构#倒排列表用来存放文档编号,单词频率和文档位置等,来配合单词编号,文档频率和文档位置进行查找
==开源搜索引擎==
危险边缘(Jeopardy)是一个真人竞争答题的电视节目。
#危险边缘设置3个竞赛选手互相对抗,通过丰富的自然语言回答主题涉及广泛的各种问题。#回答问题必须具有置信度、准确度以及回答速度,基本上3秒之内完成答题。
====IBM Watson====
==== 这就是沃森====
#介绍“这就是Watson”#问题分析:Watson怎样读取一个线索#Watson中的深度语法分析#文本资源的获取与工程#文档中自动的知识提取#大海捞针:搜索和候选答案生成#使用类型强制来分类候选答案#文本类证据获取与分析#深度问答中的关系提取与打分#深度问答中的结构化数据与推断#特殊问题和技术#识别隐含的关系#深度问答中基于事实的问题分解#深度问答中答案的合并和评级框架#让Watson更快#Watson游戏策略中的仿真,学习和优化技术#比赛中:Watson和危险边缘的交互
====沃森服务====