当前位置:首页 > JavaScript

js实现ngram

2026-01-31 14:02:58JavaScript

js实现ngram

js实现ngram

实现N-gram的JavaScript方法

N-gram是一种从文本中提取连续N个项目的序列的方法,常用于自然语言处理、文本挖掘等领域。以下是几种实现方式:

基于字符串的简单实现

function generateNgrams(text, n) {
  const ngrams = [];
  for (let i = 0; i <= text.length - n; i++) {
    ngrams.push(text.substring(i, i + n));
  }
  return ngrams;
}

处理单词级别的N-gram

function wordNgrams(text, n) {
  const words = text.split(/\s+/);
  const ngrams = [];

  for (let i = 0; i <= words.length - n; i++) {
    ngrams.push(words.slice(i, i + n).join(' '));
  }

  return ngrams;
}

支持多种N值的扩展实现

function multiNgram(text, minN = 1, maxN = 3) {
  const result = {};
  const tokens = text.split(/\s+/);

  for (let n = minN; n <= maxN; n++) {
    result[n] = [];
    for (let i = 0; i <= tokens.length - n; i++) {
      result[n].push(tokens.slice(i, i + n).join(' '));
    }
  }

  return result;
}

带频率统计的N-gram

function ngramWithFrequency(text, n) {
  const ngrams = {};
  const words = text.split(/\s+/);

  for (let i = 0; i <= words.length - n; i++) {
    const gram = words.slice(i, i + n).join(' ');
    ngrams[gram] = (ngrams[gram] || 0) + 1;
  }

  return ngrams;
}

处理标点符号和大小写的改进版

function cleanNgrams(text, n) {
  const cleaned = text.toLowerCase().replace(/[^\w\s]/g, '');
  const words = cleaned.split(/\s+/).filter(Boolean);
  const ngrams = [];

  for (let i = 0; i <= words.length - n; i++) {
    ngrams.push(words.slice(i, i + n).join(' '));
  }

  return ngrams;
}

这些实现可以根据具体需求进行调整,比如处理不同语言、添加停用词过滤或实现更复杂的文本预处理步骤。

标签: jsngram
分享给朋友:

相关文章

js实现瀑布流

js实现瀑布流

实现瀑布流布局 瀑布流布局是一种常见的网页布局方式,常用于图片展示、商品列表等场景。以下是使用 JavaScript 实现瀑布流布局的几种方法。 纯 JavaScript 实现 通过计算元素的位置和…

js实现抽奖

js实现抽奖

实现抽奖功能的基本思路 抽奖功能的核心是随机选择奖项并展示结果。可以通过数组存储奖项,利用随机数生成索引,最后通过动画增强用户体验。 准备奖项数据 定义一个数组存储奖项信息,每个奖项可以包含名称、图…

js jquery

js jquery

jQuery 简介 jQuery 是一个快速、简洁的 JavaScript 库,简化了 HTML 文档遍历、事件处理、动画设计和 Ajax 交互。它兼容多种浏览器,提供易于使用的 API,使开发者能够…

js实现二叉树

js实现二叉树

二叉树的基本概念 二叉树是一种树形数据结构,每个节点最多有两个子节点,分别称为左子节点和右子节点。二叉树的常见操作包括插入、删除、遍历等。 二叉树的节点定义 在JavaScript中,二叉树的节点可…

js类实现

js类实现

使用类实现 JavaScript 功能 在 JavaScript 中,类(Class)是一种语法糖,基于原型继承机制。通过 class 关键字可以更直观地定义对象模板。 基本类定义 class…

js实现自举

js实现自举

实现 JavaScript 自举的方法 JavaScript 自举(Bootstrap)通常指通过 JavaScript 动态加载自身或依赖的脚本,实现运行时环境的初始化或扩展。以下是几种常见实现方式…